点击上方“ 会议之眼 ”关注
重磅干货,第一时间送达

ACM MM 2023
ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM),是计算机科学领域中多媒体领域首屈一指的国际会议。该会议是CCF推荐的A类会议,H5指数71,Impact Score 12.90。该会议专注于推动多媒体研究和应用,其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。其热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华圆满举行!本文小编将带领大家一起梳理ACM MM 2023的获奖论文!让我们一起来深入探索这些令人惊叹的优秀研究成果吧!

最佳论文奖
题目:CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
作者:Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao
简介:音视频分割(AVVS)旨在生成图像帧内产生声音的对象的像素级映射,并确保该映射准确地遵循给定的音频。现有方法存在两个限制:1)它们分别处理视频时间特征和音视频交互特征,忽略了组合音频和视频的内在时空依赖性;2)它们在解码阶段不充分引入音频约束和对象级信息,导致分割结果不符合音频指令。为了解决这些问题,本文提出了一种解耦的音视频转换器,从各自的时间和空间维度中结合音频和视频特征,捕捉它们的组合依赖性。
论文链接:https://arxiv.org/abs/2309.09709
code:https://github.com/aspirinone/CATR.github.io

最佳学生论文奖
题目:Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error
作者:Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang
简介:本文提出了一种名为Cal-SFDA的新型标定引导的无源领域自适应语义分割框架。该框架的核心思想是估计分割预测的期望校准误差(ECE),作为模型对未标记目标领域的泛化能力的强指示器。反过来,估计的ECE分数有助于模型训练和公平选择源训练和目标适应阶段。在源域上的模型预训练期间,作者通过利用LogSumExp技巧并使用ECE分数来选择最好的源检查点来进行适应,确保了ECE目标的可微性。

论文链接:https://arxiv.org/abs/2308.03003
荣誉提名奖
题目:RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection
作者:Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin
简介:本文提出了一种无提议细化方法RefineTAD,用于时间动作检测任务中精细边界定位。该方法通过提出多级细化模块和偏移聚焦策略来逐步改进预测结果,从而在三个具有挑战性的数据集上显著提高了最先进的时间动作检测方法的性能。

论文链接:https://dl.acm.org/doi/abs/10.1145/3581783.3611872
创新创意奖
题目:Semantics2Hands: Transferring Hand Motion Semantics between Avatars
作者:Zijie Ye, Jia Jia, Junliang Xing
简介:本文提出了一种名为Anatomy-based Semantic Matrix (ASM)的新颖方法,用于在多个化身之间传输手势语义。该方法通过将手势语义编码到ASM中,并使用基于解剖学的语义重构网络(ASRN)来获得源ASM到目标手关节旋转的映射函数,从而实现精确的手势重定向。作者在Mixamo和InterHand2.6M数据集上使用半监督学习策略训练了ASRN,并在域内和跨领域的手势重定向任务中进行了评估。

论文链接:https://arxiv.org/abs/2308.05920
code:https://github.com/abcyzj/Semantics2Hands
开源奖
题目:Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research
作者:Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock
简介:本文介绍了一种Python库:情感识别工具包(ERTK),用于情感识别。ERTK包括处理情感数据集的脚本、特征提取器的标准接口以及使用声明性配置文件定义实验的框架。ERTK是模块化和可扩展的,可以轻松地集成其他模型和处理器。当前版本的ERTK主要关注情感语音,但可以轻松扩展到其他模态,这是未来的计划。

论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3613459
code:https://github.com/Strong-AI-Lab/emotion
最佳演示奖
题目:Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing
作者:Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong
简介:道路测量对于地方政府有效管理道路网络至关重要,但目前的方法存在成本高、耗时且不准确的问题。本文提出了一种自动测量平台,支持杂草、缺陷和资产监控,并利用视觉语言模型提高灵活性。对于特定领域的类别,如路面裂缝和坑洞,该平台通过训练检测器并使用VLMs来减少误报。该系统通过移动应用程序使管理人员直接参与,实现捕捉、上传、实时监控和开放词汇检测等功能。

论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3612668
往期精彩文章回顾
数字人演讲合成功能震撼上线!让思想插上人工智能的翅膀,跨越时空与界限!
现场探报|2023年NIPS大会盛况揭秘!
1864篇ICASSP收录论文!5G、量子、语音、信号处理!最全面的论文合集!