首页 >> 创业 >> CVPR2022 Oral | AI学会“欣赏”音乐会,还get了推理技能,来自人大高瓴AI所学院

CVPR2022 Oral | AI学会“欣赏”音乐会,还get了推理技能,来自人大高瓴AI所学院

2023-02-24 创业

,有助于越来越不易地分析全方位交互过场阐释和逻辑推理,并可以在一定程度上避免过场之前的噪声原因。

大多数公开题目类讯息集(ActivityNet-QA, AVSD等)之前的声响讯息通常与其图像都可不最简单,会消除严重的噪声(如背景流行音乐),这使得它们较难探险完全相同形式语言之间的共同点。此外,TVQA讯息集虽然纸制含图像和声响形式语言,但其声响是由有机体说话声组成的,在其题目对实现过程之前也只应应用于了附纳的片尾讯息,并不是根本的视音共同点过场。

最终讯息集纸制含了 9,288个影片并纸制含了22种长笛,其 总间隔时间有约150小时。并且以众纸制的形式形成了 45,867个题目对,千分之每个影片约5个题目对,这些题目对扩及了完全相同形式语言下的9类原因类别以及33个完全相同的原因模板。丰富而繁多适合于的讯息集对AVQA勤务的分析很强比较大的价值和意义。

△MUSIC-AVQA讯息集多维统计分析

2. 数学方法方法

为了妥善解决上述 AVQA 勤务,我们分别从维度和有序听觉的角度驶向,指出了一种动态视音过场下的维度-有序题目数学方法(如下图简述)。

△动态视音过场的维度-有序题目数学方法

首先,声响及其图像东光的右方说明了了全方位形式语言之间的维度共同点,这有助于将适合于的过场分解为基本的全方位共同点。因此我们指出了一个基于冲动有助于的声东光聚焦的维度模块来建模这种跨越形式语言的共同点。

其次,由于全方位过场随时间段动态变化,因此捕捉和突出与原因都和的关键时间段捏至关重要。因此,我们指出了应应用于原因相似性作为核对的时间段为基础模块来催生关键时间段片段,以有效格式原因听觉音频和图像的嵌入。

最后,融合上述维度听觉和时间段听觉的全方位相似性,受益题目的联合表示,以预测影片共同点原因的准确。

3. 实验结果

如下表简述,引进Audio和Visual形式语言讯息都有助于数学方法机动性的强化。

此外,能引人注意见到当联结声响和图像形式语言时,AV+Q 数学方法的机动性比A+Q和V+Q数学方法要好得多,这表明多心灵听觉有助于强化题目勤务的机动性。

我们也能见到视音维度共同点模块和有序共同点模块都尽可能很引人注意地强化数学方法的机动性,从而越来越不易地对过场进行阐释。

△完全相同形式语言消融实验表

下表则展示了一些不太可能的QA方法在我们的MUSIC-AVQA讯息集上的结果。

结果首先表明所有的AVQA方法都要好于VQA、AQA和VideoQA方法,这说明多形式语言听觉可以有益于AVQA勤务。

其次我们的方法在大多数全方位原因上取得了比较大的进步,尤其是对于并不需要维度和有序逻辑推理的全方位原因越来越为引人注意(如Temporal和Localization等)。

△与其他QA类方法对比

为了进一步说明所提数学方法的有效性和可解释性,我们进行了一些图形展示。其之前热力图表示声东光的右方,热力图下方的表格表示有序上的冲动分数。从图形结果可以引人注意可知所提的数学方法在多形式语言全方位过场之前很强很好的阐释和逻辑推理灵活性。

△图形结果

总述

总体来说,本文探险了如何讲出有关完全相同图像都可、声响及其在影片之前的共同点的原因,从而对动态适合于的视音过场进行细粒度阐释和逻辑推理。

作者团队实现了一个纸制含45,867个完全相同全方位形式语言和多种原因类别题目对的大规模MUSIC-AVQA讯息集,以及指出了一个简便高效的视音有序-维度数学方法来很好的妥善解决AVQA原因。

我们相信指出的MUSIC-AVQA讯息集可以成为评估全方位过场细粒度阐释和异次元逻辑推理的依此平台,同时也认为这项工作是探险全方位逻辑推理的章中之作,为该应用领域开创了一个良好的开端,并意欲希望尽可能激励越来越多的分析者同我们一道去探险这一应用领域。

团队主要来自人大AI该学院

本项分析由南京的学校高瓴人工智慧该学院主导,与美国罗彻斯特的学校合作关系完成,通讯作者为GeWu实验室 胡迪现职教授,主要素材由GeWu实验室博士生 纳吉负责。

胡迪家教于2019年获得西北工业的学校博士学位,师从李学龙教授,曾任百度分析生院人工智慧分析员,于2020年8月纳入南京的学校。胡迪家教受之前国科协青年组人才托举工程捐助,曾荣获2020年之前国人工智慧学术委员会优博奖,入选南京的学校“多才多艺学者”开发计划。

GeWu实验室迄今基本的分析方向主要除此以外多形式语言过场阐释、多形式语言学习有助于和跨越形式语言交互与生成等。

项目地址:

— 完—

「人工智慧」、「智能汽车」网易社区邀你纳入!

欢迎高度重视人工智慧、智能汽车的小伙伴们纳入我们,与AI近来交流会、传授,不错过近期行业拓展&技术困难重重。

ps.纳好友商量务必备注您的姓名-公司-职位哦~

点这里 👇高度重视我,记得标星哦~

一键三连「体会」、「点赞」和「在看」

科技前沿困难重重日日相见~

职场双减cp英太青x7分甜甩痛舞
复方鳖甲软肝片
眼睛不舒服用什么滴眼液
视疲劳滴眼液该怎么用
去看病人买什么东西合适
友情链接