高瓴人工智能学院师生论文被CCF A类会议AAAI录用
12月1日,国际人工智能顶级会议AAAI 2022论文接受结果公布,中国人民大学高瓴人工智能学院师生有6篇论文被录用。AAAI(Association for the Advance of Artificial Intelligence)是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。本届会议共收到9215篇投稿论文,接受率为15%。
2021年1月至今,高瓴人工智能学院已发表或被录用CCF A类国际期刊和会议论文75篇、CCF B类期刊和论文31篇。
附:论文介绍
论文题目:Distributed Randomized Sketching Kernel Learning
作者:殷荣,刘勇,孟丹 通讯作者:刘勇
论文概述:本文研究基于随机素描(randomized sketching)的分布式核岭回归方法的统计和计算性质,证明仅用比原始方法小得多的计算资源就能得到与原始方法相同的学习率。具体地,本文所提出的大规模核学习方法有机地融合了随机素描和分布式,并成功地推导出与原始核岭回归相同的学习率。为了进一步提高学习性能,构造了一种全新的通信策略,并通过理论证明了所提通信策略的有效性。最后在大量模拟和真实数据上验证了所提大规模核方法的有效性。
论文题目:SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition
作者:范肇心,宋振波,刘红岩,卢志武,何军,杜小勇
论文概述:基于点云的大规模场景识别是自动驾驶领域和并发建图与定位(SLAM)领域的关键性技术之一。现有算法通过学习点云场景中的近程局部信息已经取得了不错的性能,但是他们通常忽略了如何利用蕴含在点云中的长程上下文特征。除此之外,现有算法庞大的参数量也使得将现有算法泛化到轻量级硬件设备上成为一个巨大的挑战。为了解决上述问题,本文提出了一个叫作SVT-Net的超轻量化网络。同时,受益于ASVT和CSVT的轻量性和高效性,SVT-Net在场景识别准确度、算法效率和模型大小上,都能达到SOTA的效果。此外,我们也在文中介绍了SVT-Net的两个简化版本,在保障识别准确度的前提下,将模型参数量分别进一步降低为了0.4M和0.8M。
论文题目:Interventional Multi-Instance Learning with Deconfounded Instance-Level Prediction
作者:林天成,许洪腾,杨璨乾,徐奕
论文概述:在应用多实例学习(MIL)对实例包进行预测时,实例的预测准确性通常不仅取决于实例本身,还取决于其在相应包中的上下文。从因果推断的角度来看,这种“包上下文先验”作为混杂因素可能会导致模型鲁棒性和可解释性问题。针对这个问题,我们提出了一种新颖的介入式多实例学习(IMIL)框架来实现去混淆的实例级预测。与传统的基于似然函数最大化的策略不同,我们设计了一种基于因果干预的期望最大化(EM)算法,在训练阶段提供稳健的实例选择并抑制由包上下文先验引起的偏差。病理图像分析实验表明,我们的IMIL方法大大减少了误报并优于最先进的MIL方法。
论文题目:Visual Sound Localization in-the-Wild by Cross-Modal Interference Erasing
作者:刘锡安,钱锐,周航,胡迪,林巍峣,刘子纬,周博磊,周晓巍
论文概述:现有的音视频声源定位技术大多应用在受限的特定场景中,在这些场景中,音频信号往往较为简单清晰。然而,在现实世界中,音频中通常包含背景和画外噪声,这些噪声会对视觉-声音的跨模态关联产生干扰,导致难以准确识别和定位发声物体。在这项工作中,我们提出了一个干扰消除框架,用于解决无约束视听场景中的声源定位问题。该框架的关键是通过构建有判别性的音频表征来消除干扰。具体来说,我们发现基于音频信号的可加性,现有的构建单个声音表征的方法是不充分的。我们使用音频实例判别模块进一步扩展了音频表征,它有助于在不同音量的音频信号不均匀混合的情况下清晰地区分不同声音实例。然后,我们提出跨模态参考模块,通过跨模态蒸馏消除画外音和不发声视觉物体的影响。定量和定性的实验评估表明,我们提出的框架在声源物体定位任务上取得了优异的结果,尤其是在现实世界的场景中实现了突破。
论文题目:SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation
作者:周东展,周心池,胡迪,周航,白磊,刘子纬,欧阳万里
论文概述:多种模态可以提供丰富的语义信息,因此在同单模态相比时,它通常会带来更好的性能。然而,由于不同模态的特征维度和语义上的差异,设计有效的跨模态融合结构是并不容易的,尤其是当输入是来自截然不同的传感器时,如视觉与声音模态。在本项工作中,我们提出了一种新颖的融合框架,称作SepFusion。它可以产生用于视觉辅助声源分离的最佳融合结构。该框架由两个组件组成,即模型生成器和评估器。为了构建生成器,我们设计了一个轻量级的架构空间,可以适应不同的输入模式,进而我们就可以根据需求获取对应的视音融合结构。对于评估器,我们采用神经架构搜索的思想来有效地选择表现优异的网络。这种自动化过程可以在实现具有竞争力的性能的同时显著节省人力。此外,由于我们提出的SepFusion提供了一系列强大的模型,我们可以将其用于更广泛的应用中,例如通过模型组装进一步提升性能,或为某些乐器类别的声音分离提供合适的架构。这些潜在的应用进一步增强了我们方法的竞争力。
论文题目:How Does Knowledge Graph Embedding Extrapolate on Unseen Data: a Semantic Evidence View
作者:李韧,曹亚男,朱倩男,毕冠群,方芳,柳毅,李谦
论文概述:当前众多现象表明,知识图谱嵌入表示学习工作可以在外推场景下取得成功,即给定一个训练中未出现的三元组,模型依旧能表现出良好的预测效果,这种外推能力令人印象深刻。但已有工作大多集中于设计精巧的三元组建模函数,并没有对这种外推现象进行充分研究。因此本篇工作对以下两个问题进行了探讨:第一,知识图谱表示模型是如何进行外推的?第二,如何设计具备更强外推能力的知识图谱表示模型?一方面,我们从语义匹配的视角,在关系、实体和三元组层面上分别提出了三种语义证据,并通过对广泛的基线模型的实验分析,验证了这三种语义证据在模型外推方面的重要作用。另一方面,为了更好地利用外推信息,我们将三种语义证据融入邻域模式中,设计了一种新颖的图神经网络模型用于学习知识图谱嵌入表示,称为语义证据-图神经网络(SE-GNN,Semantic Evidence-Graph Neural Network),以更显示、充分的方式对三种语义证据进行了建模。
来源:人大新闻网(高瓴人工智能学院)
https://news.ruc.edu.cn/archives/357091
Copyright ©2016 中国人民大学理工学科建设处 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号