信息学院AIMC实验室两篇论文被计算机视觉顶会ECCV2022录用
信息学院人工智能与媒体计算实验室(AIMC Lab)关于视频检索和眼底图像匹配的两项研究被欧洲计算机视觉会议(ECCV 2022)录用。ECCV是与CVPR、ICCV齐名的计算机视觉三大顶会之一,每两年召开一次。据了解,今年有效投稿5803篇,录用1650篇,录用率28%。
论文介绍
论文题目: Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
作者:胡帆,陈坳珠,王子玥,周方铭,董建锋,李锡荣
通讯作者:李锡荣
论文概述:本文研究跨模态视频检索。在此种检索范式中,用户通过自然语言表达其查询需求。为了计算文本和视频的跨模态语义相关度,现有主流方法是先从视频和文本中分别提取基础特征,然后再经特定的特征再学习网络,将基础特征嵌入到一个或多个跨模态的公共空间中,以实现文本和视频的跨模态匹配。在此背景下,本文重新审视了特征融合(feature fusion)这一经典问题,并提出了可同时用于文本侧和视频侧、轻量级注意力特征融合(Lightweight Attentional Feature Fusion,简称LAFF)。LAFF既可作为一个前融合(early fusion)模块分别在文本侧和视频侧融合多个单模态、多尺度(帧级/视频级)基础特征,也可作为一个后融合(late fusion)模块集成经多个公共空间计算得到的相关度得分。并且,LAFF较多头自注意力(multi-head self-attention)模块具有更好的特征选择能力,在不降低检索性能的前提下减少基础特征的使用,从而降低检索模型的实际部署成本。LAFF的有效性在多个公开数据集上得到了验证。
预印本:https://arxiv.org/abs/2112.01832
源代码:https://github.com/ruc-aimc-lab/LAFF
论文题目: Semi-Supervised Keypoint Detector and Descriptor for Retinal Image Matching
作者:刘家真,李锡荣,魏奇杰,徐捷,丁大勇
论文概述:眼底图像匹配(retinal image matching)作为眼底图像处理和分析的一项重要技术,在眼底图像配准、身份识别、个性化慢病管理等多个任务中起着关键作用。现有方法大多基于传统数字图像处理技术实现。传统技术存在超参数设置复杂,病变条件下匹配质量差,适用任务单一等问题,使得现有方法的适用范围较窄。本文提出了具备端到端学习能力的眼底图像关键点检测和描述网络SuperRetina。注意到当前可用的眼底图像标注数据极其稀少,难以有效支撑深度神经网络的训练。针对标注数据稀缺性问题,本文提出了渐进式关键点扩充(progressive keypoint expansion,简称PKE)的半监督学习策略。在每个训练步骤,PKE利用初始输入的关键点标记和SuperRetina输出的预测结果,进行基于关键点位置几何一致性和关键点特征内容一致性的双重筛选,从而自动在欠标注以及无标注眼底图像数据中发现之前未被标记的高可靠关键点,不断扩充关键点标记集合。SuperRetina的有效性和通用性在多个真实世界数据集上得到了验证。
预印本:https://arxiv.org/abs/2207.07932
源代码:https://github.com/ruc-aimc-lab/SuperRetina
来源:信息学院
Copyright ©2016 中国人民大学理工学科建设处 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号