近日,第63届国际计算语言学年会(Annual Meeting of the Associa-tion for Computational Linguistics,简称 ACL)公布ACL 2025的论文录用消息。中国人民大学信息学院金琴教授团队被 ACL 2025长文录用5篇Main + 3篇findings。
ACL 年会是计算语言学和自然语言处理领域国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。
论文简述:多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来在文档理解任务中取得了令人瞩目的进展。在不依赖OCR的场景下,近期工作通过提升输入给大模型的文档图像的分辨率实现了更强的图文理解能力。然而,目前的模型在处理高分辨率输入时产生大量的视觉Token,严重增加了GPU显存消耗,并显著拖慢了推理速度,尤其是在多页文档的处理上十分明显。为此,我们提出了一种高效的高分辨率特征压缩模块DocCompressor,它可将每张高分辨率文档图像压缩为仅324个Token,压缩过程由低分辨率的全局视觉特征引导完成。基于该模块,我们进一步构建了多页文档理解模型DocOwl2,并采用三阶段训练框架:单图预训练、多图持续预训练以及多任务微调,在有效压缩Token数量的同时,全面提升了多页视觉文档问答的能力。DocOwl2在多个多页文档理解基准上达到了最优性能,并将首Token响应时间降低超过50%。在单页理解任务上,DocOwl2仅使用不到20%的视觉Token,达到了与同类单图模型相当的表现。本文的代码、模型与数据集已在以下仓库开源https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2。
论文四简介
论文题目:Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
论文题目:Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
论文作者:王文轩,高揆一,袁尤良,黄任泽,刘秋志,王帅,焦文祥,涂兆鹏
论文概述:
我们提出了一种通过多步编辑对图像生成模型进行越狱攻击的新方法。对于一个有害请求(如"generate a slogan of 'GPT will destroy the world'"),我们使用大语言模型将该请求巧妙地拆分成一系列看似无害的多步编辑指令(如"generate a slogan of 'GPT'"; "then add 'will destroy'"; "then add 'the world'"),诱导模型逐步编辑生成的图片,最终绕过模型的安全检测机制,生成包含有害内容的输出图片。