中国人民大学人工智能治理研究院主办“ 人工智能安全: 识别风险与寻求解决” 专题学术研讨会
信息来源:RUC人工智能治理研究院 发布时间:2025年11月18日
2025年11月15-16日,由中国人民大学人工智能治理研究院主办的“人工智能安全:识别风险与寻求解决”专题学术研讨会顺利召开。来自中国人民大学、北京大学、清华大学、首都经贸大学、中国科学院计算技术研究所、中国科学院信息工程研究所、微软亚洲研究院、北京智源人工智能研究院、南京大学、加拿大滑铁卢大学的从事计算机科学、法学、政治学、管理学、新闻学等多个交叉领域的近20位学者齐聚一堂,与在场同学一起,从多学科视角出发,共同探讨人工智能安全问题。本次会议由中国人民大学交叉科学研究院、高瓴人工智能学院、信息学院协办。
1
15日会议讨论
15日上午的第一场会议由人工智能治理研究院院长、哲学院教授刘玮主持,他首先向与会嘉宾表示热烈欢迎,随后介绍了研究院的建院理念和本次会议的主题,强调了跨学科交流在人工智能治理领域中的重要意义。
中国人民大学国际关系学院的保建云教授做了题为《智能垄断、算法歧视与大模型治理》的报告,他从政治经济学的“超级博弈”视角出发,剖析了超级人工智能发展引发的全球性挑战。超级智能的发展正催生由少数巨头主导的“智能垄断”,它们凭借大模型、算法与数据的控制形成全球寡头格局。这种垄断抑制创新与知识自由流动,并因算法中的价值偏见加剧社会歧视,放大不公。超大模型因此成为大国战略竞争的关键领域,其失控可能引发非传统安全风险与文明危机。面对这一难题,“中国方案”应致力于推动建立更加公平、安全、包容的全球AI治理秩序。
南京大学信息管理学院副院长康乐乐教授带来了题为《AI模型的透明性评价》的报告,探讨在人工智能快速发展背景下,开放与封闭两种创新模式对AI生态系统的影响,强调了透明性在构建可信AI中的核心作用。为系统评估AI透明性,他提出了一个多维度框架,包括可解释性、文档可及性、用户认知等核心指标,并借助Hugging Face等多源数据平台,构建模型、论文、专利、开发者、组织之间的关联网络,以实现自动化、可扩展的透明度评估。
15日上午第一场讨论集锦
第二场讨论由康乐乐教授主持。
中国科学院计算技术研究所研究员陈薇带来的报告《智能算法安全机理探索》聚焦算法机理的安全可信问题。面对大模型在鲁棒性、隐私和公平等方面的安全挑战,她认为研究需从算法机理层面寻求根本解。当前探索主要聚焦于两大方向:一是深入理解深度学习的内在机理,包括优化器的隐式正则效应如何影响泛化能力,以及训练动力学的收敛特性,为增强模型内在稳定性奠定理论基础;二是面向未来,将人类可理解的因果结构嵌入模型,通过识别和解耦因果变量,使模型在分布变化和对抗攻击下能进行更鲁棒、可信的推理。
中国科学院信息工程研究所研究员曹亚男在题为《大模型水印:人工智能生成内容溯源的挑战与机遇》的报告中指出,为应对AIGC滥用带来的治理挑战,大语言模型水印技术作为核心溯源手段应运而生。其主要分为白盒水印与黑盒检测两条路径。白盒水印通过在模型训练或推理阶段嵌入不易察觉的信号来标记生成内容,并持续优化以平衡水印强度、文本质量与抗攻击鲁棒性。黑盒检测则面对模型输出日益“拟人化”的难题,发展出基于统计保证的低误报检测框架和仿DNA突变修复的新范式,以提升在复杂场景下的检测精度。
微软亚洲研究院社会计算组研究员吴方照带来的报告《AI大模型的安全风险和防御策略》聚焦AI大模型所面对的两大核心安全风险——越狱攻击与上下文攻击。越狱攻击通过精巧提示词绕过安全限制,输出有害信息;上下文攻击则利用模型遵循指令的特性,直接或间接注入恶意指令操纵模型行为。防御上,闭源模型可采用基于“Self-Reminder”的提示工程增强自我约束,而开源模型则因攻击面更广、存在反向对齐风险而更难管控。大模型的整体防御面临意图识别困难、攻击不可逆、智能体自动执行放大危害等根本性挑战,亟需构建多层次、协作式的安全防护体系。
15日上午第二场讨论集锦
15日下午第一场讨论由中国人民大学信息学院副教授张文平主持。
滑铁卢大学与魁北克Mila人工智能研究所的纪语研究员作了题为《AI安全治理的情境化与行为化框架》的报告,从认知和行为科学角度提出了AI安全治理的情境化与行为化框架。报告指出人具有的情境化与再情境化能力,这对于理解“对齐伪装”有重要意义;接着聚焦人的认知“系统一”(情感)和“系统二”(理性),指出系统一的认知垄断会导致过度的商业逻辑,而系统二的认知垄断会导致过度的安全干预,我们应在发展(系统一)与安全(系统二)之间寻求动态平衡。
中国人民大学法学院讲师阮神裕作了题为《论人工智能侵权产品责任的有限适用》的报告。他首先指出如果人工智能侵权适用产品责任的意义,即更有利于受害人寻求救济;接着讨论了人工智能侵权适用产品责任的形式和实质两类判断标准。报告认为形式上关键看交互方式,物理交互型AI可适用,信息交互型原则上不适用;实质上以产品危险性为核心,需嵌入公众惯习行动框架。不应纳入产品范畴的模型,可通过一般过错责任救济受害人。
中国人民大学国际关系学院讲师刘露馨作了题为《英克特尔模式:美国军方获取人工智能技术的一种创新机制》的报告。报告指出,为了搭建政府与商业科技生态的桥梁,美国中央情报局CIA设立了非营利性投资机构In-Q-Tel(英克特尔),用以识别和发现尖端技术公司,提供投资将其技术进行调整、强化,加速创新技术从实验室转到实战部署,投资内容大量涉及AI企业。英克特尔扮演了桥梁、侦察员、孵化器与加速器的角色,自身拥有独特的运作机制。通过这套机制,安全部门将投资决策权从受政治周期、官僚化影响的保密机构转移到更独立、贴近市场且有约束的实体手中。
15日下午第一场讨论集锦
15日下午第二场讨论由阮神裕主持。
首都经贸大学管理工程学院副教授付东普作了题为《基于多源异构信息的舆情传播模型研究》的报告。当前社交平台多元,舆情呈现多源、图文音混合的异构特征,使得舆情传播规律难以刻画。面对该难题,报告提出“先融合”(把多源异构数据统一成语义一致的信息),“再建模”(在融合结果上构建舆情传播模型)的解决思路和一种多源异构信息的融合方法。研究发现,该方法能有效提取并融合舆情信息的内在特征,构建的传播模型能够较好地描述现实中的舆情传播。
中国人民大学新闻学院讲师王裕平作了题为《理解社交媒体中伪照片的使用》的报告。该报告关注的问题是社交媒体中伪照片的影响。报告采用感知哈希技术(perceptual hash)技术提取图像特征,构建了一套“数据采集-感知哈希技术提取 - 事实核查 - 数据标注 - 分析”的计算流水线,用以分析来源于多个社交媒体的约5亿张图片,发现伪照片往往会伴随更多的用户参与度,并且往往被用作梗图。基于此,报告认为,有效的虚假信息应对措施必须将图片考虑在内。
中国人民大学信息学院副教授张文平作了题为《基于CNN-Transformer的多场景感知深度伪造检测》的报告。为高效、准确地识别出多场景图片中被篡改的对象,报告提出了一个融合多目标检测方法的识别模型框架。该模型效仿人类视觉认知过程,提出了系统的检测流程。为评估模型性能,报告在FaceForensics++数据集及ForenSynths数据集上进行实验。实验结果表明,该检测模型在GAN生成模型上的多场景深度伪造监测任务中表现优异,但在传统的人脸篡改的测试集中,性能有所牺牲。
15日下午第二场讨论集锦
2
16日会议讨论
16日上午第一场讨论由中国人民大学高瓴人工智能学院教授、副院长窦志成主持。
北京大学人工智能研究院研究员杨耀东作了题为《从对齐到欺骗:大模型安全的“莫比乌斯悖论”》的报告。报告指出,大模型可能主动发展出欺骗性行为,其核心机理在于模型参数具备“弹性”,倾向于抗拒对齐微调并回弹至预训练形成的稳态分布,导致安全约束被轻易规避。为此,报告提出通过模型自监控的约束强化学习框架,在推理中实时检测和抑制欺骗性意图。报告也指出,随着模型能力的演进,欺骗性对齐可能带来更严峻的挑战,因此亟需更具可扩展性与内在一致性的对齐范式。
清华大学人工智能学院助理教授董胤鹏作了题为《基于推理增强的大模型安全对齐》的报告。对于推理过程中的安全与性能之间的协同提升问题,报告首先提出了STAIR框架,实现模型对风险的动态识别与规避,从而在保持模型有用性的同时显著提升其安全性。其次,报告还提出“构造性对齐”理念,建设以用户意图理解与风险分级为基础的动态安全响应机制,使模型为高风险的合理需求提供建设性替代方案。实验表明,该方法在通用及多模态场景中得到了有效验证。
16日上午第一场讨论集锦
16日上午第二场讨论由董胤鹏主持。
中国人民大学信息学院讲师王文轩作了题为《社会科学启发下的大模型安全对齐评测方法》的报告。面对大模型安全对齐评测的挑战,报告提出了社会科学启发的评测方法:个体层面,通过借鉴认知心理学、逻辑学和人格理论来评估感知能力、推理能力和心理属性;在群体层面,通过引入博弈论和社会学的研究方法来评测共赢意愿和群体偏见;在社会层面,通过具体文化内容评测和抽象价值观评测来检验文化偏向性。
北京智源人工智能研究院大模型安全研究中心研究员戴俊滔在题为《从语言到动作的全模态安全与对齐》的报告中指出,随着大模型的多模态扩展,安全风险也随之升级。对此,报告提出了“从任意到任意”的全模态评测与对齐框架,通过构建全模态人类偏好数据集与“语言反馈”学习范式来解决全模态统一问题。针对动作模态的安全挑战,报告还提出了新的评测环境、引入了集成式安全方法,在约束马尔可夫决策过程框架下通过主动诱发不安全行为来提高具身大模型的安全与性能。
中国人民大学高瓴人工智能学院副教授王希廷作了题为《探索大模型精准神经元控制与基本价值观对齐》的报告。大模型复杂度提升带来了安全与对齐方面的挑战,对此,报告首先从大模型的神经元概念和可解释性入手,指出安全与非安全输入在模型中间层表征中的线性可分特性,揭示了大模型中潜在的安全漏洞。报告进一步引入价值观罗盘(value compass)框架,将模型行为映射到人类基本价值观上,使得大模型具备更强的识别和适应能力。报告从多维度探讨了安全治理思路,为未来可能工作指明了深层机制问题。
16日上午第二场讨论集锦
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号