人工智能治理沙龙回顾 I 当社会科学遇见AI安全: 大模型测评与对齐的前沿探索
信息来源:RUC人工智能治理研究院 发布时间:2025年12月15日
2025年12月3日下午,中国人民大学人工智能治理研究院举办第十四期“人工智能治理沙龙”,聚焦人工智能大模型及其智能体的安全测评与治理。本次沙龙邀请中国人民大学信息学院讲师王文轩与上海人工智能实验室可信安全中心青年科学家刘东瑞分享报告,沙龙由人工智能治理研究院院长、哲学院教授刘玮主持。
1
社会科学启发的大模型安全评测
王文轩老师指出,大模型正深刻改变世界,但安全风险不容忽视,包括数学与事实错误、社会偏见、毒性内容等,隐患多样且复杂,系统且准确的安全评测至关重要。然而,传统评测方法(如专家设计、众包标注、对抗生成)各有短板,且普遍忽略经典测量理论中的“信度”和“效度”,导致评测结果可信度有限。王文轩老师团队借鉴社会科学成熟的评测理论与方法,从三个层面构建大模型评测体系:
1. 对齐个体:评测大模型是否具备人类个体的能力和特质,包括三个方面:借鉴认知心理学测试评估感知能力,发现模型高度依赖物理概念识别而非视觉识别,几何理解能力薄弱;基于逻辑学表达式检验推理能力,揭示了大模型共通的推理缺陷;引入心理学量表评估心理属性,发现大模型整体上比人类更外向、尽责,但黑暗人格(如说谎意愿)也更突出。
2. 对齐群体:考察模型在互动中的表现。团队通过博弈论实验评估大模型的利他性和合作意愿,发现不同模型表现差异显著,且越狱攻击会增加自私行为;基于社会学中的群体与属性分类,自动化检测大模型群体偏见,定位模型对特定群体的不公平态度。
3. 对齐社会:检验大模型的文化价值观。研究通过多语言评测发现,国外大模型存在“文化霸权”:无论使用何种语言提问,其输出的文化内容和价值观均强烈偏向欧美。相比之下,国产大模型能更好地体现中国文化主流价值观。
王文轩老师也指出该方向的挑战:用人类量表评测模型存在效度争议与数据泄露问题;安全对齐本身更是本质性难题,面临目标冲突、不匹配泛化等多重考验。构建真正可靠的大模型安全评测,仍需学界持续探索。
2
AI智能体安全及其进化风险
前沿AI正从纯语言模型向智能体及具身智能体演进,能力突飞猛进,安全建设却严重滞后。刘东瑞老师指出,当前AI领域普遍存在“重性能、轻安全”的现象,安全研究在资源与投入上处境尴尬。理想的AI发展应是能力与安全并行的“平衡状态”,这也是上海人工智能实验室提出“AI45度平衡率”的核心要义。
为系统评估风险,刘东瑞老师团队从“安全评测”与“价值对齐”两大方向展开研究。在评测层面,团队发现:(1)多模态模型存在“视觉安全信息泄露”问题,仅凭文本信息即可作出安全判断,并未真正结合视觉信息,导致跨模态安全能力被高估;传统静态评测(如固定题目测试)易受数据泄露与模型“情境意识”干扰,需结合动态交互式测评以更真实反映模型行为;(2)对于智能体的安全评估,需分别考察其“风险意图”与“风险完成”, 结果表明现有智能体安全意识普遍薄弱,实践中已出现被恶意诱导进行违规退款等案例。
为从根本上提升安全,团队提出“内对齐”思路。传统安全对齐仅在短暂的后训练阶段约束模型输出,难以撼动模型在漫长预训练中形成的深层认知;而“内对齐”旨在深入干预预训练所塑造的神经表征本身,删除或扰动有害知识片段。该思路进一步回应若干问题,比如:(1)模型内部不同安全属性互相制约(如隐私与公平),但通过针对性神经干预,可协同提升多项安全性;(2)安全对齐常引发“过安全问题”,即过度拒绝回答看似危险但实际安全的问题,团队提出在模型内部建立清晰的安全决策边界,减少过安全行为。
刘东瑞老师最后指出,智能体深度融入社会后将带来诸多挑战,例如如何评估AI对青少年价值观的长期影响、如何安全测试不可逆的“红线风险”等。应对这些挑战,需要学界与社会持续推进安全研究,引导AI向善。
3
交流与讨论
报告结束后,在场的听众与老师进行了热烈和深入的讨论。
中国信息通信研究院的王天宇老师提问:当AI能力全面超越人类时,其最终方向是替代还是辅助?人的存在意义又是什么? 刘东瑞老师表示难以断言AI是否会完全替代人类,未来可能进入“超级智能体”时代,个人的竞争力将取决于配置和运用AI的能力;从国家竞争视角看,发展AI势在必行,我们只能寄希望于安全研究能尽量跟上步伐。
北京师范大学心理学部刘超教授认为,在思考AI对齐问题时,不应假设“人是不变的”。人性会随着时代发展而变化,而AI最重要的意义在于改变人性,尤其是那些负面倾向。如果我们跳出让AI服务人类的“人类中心主义”,去思考人类如何顺应AI而改变自己,也许会得出不一样的答案。
中国人民大学法学院的孙靖洲老师就王文轩老师报告中的“偏见”概念提出疑问:如何定义“偏见”? 如果模型反映的是事实(如某群体犯罪率更高),这算不算偏见?王文轩老师坦言其研究主要提供测量模型决策倾向的工具,但至于“应该”有何种倾向、“何为公平”等问题,需要与社会科学界共同探讨。孙靖洲老师继续提问:在AI整合事实性新闻却得出误导性标题导致的纠纷案件中,企业能否事前调整模型?还是只能事后监察?刘东瑞老师认为,从技术角度来看,公司有能力提升模型安全性,但安全性的提升会降低模型性能和用户体验,后者导致的损失更大。因此多数公司倾向于尽可能限制安全方面的投入。
中国人民大学信息学院的余艳老师提问:抖音等平台如何应对大量AI智能体产生的内容?除了审核涉黄涉暴等违规内容外,平台是否会干预不违规但操控流量的内容?刘东瑞老师指出,平台为应对政府的监管压力,建立百人团队专项审核AI生成内容,进行标识或拦截;但对于不违规却操纵流量的行为,只要不触及监管红线,平台通常基于成本收益考量不予主动干预。
4
总结与展望
两位老师从评测和对齐两个方面,系统剖析了当前AI安全的薄弱环节与可能的突破方向。他们的论述共同揭示,应对智能时代的安全挑战,需要继续深化跨学科探索,并推动伦理与政策的协同治理。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号