人工智能治理沙龙回顾 I 机器学习视角下的人工智能风险来源

首页
>>新闻动态

人工智能治理沙龙回顾 I 机器学习视角下的人工智能风险来源
2026-04-20

信息来源：RUC人工智能治理研究院发布日期：2026年4月19日

2026年4月15日下午，中国人民大学人工智能治理研究院举办第二十二期“人工智能治理沙龙”。本次沙龙以“机器学习视角下的人工智能风险来源”为主题，围绕着人工智能的界定、全球AI发展背景下机器学习的核心算法以及AI风险根源和技术应对等话题进行了深度探究。本次沙龙由中国人民大学高瓴人工智能学院的张骁副教授进行主题报告，中国人民大学信息学院鄂金龙副教授、北京师范大学心理学部刘超教授和中国人民大学哲学院王福玲副教授担任对谈嘉宾，沙龙由人工智能治理研究院院长、哲学院教授刘玮主持。

1

主题报告

张骁首先从人工智能伦理和安全的角度出发对什么是AI伦理作出了界定。一类是Ethics of AI（人工智能的伦理学），侧重与AI相关的伦理理论、指导方针、政策原则及法律法规等；另一类是Ethical AI（伦理的人工智能），又称technical AI ethics（技术的人工智能伦理），核心是如何设计和实现符合伦理约束的AI算法。

基于上述概念界定，张骁对人工智能风险的国际背景进行了梳理。他指出，从2023年11月英国布莱切利举办的首届“全球人工智能安全峰会”签署《布莱切利宣言》，到2025年2月法国巴黎“人工智能行动峰会”签署《关于发展包容、可持续的人工智能造福人类与地球的声明》，各国对人工智能发展的核心关切已从“安全”转向“发展与竞争”。各国在人工智能治理上呈现出监管态度与技术路线的显著差异。从监管态度而言，美国方面始终秉持“美国优先”的原则，批评欧盟对人工智能所采取的过度监管可能扼杀行业发展；而技术路线的分化情况则表现为，美国以闭源大模型为主，即通过API付费使用；中国则以开源模型为特色，依托开源社区共同优化算法。在这种技术路线差异之外，数据监管规则与大模型的适配问题同样值得关注，例如GDPR中的“遗忘权”在大模型时代就面临严峻挑战，用户注销APP后，平台虽删除数据库中的用户数据，但用户数据对模型的训练影响难以消除，由此催生“机器不学习（unlearning）”研究方向。

张骁认为，上述分析折射出人工智能在现实应用中的复杂影响与潜在风险，一方面，人工智能算法在提升社会管理与公共服务效能方面成效显著，可优化互联网信息获取、保障改善民生并推动媒体融合发展；但另一方面，该算法也同时面临“算法偏差”等挑战，其中包括隐私泄露、人脸识别安全漏洞等问题，需警惕相关安全隐患。

面对人工智能在现实应用中的风险与挑战，张骁回溯了人工智能伦理讨论的思想源头。自上世纪50年代人工智能的概念被提出以来，人们便通过思想实验和科幻作品形式探讨其可能面临的伦理困境。例如，在被视作“赛博朋克”风格源头的作品《神经漫游者》中，作者展现了在“高科技、低生活”(high tech, low life)的背景下，技术理性与人类文明的冲突；阿西莫夫在《转圈圈》中则以“机器人三定律”作为应对AI风险的经典构想。同时，这三条原则在复杂场景中所呈现出的内在矛盾，也引发了学界对机器行为边界与人类利益平衡的深入探讨。

随后，张骁以技术底层逻辑切入，系统拆解了机器学习算法的核心机制，并指出不存在能够适配所有场景的完美算法。据此，张骁系统阐释了人工智能面临的五大核心风险来源。

一是非封闭应用场景。传统AI应用大多局限于封闭场景，目标单一，而大模型需要兼顾多任务处理，任务泛化会引发一系列风险，例如在数据层面，采集的数据包含大量隐私信息，还容易因噪音、口音等问题出现错误；在归纳偏置层面，多任务对应多目标函数，需要兼顾相关性、完整性等要求，目标之间相互制约，难以实现帕累托最优；模型训练完成后难以修改时效性知识；大模型普遍缺乏“知之为知之，不知为不知”的能力，即便置信度较低也常会强行输出答案；只能挖掘数据间的关联性，无法准确判断因果关系。

二是AI技术非正当使用。可分为无意错用与有意滥用两类，错用主要表现为算法与应用场景不匹配，滥用则包括AI“复活”他人、制作虚假新闻等违法违规行为，易引发伦理争议与AI技术的非正当使用问题。

三是监管责任界定模糊。当AI系统造成危害时，模型开发者、训练数据生产者、平台运营者、内容传播者等多方主体的法律责任难以清晰划分，导致了责任主体不明、追责机制不健全的问题突出。

四是AI伦理认知偏差。大模型对机器人三定律、电车困境等经典伦理命题，虽能准确记忆规则条文，但其实际决策行为却与人类伦理判断脱节，存在价值观对齐漏洞，甚至可能出现忽视使用者生命安全的危险判断。

五是AI幻觉问题。大语言模型会编造虚假事实并将编造内容与其他段落连贯编织，宣称其为真实信息的现象。成因主要源于数据与归纳偏置两大维度，即数据层面包括低质量的互联网数据、缺乏实时性的训练数据以及人为数据投毒；归纳偏置层面则表现为模型过拟合，难以进行模型编辑，以及“重关联、轻因果”的思维倾向等因素共同导致了AI幻觉问题的产生。

基于对上述五大风险来源的分析，张骁提出了AI治理的路径与启示。应对AI风险的措施需要从四个层面推进。第一，缓解AI幻觉问题可从根本上优化模型设计，或在模型训练与推理阶段加入检测和干预模块，也可通过调用检索增强生成、搜索引擎等外部工具弥补模型缺陷。第二，关于预防欺骗性问题，应该将人类的伦理约束与价值导向转化为模型可执行的参数并加载到模型中，目前已有研究尝试将知识转化为参数实现价值对齐，但需注意与大模型持续学习能力相关的模型遗忘问题。第三，关于AI监管，企业出于合规与声誉考量会自发审慎部署AI技术，引入多领域专家参与评审。第四，伦理审查需警惕“用大模型审查大模型”带来的对抗性规避、奖励作弊等风险，审查工具可采用结合大模型与传统机器学习算法的混合架构，针对不同类型产品设计差异化审查方案。此外，伦理安全审查需要学科交叉人员深度参与并通过编写明确规则引导模型优化。

2

对谈交流

在与谈和交流环节，师生围绕主题展开了多维度深度研讨。鄂金龙从AI使用者角度分享了三点体会，一是服务型机器人精细操作能力不足，在实际场景中存在应用风险；二是AI换脸诈骗频发，高知群体也可能受骗，中老年人数字素养亟待提升；三是自动驾驶L4、L5级完全托管模式仍有安全隐患。

刘超询问从机器学习与归纳偏置角度哪些AI风险存在直接关联、AI幻觉是否由归纳偏置导致。张骁回应称，归纳偏置涉及模型类型选择、优化目标设计、优化算法选择、模型评价四个环节，与各类风险均有间接关联，其中AI幻觉的根本原因是大模型“猜下一个词”的归纳偏置，彻底解决需颠覆现有大模型逻辑，短期可通过幻觉检测模块、后处理干预缓解；非封闭场景中，多任务导致目标函数复杂，强化学习本身的优化难度更高；AI技术非正当使用核心是模型类型与场景不匹配，属于归纳偏置的模型选择环节；未来监管可能将归纳偏置设计环节纳入AI产品上市审查，类比医疗器械监管模式。

刘超从心理学与人工智能治理的交叉视角出发，提出若将AI视为与人类共生的智能体而非工具，如何从算法设计角度减少AI欺骗等风险。张骁表示，该问题的核心是把人类社会对欺骗、情感依赖等约束转化为模型参数，目前可通过开发即插即用模块快速加载法律与伦理规则、提升大模型持续学习能力来应对，但仍面临模型遗忘旧知识的挑战。

王福玲从我国《人工智能伦理审查办法》落地角度出发，提出如何看待AI伦理与安全边界的问题。张骁回应称，未来AI产品的伦理审查有望参照医疗器械上市模式，设置快速通道并由技术专家、跨领域专家和法律人士共同参与，重点审查产品风险而不过度干预开发过程，同时企业自身也具备较强的自我监管动力，会主动防范伦理风险以维护品牌声誉；从算法设计角度来看，AI伦理侧重隐私性、可解释性与公平性，而AI安全侧重可控性，即模型能否遵守规则、听从指令。

张骁还回答了现场同学提出的关于归纳偏置和大模型审查大模型的伦理风险、技术审查方向及伦理学学生如何参与的问题。他指出伦理风险包括审查工具可能存在与被审查模型相同的风险、易出现为追求高分输出怪异答案的对抗策略、存在对大公司模型打分偏高的公平性问题，技术审查需按被审查的产品类型选用适配算法，传统算法适用于简单分类回归任务，大模型适用于复杂场景，伦理学专业同学可参与制定审查规则，将伦理原则转化为清晰无歧义的规则（如优化机器人三定律表述），作为审查模型的评价依据，引导模型优化与判断。

本次沙龙立足人工智能伦理安全与底层算法治理主线，从机器学习核心实质出发，剖析大模型五大风险成因并研讨了技术优化、合规监管等治理路径，为完善AI流程风险防控的人工智能规范化发展提供了研究思路与有效的实践参考。

友情链接

理工院系

研究机构

职能部门

校外单位

常用链接