人工智能治理沙龙回顾 I 大模型训练数据的使用规则研究

首页
>>新闻动态

人工智能治理沙龙回顾 I 大模型训练数据的使用规则研究
2026-05-13

信息来源：RUC人工智能治理研究院发布日期：2026年5月13日

2026年5月6日，由中国人民大学人工智能治理研究院主办的第二十五期人工智能治理沙龙举行。本次沙龙围绕大模型训练数据的使用规则展开，由中国人民大学交叉科学研究院、高瓴人工智能学院博士后李铭轩进行主题分享，北京理工大学法学院助理教授、工信部智能科技风险法律防控重点实验室研究员包晓丽担任对谈嘉宾，沙龙由中国人民大学哲学院副教授，人工智能治理研究院研究员王福玲主持。

1 主题报告

李铭轩首先指出，在当前的法律环境下，获取海量训练数据面临着著作权、个人信息权益及数据财产权等排他性权利的法律限制，以及Robots协议、API服务协议等合同约定的约束。这些规则在保障安全与维护公平方面具有正当性，但过强的排他性也会大幅推高许可成本，进而阻碍大模型的创新进程。

基于法律经济学视角，李铭轩引入了“市场失灵”理论来透视数据获取的结构性难题。在大模型数据市场中，外部性与交易成本是导致资源配置低效的主因。例如，非营利性科研训练虽能产生巨大的社会价值，但开发者往往缺乏支付高昂对价的能力；同时，语料库涉及的权利主体动辄以千万计，海量的搜寻、谈判及事后监管成本使得自发的市场合意极难达成。这种情形下，法律必须主动介入，通过制度设计来替代失灵的市场机制。

李铭轩随后分析了现有的各种数据利用模式的局限性。开放共享模式虽能提供PB级别的公共语料，但高质量私有数据开放度不足且存在来源合法性争议；授权使用模式无论是一对一授权还是集体管理，都面临管理成本过高、收益分配微薄及易筑起竞争壁垒的风险；法定许可与合理使用模式虽能降低门槛，但前者定价难度大，后者则可能实质损害权利人的经济利益。

最后，他提出了规则完善的双重路径：市场环境规则与市场补充规则。前者旨在通过明确开源数据定性、完善数据确权及引入“延伸性集体管理”等机制来优化市场运行环境；后者则主张在市场失灵时，通过法律解释适度拓宽“合理使用”的边界。例如，在人工智能训练场景下，应综合考量识别成本与个人意愿，允许在特定范围内合理处理公开信息，为技术创新预留必要的公共领域空间。

2 交流与讨论

包晓丽对主讲人的报告做了背景补充，介绍了两个实践案例，案例一是开源的ImageNet标注数据虽然已声明仅限非营利性科研使用，但市场上大量商用模型都在违规使用。案例二是美国大模型厂商Anthropic使用受版权保护的电子书进行训练而被起诉，被告辩称模型仅吸收了逻辑与参数，并未复制原作者的“表达”，最终法院认定不构成违法，但需支付一定的法定许可金。

随后包晓丽就大模型训练规则的法理与实务提出了四个维度的追问：首先她质疑了以“社会整体福利”为由牺牲数据产权人利益的正当性；其次是探讨现有的四种数据利用模式是否本质上只是“已公开数据”与“未公开数据”在不同场景下的交叉应用；第三是营利性的界定，她追问是否应以“营利/非营利”作为划分集体协商收费与合理使用免费的界限；最后是社区规则与法律的关系，她关注在开源生态中，技术社区自发形成的治理规则能否在一定程度上排除或替代国家法律的强制性规则。

针对包晓丽指出的法律在判定效率时往往以社会整体福利为首要标准，但这在伦理上存在困境：如果数据对个体的价值远超其对大模型开发者的价值，为何要强制个体为了社会福利而让渡不开放的自由？王福玲从伦理学视角作出回应，个体在拥有数据所有权之前，其成长与创作已经受益于社会长期积累形成的肥沃土壤。因此，数据拥有者有责任在特定情形下回馈社会，这种义务类似于企业的社会责任，通过短期的利益让渡来优化整体生存环境，最终为个体带来更广阔的长远收益。

李铭轩回应授权使用不仅针对非公开数据，同样适用于已公开数据，数据利用模式的维度不能按照“是否公开”来简单划分。针对以营利性作为合理使用划分界限的观点，他明确了合理使用不止局限于非盈利使用，营利性使用只要构成不替代原作品市场的“转换性使用”仍有被认定为合理的空间。在社区规则与法律效力的权衡上，他强调应视其是否促进效率及是否侵害合法权益而定。若自发形成的社区规则能极大促进效率，法律理应尊重；但若是数据寡头利用强制性的点击合同排除用户合法合理使用权以扩张私权，此类社区规则即为无效。

有同学提出，高质量数据持有者的贡献与获益之间存在巨大的“时间差”，且数据一旦共享，个人对数据的专有权和安全性将面临损失。特别是在插画等艺术领域，AI虽未直接复制作品，但通过学习画风、配色等层面替代了原作者的市场，这种剥夺感在现有仅保护“表达”的版权框架下难以得到合理补偿。李铭轩回应到，在AI能穷尽一切表达的时代，法律关于“保护表达、不保护思想”的底层逻辑正面临革命性挑战。对于涉及尊严、隐私等核心利益的数据，应坚持不可让步的刚性规则；而对于纯粹的经济利益，则可以尝试“先使用后付费”的二次分配机制，通过税收或事后补偿来消解创作者的公平性顾虑。

有同学建议参考欧盟的“访问权”制度，同时追问大模型嵌套智能体时，个人开发者与基座平台之间的归责逻辑。对此包晓丽老师明确了“数据空间”与“访问权”的功能差异。她强调，国内推行的行业“可信数据空间”主要功能是解决信任问题，而非无条件的数据共享，欧盟访问法和这个不太相关。李铭轩认为，AI责任规制应秉持“风险最小化”原则。在因果链极长的“黑箱”模型中，法律应将责任施加给能以最低成本防范风险的主体。对于因技术局限产生的不可预见风险，除了侵权归责外，未来还应引入保险、赔偿基金等多元化的社会分配制度来共同承担。

本次沙龙从宏观的市场失灵理论探讨到微观的具体法律规则解释，呈现出大模型训练数据的使用不仅在挑战传统权益的控制边界，也在重构数字时代的资源配置机制。法律系统面临的核心挑战不再是如何通过严格的排他性来静态守护数据财产，而是如何在呼唤创新的技术浪潮中，通过灵活适用与解释“合理使用”等规则，构建兼顾公平与效率的数据治理生态。

友情链接

理工院系

研究机构

职能部门

校外单位

常用链接