人工智能治理沙龙回顾 I生成式人工智能训练数据的法律风险及其应对
信息来源:RUC人工智能治理研究院 发布时间:2025年12月3日
2025年11月26日下午,人工智能治理研究院举办了第十三期“人工智能治理沙龙”,聚焦生成式人工智能大规模训练数据中的多重法律风险问题。本次沙龙邀请到中国政法大学光明新闻传播学院助理教授张璐进行分享,沙龙由中国人民大学人工智能治理研究院院长、哲学院教授刘玮主持,中国人民大学新闻学院副教授、人工智能治理研究院研究员塔娜作为讨论嘉宾参与本次沙龙。
1
个人信息保护的困境与制度应对
张璐认为,生成式人工智能训练数据的法律风险及其应对是当前人工智能治理中的核心议题,涉及个人信息保护、数据财产权益和著作权争议等多个层面。在个人信息保护方面,训练数据往往包含大量个人信息,根据《民法典》和《个人信息保护法》,个人信息的定义强调可识别性,处理个人信息需基于合法事由,如取得同意、履行合同或公共利益等。然而,生成式人工智能的训练过程常面临个人数据使用的复杂性。此外,已公开个人数据的处理需在合理范围内,并避免对个人权益产生重大影响,而欧盟GDPR的合法利益条款为数据处理提供了另一种路径,但在利益衡量中需平衡创新与个人权利。为适应AI发展,有学者提出“宽进严出”的思路,即在训练端对个人信息保护作宽松解释,以鼓励创新,同时确保输出阶段的严格监管。
2
数据财产权益保护问题
在数据财产权益方面,训练数据常通过爬取公开网络数据获取,引发数据爬虫的合法性争议。这一领域的法律边界主要由司法实践界定。Reddit起诉Anthropic一案直接体现了平台对其数据资源主张财产性权益的立场。而在中国的百度与大众点评案中,法院确立了“原告劳动成果 + 被告实质替代”的裁判规则,认定百度抓取点评信息并替代原服务的行为构成不正当竞争。随后的淘宝诉美景案进一步明确,经过深度智力投入形成的“衍生数据”产品(如“生意参谋”)本身即是一项重要的财产性权益,未经许可的“搭便车”牟利行为不被允许。此外,爬取行为的“破坏性”也是判断合法性的关键,例如自动化访问流量过大以致妨碍原网站正常运行,即可能构成违法。这些案例表明,数据爬取需遵循行业规范和技术防护成本,避免实质性替代原服务,以维护数据市场的公平竞争。
3
在“合理使用”与侵权边界之间的著作权争议
有关人工智能训练数据的著作权争议则聚焦于训练数据中作品使用的合法性,包括是否构成合理使用。大模型训练常涉及大量文本数据,如新闻作品或书籍,引发版权侵权风险。《著作权法》的合理使用条款要求使用不得影响作品正常利用或损害权利人利益,而国际案例显示,转换性使用是判断合理使用的关键,例如在Thomson Reuters案中,非转换性使用被认定为侵权,而在Anthropic案中,使用正版书籍训练被认可,但盗版使用则不被允许。欧盟DSM指令和日本著作权法为文本与数据挖掘提供了例外条款,新加坡则通过“计算数据分析例外”在训练阶段放宽限制,但在输出阶段严格保护人类作者权益。这些国际经验提示,需在促进AI创新与保护著作权之间找到平衡,构建创新友好型的训练数据制度。
张璐在总结中指出,生成式人工智能训练数据的法律风险治理应坚持“宽进严出”原则,在数据输入端鼓励高质量供给和合理使用,同时在输出端加强监管,以应对个人信息、数据财产和著作权方面的挑战,推动人工智能产业的健康发展。
4
讨论与提问
张璐老师的报告结束后,现场开展了热烈的讨论和交流。
塔娜老师作为讨论嘉宾提出了两个问题,首先是新闻大模型是否可以利用历史数据加上新采集的数据生成新闻?其次是根据个人信息对人实施个性化说服是否存在法律问题?
针对新闻大模型问题,张璐老师认为,使用历史数据结合新采集信息生成新闻内容,从技术本质上看属于基于概率推理的模式化输出,此类应用在性质上更接近于一种内容生成工具,其输出结果依赖所学习的风格模板与输入的新素材,法律风险主要集中在训练数据本身的合法性上,尤其是历史数据所涉及的著作权与数据来源合规性问题。
关于个性化说服问题,张璐老师指出通过用户提供的个人信息进行定向内容推送或观点引导,将面临类似个性化广告场景中的法律挑战。虽然部分数据由用户主动提供,看似降低了采集阶段的合规门槛,但一旦涉及敏感个人信息,或对用户产生实质性影响,即可能触发对数据处理合法性基础、用户明示同意、以及“开关权”等核心要求的审查。当前在推荐系统中逐步成熟的“开启/关闭个性化”机制,为AI交互提供了可借鉴的治理思路,但在生成式AI场景下,由于交互更深、内容生成更动态,人机关系、数据分类管理及推荐行为对用户认知的潜在影响,仍需在一般数据与敏感数据的区分框架下进行审慎评估与规范构建。
有同学提问,人工智能输出端的相关内容,作为已经完成训练的模型产生的结果,其著作权是属于模型公司、个人还是数据公司?
张璐老师认为这个问题需要结合不同情况来探讨,从国内前两年的已有判例来看,我国互联网法院在相关案例中判决个人具有相关内容的所有权,但是国外的一些判决会有不同的看法,问题的关键在于取决于用户付出了多少努力,这不仅是著作权的归属问题,还涉及到未来知识生产的秩序问题。
有同学提问应如何界定用户对使用其个人数据的“明确拒绝”?
张璐老师认为,关于“明确拒绝”的界定,目前尚缺乏统一标准,但实践中已有一些可参考的方式,例如在图片等数据上添加“禁止用于AI训练”的水印,即为一种直观的明示拒绝。核心问题在于如何使拒绝意愿被清晰、无歧义地识别。此外,利用“临时对话”等技术手段,确保数据处理过程不形成永久性存储,可能从操作层面规避部分数据留存风险。
整场沙龙在热烈讨论的氛围中结束。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号