专业团队

天元汇聚各领域精英律师,拥有200余名合伙人,800余名律师及专业人员,凭借深厚的执业经验和项目经验,为客户提供全方位、跨区域、综合性、一站式的法律服务和最佳商业解决方案。

专业领域

天元凭借30年法律实践经验和不断创新的执业能力,业务覆盖中国律师主要执业领域和新兴领域,并在诸多领域保持中国顶尖律师水准和跨团队综合服务能力,近年来连续承办了诸多开创先河的交易和极具行业影响力的项目和案件。

洞察资讯

天元律师紧跟行业发展趋势,聚焦法律热点话题,凭借独到视角和市场洞察力,帮助客户了解法律最新变化,用专业的观察、分析与见解助力客户做出更为明智的商业选择与决策。

关于天元

作为国内具有长远历史和深厚文化的领先律所,天元始终以法律服务为根本,不断探索和创新,30年来与中国经济同向前行,在中国15个经济活跃城市设立办公室,在业内享有盛誉。

从《生成式人工智能服务管理办法(征求意见稿)》看生成式AI产品合规要点
作者:李昀锴 日期:2023年04月12日
文丨天元律师事务所李昀锴  审定丨主管合伙人孙彦
 
近年来,人工智能技术发展迅速,其中生成式人工智能(AIGC)技术更是在过去一年间更是日新月异,新的模型层出不穷。AIGC技术的发展为人们提供了更多的便利和可能性,但同时也带来了诸多新的法律问题和挑战。为了规范AIGC技术的发展和应用,保护公民的合法权益,国家出台了《生成式人工智能服务管理办法(征求意见稿)》。虽然该办法仍在征求意见中,但相关规定体现了主管部门的监管态度及关注重点,本文将对该办法进行法律分析,探讨其对AIGC行业的影响和意义。
 
一、管理办法的监管范围
 
《管理办法》第二条规定“研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。”第五条规定“利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人,包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。”
 
根据前述规定,本办法的适用范围为向中华人民共和国境内公众提供生成式人工智能产品所有主体,无论该主体是否在国内。其面向的产品包括基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据。可看出当前流行的百度公司的文心一言,阿里巴巴的通义千问,华为公司的盘古、商汤公司的商汤均将被纳入监管范围。ChatGPT、New Bing、Midjourney等产品虽然未面向中国境内公众提供服务,但如果第三方通过API等方式提供前述产品功能的,将一并纳入监管范围内,需要遵守相关义务要求。
 
二、提供生成式AI产品需履行备案手续
 
《管理办法》第六条规定“利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。本条明确将生成式AI产品作为具有舆论属性或社会动员能力的产品,并且明确其算法需要按照《互联网信息服务算法推荐管理规定》履行算法备案手续。”
 
该规定承继了《互联网信息服务深度合成管理规定》第十九条、第二十条的管理原则,并明确生成式AI产品均具有舆论属性或社会动员能力,均需要进行安全评估。这就意味着国内公司自主开发的AI产品均不应直接面向社会公众提供,只有在进行安全评估及算法备案后,才能面向相关社会公众提供服务。如果未能履行前述评估及备案义务则主管部门有权给予警告、通报批评,责令限期改正,如拒不改正或者情节严重的,责令暂停或者终止提供服务,并处一万元以上十万元以下罚款。
 
该等规定实际上并未超出此前《互联网信息服务深度合成管理规定》《互联网信息服务算法推荐管理规定》要求的义务范围,但是确实给当前AIGC行业的创业者设置了很高的门槛。特别是目前对于如何进行评估、提交何种材料、评估周期及进度等问题并不明确及透明,该等要求可能会导致产品上市周期严重脱离公司规划,影响公司的商业运营,对此创业者们还应做好充足的心理准备。
 
三、生成式AI产品应满足的基本合规要求
 
《管理办法》第四条规定“ 提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求:(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。(三)尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。(四)利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。(五)尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。”该条规定为生成式AI产品应满足的基本合规要求,相关要求基本上符合《互联网信息服务管理办法》《《反不正当竞争法》《个人信息保护法》等在先法律法规要求,从该条要求可以看出,主管部门对于生成式AI产品的内容监管原则基本保持不变,但是希望相关提供者能够全流程保证其信息生成的合法性、合规性。
 
但就该条要求的生成内容真实准确的要求,似乎超出了当前的技术能力。以ChatGPT为例,其工作原理为在大量的文本数据上进行预训练,学习自然语言的规律和结构,其学习的是众多样本在统计学意义上的规律性。只要生成的结果符合这种统计规律,就会被它输出出来,这种预训练模型保证了它说出来的大多都是“人话”。但是这句“人话”的内容、含义是基于统计概率产生,从技术原理上无法完全保证内容的真实性、准确性。虽然GPT的模型一直在升级,但直到现在该等问题依然层出不穷,例如ChatGPT依然会根据用户的输入虚构一个林黛玉倒拔垂杨柳的故事。
 
 
当然,我们理解主管部门的立法目的及出发点,该条规定的核心更应认为是要求提供者应采取相应的措施防止虚假结果的生成,而并非要求其保证生成内容100%的准确性。故从立法目的出发,建议相关提供者可参照OpenAI等领先机构的做法从以下角度保证生成内容的准确性:(1)数据集的筛选和清洗:使用大量的数据集进行训练,但在使用这些数据集之前,对其进行筛选和清洗,去除其中的噪声和错误,保证训练出来的模型的准确性和可靠性。(2)模型的调优和优化:在训练模型的过程中,进行多次的调优和优化,使得模型的准确性和性能得到不断提升。(3)人工审核和审查:对生成的内容进行人工审核和审查,确保其符合社会公德、公序良俗和法律法规的要求,避免出现虚假信息、暴力、淫秽色情信息等不良内容。(4)透明度和公开性:公开生成的内容和算法,使得第三方机构和专家可以对其进行评估和验证,保证其准确性和可靠性。
 
四、对生成式AI产品的数据训练提出更高的要求
 
《管理办法》第七条规定“ 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:(一)符合《中华人民共和国网络安全法》等法律法规的要求;(二)不含有侵犯知识产权的内容;(三)数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形;(四)能够保证数据的真实性、准确性、客观性、多样性;(五)国家网信部门关于生成式人工智能服务的其他监管要求。”根据该条要求,提供者应对训练数据的合法性负责,不得含有侵犯知识产权、侵犯个人信息的内容,也应保证数据的真实性、准确性、客观性。而依据我国《反不正当竞争法》的相关要求及司法实践,目前如果提供者仅依靠爬取的网络数据进行训练将产生较大的不正当竞争风险,对此实践中也要求提供者应与掌握数据的第三方平台进行采购或合作,以保证其训练数据的清洁性,这将大大增加提供者的训练成本。
 
同时,《管理办法》第十七条明确“提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。”对于训练数据的具体情况,主管部门将随时进行检查,要求提供者说明预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等内容。如果在检查过程中发现训练内容不合法,依然有权要求提供者暂停或者终止提供服务,可能将很大程度上影响提供者的正常经营。但是对于如何判断这里所谓的“必要信息”规定依然语焉不明,实践中可能会存在一定的争议。
 
五、建立完善的内容使用规则及内容监管体系
 
《管理办法》内主管部门核心的关注要点就是生成内容的合规管理问题,故对于内容使用规则及内容监管体系进行了大篇幅的规定。其中:
 
1、《管理办法》第十三条规定“提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。”该条实际上为提供者设置了一定程度上的避风港责任,即提供者应设置相应的投诉处理机制,及时处理删除相应的侵权信息,如果未能尽到管理责任将承担对损失结果扩大的连带责任。但是这里对个人信息的删除、屏蔽在技术操作上可能并不那么容易实现,这是因为相关语言大模型的预训练过程持续时间比较长,对于已经训练完成的数据模型很难针对某具体个人信息进行了解并且删除更正。我们理解相较于事先的训练模型内容的调整,提供者更应着眼于信息输入的控制及事后生成环节的审核,以保证内容管理措施的有效性。例如,可以学习OpenAI设置生成时的风险提示“你的提问内容不符合国家相关法律法规的要求,不能向您提供相关内容”。
 
2、《管理办法》第十五条规定“对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。”这条相当于要求提供者要在提供服务的同时,并行训练优化其模型,且至少3个月更新一次版本,以解决此前出现的违规内容问题。这条规定的时限并不特别符合当前的技术实践,也为提供者无端的提高了服务成本,建议主管部门要求采取合理措施即可,而非要求3个月内即完成优化。
 
3、《管理办法》第十六条规定“提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。”此前发布的《互联网信息服务深度合成管理规定》第十七条要求对可能导致公众混淆或者误认的文本、图像、视频进行标注,但本次的《管理办法》仅要求对图像、视频进行标注,放宽了相应的范围。虽然本条应进行标注的是“可能导致公众混淆或者误认”的内容,但出于稳妥起见,我们建议提供者一律对图像、视频进行标注。实践中文心一言等模型也已经在履行相关标注义务。
 
 
4、《管理办法》第十八条规定“提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。”第十九条规定“提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。”这要求提供者应设置完善的使用指引及说明,引导用户合法使用相关内容,同时也赋予提供者管理权限,对于违反法律法规及违背商业道德、社会公德的用户可以直接予以封禁。
 
六、控制处罚责任,鼓励生成式AI产品发展
 
《管理办法》第二十条规定“法律、行政法规没有规定的,由网信部门和有关主管部门依据职责给予警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停或者终止其利用生成式人工智能提供服务,并处一万元以上十万元以下罚款。”这里可以看到,虽然《管理办法》对提供者设置了相对较高的法律义务,但对其法律责任规定得相对较为克制,主管部门对于其中轻微情节的,只是警告、批评,并不涉及要求暂停或终止提供提供,也不涉及罚款;对于情节严重的,其处罚金额上限也不高,整体上还是以鼓励发展为主基调的,更加鼓励相关提供者多与主管部门进行沟通,逐步落实相应的合规措施,为生成式AI产品保留了一定的执法空间及发展空间。
 
*特别声明:本文仅为交流目的,不代表天元律师事务所的法律意见或对法律的解读,如您需要具体的法律意见,请向相关专业人士寻求法律帮助。
相关领域
知识产权