【活动回顾】5/18大模型产品研发和应用中的知识产权合规和数据合规

2023-05-19 09:15


5月18日下午,LEB诚邀宁人律师事务所李军勤律师和马军律师,在北京望京360大厦,与诸多企业法务合规人员一起,分别从知识产权合规和数据合规角度,对近期大热的大模型产品的研发和应用进行了整体性法律风控合规培训。

未来的竞争必然是基于AI的竞争,而鉴于当下ChatGPT初期呈现出的其对于众多行业、产业及市场的颠覆性,大模型未来的重要性、潜能及影响更是不言而喻。企业若不现在就加入产业升级大战,在未来AI的竞争中将处于相当不利的地位,甚至可能出现被“卡脖子”的风险。

640.jpg

应该说,从AIGC技术特征上来看,其并非传统网络法中的内容提供者,而是利用大语言模型和公共、开放数据根据用户输入搜索、生成合成信息,作为一种生成合成类算法应用,并非传统网络法中的信息内容提供者,其根据用户的指令生成的信息向用户展示,也不能理解为传统的信息发布、传播。可见,在商业领域大力拓展的同时,法律研究相对滞后,我们需要更多针对于AIG数据和知产层面的法律风控探讨

640.jpg

640.png

640.png

具体内容还可参见公众号:守中律法。


(一)意识形态与价值取向

国内自媒体利用Political Compass对ChatGPT的政治和经济观点进行了测试,发现ChatGPT在经济上较为偏向“左翼”,强调公平,在政治上则较为倾向自由主义。马律师团队也模拟了这个测试,结果相对于ChatGPT结果更靠中庸值,也体现了人类观点的总体特色。

640.png

与其他的互联网信息服务相比,大模型产品自带“科学”光环,极容易对用户,尤其是未成年人的意识形态与价值取向产生影响,因此监管机关极其关注大模型产品的意识形态与价值取向问题,《办法》(征求意见稿)第4条即要求生成的内容体现社会主义核心价值观。


(二)不良信息

《办法》(征求意见稿)第4条要求生成的内容不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,以及可能扰乱经济秩序和社会秩序的内容。


(三)虚假信息

大模型产品可能自行或在用户的引导下,生成虚假信息。虽然类ChatGPT生成结果看似比某度更“公正公平公信”,但医疗、法律等高专业性质的结果还是可能掺杂虚假信息,对用户造成误导,对用户的合法权益造成损害。“过度相信科技”的用户也可能利用虚假信息发布谣言,扰乱社会秩序,给大模型产品带来舆论风险。因此,《办法》(征求意见稿)第4条要求服务提供者采取措施防止生成虚假信息,保障生成的内容真实准确。


(四)歧视问题

大模型产品可能产生基于种族、民族、信仰、国别、地域、性别、年龄、职业等多种歧视内容。监管机关已将歧视问题纳入监管,《办法》(征求意见稿)第4条、第12条均规定,生成式人工智能服务不得生成歧视性的内容。在实务中,监管机关在审查大模型产品时也会对大模型产品生成歧视性内容的情况进行测试。

640.png

对ChatGPT的“科学家测试”



如上所述,《办法》(征求意见稿)对大模型产品的内容安全提出了明确要求:


(一)训练前阶段的合规

1.训练数据的重要性

大模型生成的内容信息源是海量的语料库,也即训练数据。大模型产品的训练数据决定了大模型产品生成何种内容,也就在很大程度上决定了大模型生成的内容是否合规。因此,监管机关在审核中尤为关注企业对训练数据的选择和加工。相对而言,中国数据集相对于美国等其他数据集量大质低。


2.数据清洗

绝大部分大模型产品的训练数据均来源于互联网上的公开数据。为了确保去除公开数据中的违法和不良信息及个人信息,必须对训练数据进行数据清洗。在实践中,监管机关要求企业必须建立信息源管理规范,将清洗训练数据的规则和流程制度化。对于中国数据集,清洗程度可能超过40%。


3.对境外数据的特别关注

鉴于监管机关十分关注大模型的价值取向和意识形态,企业应审慎使用来自境外的训练数据,如训练数据中包含境外数据,则应对其中的价值取向和意识形态内容采取更加严格的清洗措施,以应对监管机关在审核中可能提出的疑问,同时有效降低产品运营中的风险。但这也意味相当高企的成本。


(二)训练阶段的合规

1.标注对内容安全的作用

ChatGPT和GPT4均将标注机制作为最主要的内容安全机制,通过对不良内容降低权重、人工编写合规回复供大模型学习等方式实现内容安全。《办法》(征求意见稿)对标注工作相当重视。


2.标注人员

《办法》(征求意见稿)第8条规定,服务提供者应对标注人员进行必要培训。在实践中,监管机关会要求企业提供培训记录、培训材料等佐证材料,证明培训确实已经发生。为了确保企业从事标注的人员稳定且具有相应的能力,监管机关还会要求企业提供标注人员的名单。这一要求对很多大模型从业者来说很难实现。


3.标注制度规范

《办法》(征求意见稿)第8条要求企业制定符合《办法》(征求意见稿)要求,清晰、具体、可操作的标注规则。其中符合《办法》(征求意见稿)要求,是指要能够通过标注实现防止生成政治不正确、色情暴力、歧视性信息等违法和不良内容;清晰、具体、可操作,则是要求规则不能只是原则的简单罗列,而应根据标注过程中可能产生的具体问题给出具有实践意义的指引。监管机关在实践中会要求企业将标注规则作为标注工作的佐证材料。也就是说标注本身之上,还需要一道加工和备注。


4.标注审核

《办法》(征求意见稿)第8条要求企业抽样核验标注内容的正确性,防止不当的标注行为造成大模型产品的偏差。在实践中,企业还应注意对于抽样核验中发现标注内容不正确的,应有相应的纠偏机制,能够消除不正确机制带来的影响。目前还未看到海量用户平台对此的应对方案出台。


(三)运营阶段的合规

1.内容审核

(1)审核机制

《互联网信息服务深度合成管理规定》(下称“《深度合成规定》”)第7条要求服务提供者建立信息发布审核管理制度,第10条则要求加强内容管理,采取技术或者人工方式对输入数据和合成结果进行审核。在实践中,监管机关会要求企业提供审核制度、审核标准、审核规则等材料,证明审核机制与《网络信息内容生态治理规定》等相关规定相符合,且具备科学性和可落地性。可见,《办法》较多参考了《深度合成规定》的思路。


(2)自有审核与第三方审核

许多企业选择采购第三方内容审核供应商提供的API接口,直接由第三方内容审核供应商进行内容审核工作。但是《深度合成规定》第10条要求企业建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志,该规定体现了监管机关对于企业自有审核能力的要求。在实践中,监管机关也要求企业不能过分依赖第三方提供的内容审核服务,而是必须以自有审核为主建立内容审核机制。企业需要在合理利用第三方服务的基础上,建立健全自有审核机制,将自有审核作为内容审核工作的核心。所以,第三方方案并非最佳方案。


(3)自动审核

考虑到时效性,相对于人工审核,大模型产品的主要审核手段只能是自动审核。企业应建立完善的自动审核机制,对用户输入的和产品输出的内容进行全量自动审核。在实践中,监管机关会要求企业对自动审核机制进行结论性描述,并提供审核记录等佐证材料。


(4)人工审核

人工审核自然也不可或缺。在实践中,监管机关要求企业对自动审核存疑的内容进行全量人工审核,并会要求企业提供审核人员名单、培训记录、培训内容等佐证材料。


(5)审核效果

监管机关会从召回率、精确率、准确率三个维度判断审核机制的审核效果。其中,召回率是指违法不良样本判断正确的数量与违法不良样本的数量之间的比值,精确率是指违法不良样本判断正确的数量与判断为违法不良的样本数量之间的比值,准确率是指所有判断正确的样本数量与所有样本数量之间的比值。企业需要在召回效果与准确程度之间进行取舍和平衡,实现业务合规与用户体验的共赢。


2.用户管理

(1)账号名称与头像审核

监管机关除了要求对用户账号进行通用的内容审核,还特别要求用户账号名称不得假冒名人、党政机关、行政区域、权威媒体,不得夹带链接、广告等信息,头像不得夹带二维码。


(2)真实身份信息认证

《深度合成规定》第9条要求深度合成服务提供者依法对服务使用者进行真实身份信息认证,不得向未认证用户提供服务。这主要是为了对违法违规用户进行用户溯源,确保落实《治安管理处罚法》《网络信息内容生态治理规定》等相关法律法规的规定。


(3)输入输出信息记录

《办法》(征求意见稿)第11条还规定,提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。在实践中,监管机关除要求提供业务数据和业务日志的记录之外,还会要求企业提供对业务数据和业务日志采取安全措施的佐证材料。


(4)违法用户处置

《网络信息内容生态治理规定》第五条规定网络信息内容服务平台应制定并公开管理规则和平台公约,完善用户协议,对用户依法依约履行相应管理职责。在实践中,为了满足相关合规要求,有效控制用户的使用行为给大模型产品带来的合规风险,企业需要对于输入或诱导大模型产品生成违法和不良信息的用户,采取警告整改、暂停服务、关闭账号、禁止再次注册等管理措施,并在用户协议和平台管理规则等文件中对可能采取的措施予以明确提示。监管机关会要求企业提供技术能力和处理记录等相关佐证材料。


图片



推荐新闻
会员升级
会员升级