如前所述,监管机关十分关注大模型的价值取向和意识形态,而对于本土大模型产品而言,训练数据中的境外数据将引发监管机关对于价值取向和意识形态的额外关注。因此企业应审慎使用来自境外的训练数据,如训练数据中包含境外数据,则应对其中的价值取向和意识形态内容采取更加严格的清洗措施,以应对监管机关在审核中可能提出的疑问,同时有效降低产品运营中的风险。
(二)训练阶段的合规
1.标注对内容安全的作用
ChatGPT及同类型产品依赖的深度学习等技术早在上个世纪已经出现,但相关产品在去年以来才受到广泛的关注,最主要的原因之一是引入了来自人类反馈的强化学习方案RLHF(Reinforcement Learning from Human Feedback),使得大模型产品得以根据标注人员的反馈更好地完成任务,提升准确性与安全性。ChatGPT和GPT4均将标注机制作为最主要的内容安全机制,通过对不良内容降低权重、人工编写合规回复供大模型学习等方式实现内容安全。
2.标注人员
从事标注工作的人员直接决定着标注工作的质量,因此监管机关将标注人员的管理作为标注工作的重要组成部分。《办法》(征求意见稿)第8条规定,服务提供者应对标注人员进行必要培训。在实践中,监管机关会要求企业提供培训记录、培训材料等佐证材料,证明培训确实已经发生。为了确保企业从事标注的人员稳定且具有相应的能力,监管机关还会要求企业提供标注人员的名单。
3.标注制度规范
从事标注工作的团队往往较为庞大,因此标注工作必须具有统一的规则,以确保标注内容和标注质量整体上的一致性。《办法》(征求意见稿)第8条要求企业制定符合《办法》(征求意见稿)要求,清晰、具体、可操作的标注规则。其中符合《办法》(征求意见稿)要求,是指要能够通过标注实现防止生成政治不正确、色情暴力、歧视性信息等违法和不良内容;清晰、具体、可操作,则是要求规则不能只是原则的简单罗列,而应根据标注过程中可能产生的具体问题给出具有实践意义的指引。监管机关在实践中会要求企业将标注规则作为标注工作的佐证材料。
4.标注审核
标注对于大模型产品生成结果的影响极大,因此需要对标注的质量进行严格的把控。《办法》(征求意见稿)第8条要求企业抽样核验标注内容的正确性,防止不当的标注行为造成大模型产品的偏差。在实践中,企业还应注意对于抽样核验中发现标注内容不正确的,应有相应的纠偏机制,能够消除不正确机制带来的影响。
(三)运营阶段的合规
1.内容审核
(1)审核机制
内容审核是内容安全方面的“最后一道防线”,企业需要建立完整科学可落地的审核机制,对用户输入的和大模型产品输出的信息进行审核。《互联网信息服务深度合成管理规定》(下称“《深度合成规定》”)第7条要求服务提供者建立信息发布审核管理制度,第10条则要求加强内容管理,采取技术或者人工方式对输入数据和合成结果进行审核。在实践中,监管机关会要求企业提供审核制度、审核标准、审核规则等材料,证明审核机制与《网络信息内容生态治理规定》等相关规定相符合,且具备科学性和可落地性。
(2)自有审核与第三方审核
由于内容审核机制需要建立庞大的违法和不良信息特征库,且需要应对语义相近、变体、整体文义等技术挑战,因此许多企业选择采购第三方内容审核供应商提供的API接口,直接由第三方内容审核供应商进行内容审核工作。但是《深度合成规定》第10条要求企业建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志,该规定体现了监管机关对于企业自有审核能力的要求。在实践中,监管机关也要求企业不能过分依赖第三方提供的内容审核服务,而是必须以自有审核为主建立内容审核机制。企业需要在合理利用第三方服务的基础上,建立健全自有审核机制,将自有审核作为内容审核工作的核心。
(3)自动审核
出于产品运营和用户体验的考虑,大模型产品绝大部分需要在用户提出需求后的极短时间内反馈,而人工审核难以具备如此强的时效性,因此大模型产品的主要审核手段只能是自动审核。企业应建立完善的自动审核机制大模型 产品,对用户输入的和产品输出的内容进行全量自动审核。在实践中,监管机关会要求企业对自动审核机制进行结论性描述,并提供审核记录等佐证材料。
(4)人工审核
为了对自动审核的结果进行查漏补缺,不断改进自动审核可能产生的漏洞,企业有必要引入人工审核,并将自动审核与人工审核机制进行有效结合。在实践中,监管机关要求企业对自动审核存疑的内容进行全量人工审核,并会要求企业提供审核人员名单、培训记录、培训内容等佐证材料。
(5)审核效果
在实践中,监管机关会从召回率、精确率、准确率三个维度判断审核机制的审核效果。其中,召回率是指违法不良样本判断正确的数量与违法不良样本的数量之间的比值,精确率是指违法不良样本判断正确的数量与判断为违法不良的样本数量之间的比值,准确率是指所有判断正确的样本数量与所有样本数量之间的比值。理论上,召回率提高会导致存在误判的可能性升高,继而导致精确率与准确率的下降,也会在一定程度上影响用户体验。企业需要在召回效果与准确程度之间进行取舍和平衡,实现业务合规与用户体验的共赢。
2.用户管理
(1)账号名称与头像审核
用户账号名称与头像在产品中持续展示,且可能携带违法和不良信息,因此也需要对用户账号名称与头像进行内容审核。在实践中,监管机关除了要求对用户账号进行通用的内容审核,还特别要求用户账号名称不得假冒名人、党政机关、行政区域、权威媒体,不得夹带链接、广告等信息,头像不得夹带二维码。
(2)真实身份信息认证
《深度合成规定》第9条要求深度合成服务提供者依法对服务使用者进行真实身份信息认证,不得向未认证用户提供服务。这主要是为了对违法违规用户进行用户溯源,确保落实《治安管理处罚法》《网络信息内容生态治理规定》等相关法律法规的规定。在实践中,企业在选择基于移动电话号码还是身份证号码+姓名实现真实身份信息认证要求时,还要考虑到识别未成年人用户的现实需要,综合设计相关能力。
(3)输入输出信息记录
《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第5条要求互联网信息服务提供者记录用户的账号、操作时间、操作类型、网络源地址和目标地址、网络源端口、客户端硬件特征等日志信息,以及用户发布信息记录。为了实现违法和不良信息的有效溯源,大模型产品运营企业在以上信息之外还应记录大模型产品输出的信息。
《办法》(征求意见稿)第11条还规定,提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。在实践中,监管机关除要求提供业务数据和业务日志的记录之外,还会要求企业提供对业务数据和业务日志采取安全措施的佐证材料。
(4)违法用户处置
《网络信息内容生态治理规定》第五条规定网络信息内容服务平台应制定并公开管理规则和平台公约,完善用户协议,对用户依法依约履行相应管理职责。在实践中,为了满足相关合规要求,有效控制用户的使用行为给大模型产品带来的合规风险,企业需要对于输入或诱导大模型产品生成违法和不良信息的用户,采取警告整改、暂停服务、关闭账号、禁止再次注册等管理措施大模型 产品,并在用户协议和平台管理规则等文件中对可能采取的措施予以明确提示。监管机关会要求企业提供技术能力和处理记录等相关佐证材料。
3.应急处理
(1)应急制度
《深度合成规定》第7条要求深度合成服务提供者建立健全应急处置管理制度。在实践中,监管机关会着重审查企业应急处置管理制度的科学性、合理性和可落地性,要求企业在制度中明确发生安全事件时应急处置的操作步骤、责任人、协调调度机制等。对于内容安全事件,企业在发现时需要第一时间报告有关负责人,有关负责人应报告属地网信部门,组织协调相关用户和发布平台删除违法违规内容,并在事后对训练标注、内容审核等环节暴露出的不足进行整改。
(2)应急演练
应急演练是有效贯彻应急处置管理制度,促进应急处置有效性和时效性的有效工具。在实践中,监管机关要求企业进行应急演练,并提供应急演练记录。企业在进行应急演练记录时,需注意记录应真实完整,与相关管理制度相匹配。
四、结语
对于国内大模型产品的井喷式增长,监管机关已经积极展开了包括算法备案、双新评估等在内的监管措施,并已就相应规范性文件公开征求意见。相关企业需要密切关注监管动向,注意大模型产品的合规建设,防止被监管机关采取下架等措施,甚至受到行政处罚,错失大模型产品发展的黄金期。
[注释]
[1]参见齐鲁壹点:《系好“安全带”,生成式人工智能才会更好发展》。
[2]参见兔主席:《ChatGPT的政治化终局ChatGPT的价值观及立场系列文章》。Political Compass有涉及经济、社会、文化、政治、宗教、情感等领域六十多道题,通过叠加得分,测出政治立场和价值取态。测试结果会被放到一个由四个象限构成的政治取态位图里。横轴研究的是经济价值:越是左,越强调公平;越是右,越强调效率。竖轴研究的是政治、社会、文化价值:越往上,越是强调集体主义、弱化个人主义。越往下,则越是强调个人价值,越是挑战权威和传统。
[3]图源同上
娜娜项目网每日更新创业和副业教程
网址:nanaxm.cn 点击前往娜娜项目网
站 长 微 信: nanadh666