揭秘chatgpt背后的核心技术解析chatgpt背后的工作原理

互联资讯 2023-04-18 09:40:03 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

chattra,chatbot,chatrge,chatbat

中国支付清算协会明确指出“ChatGPT这类智能化工具已经暴露出跨境数据泄露等风险。”并发出“谨慎使用ChatGPT等工具”的倡议，该倡议强调支付行业从业人员要提高思想认识，依法依规使用ChatGPT等智能化工具，正确认识相关工具的机遇和风险，全面评估使用ChatGPT等工具处理工作内容的风险；倡议支付行业从业人员在使用ChatGPT等工具时，要严格遵守国家及行业相关法律法规要求， 不上传国家及金融行业涉密文件及数据、不上传非公开的资料及数据、客户资料、支付清算基础设施或系统的核心代码等内容；倡议各会员单位要进一步健全信息安全内控管理制度，开展有针对性的数据风险防控工作，加强宣传和引导，提升员工的风险防范和数据保护意识，切实维护国家金融及支付行业安全。

一、ChatGPT已发生多起数据泄漏事故

中国支付清算协会这一倡议是对近期ChatGPT频繁曝出数据泄露事件的回应，ChatGPT已经在世界范围内曝出数起敏感数据泄密事件，就在本月初，意大利个人数据保护局宣布，从即日起禁止使用ChatGPT并限制OpenAI公司处理意大利用户的个人信息，同时意大利个人数据保护局开始就ChatGPT泄露敏感信息事件进行立案调查。无独有偶，韩国某国际知名大型企业（某星）主管存储、芯片设计、晶圆代工等半导体核心业务部门亦因为员工使用ChatGPT导致机密数据泄露。

该泄露事件涉及三位员工，员工甲在运行半导体设备测量数据库下载程序的源代码时发生了错误，于是他复制所有有问题的源代码并将其输入到ChatGPT中询问解决方案。员工乙则将“设备测量”及“产量和缺陷”检测程序代码整个相关源输入ChatGPT，要求ChatGPT帮助其优化代码。员工丙则是一名行政人员，其将用自己手机录制的会议内容转化为文字后，输入到ChatGPT中 ，要求ChatGPT优化这份录音转文字的稿件，使其看起来像一篇精心制作的会议纪要。

上述三位员工的行为使得某星涉及半导体业务的敏感内容，此后该企业向公司所有员工告知“如果采取信息保护紧急措施后仍发生类似事故，公司内部网可能会禁止ChatGPT连接。”

事实上国内部分行业也已经对ChatGPT引发的敏感信息泄露问题发布了相关预警。除韩国某星外，微软、亚马逊等国际巨头企业亦对自己的员工发出预警， 不要与ChatGPT分享公司的相关敏感信息，因为它们可能会被ChatGPT用于训练未来的语言模型。

出于对敏感数据泄露风险的担忧，花旗集团、德意志银行、高盛集团、摩根大通等企业亦明确禁止员工使用ChatGPT处理工作任务。更有1000多名科技行业领导和研究人员呼吁暂停先进AI的研发，以便相关的数据安全政策能够首先得到讨论施行。AI与数据政策中心（The Center for A.I and Digital Policy）亦要求美国联邦交易委员会禁止OpenAI发布ChatGPT新的商用版本。

二、ChatGPT泄露数据风险点位分析

中国支付清算协会以及上述各企业对于ChatGPT数据泄漏风险的担忧不无道理。ChatGPT的数据泄漏风险主要源于两部分，其一是ChatGPT本身的程序漏洞，其二是ChatGPT的工作原理。ChatGPT本身的程序漏洞可能会导致用户的聊天内容泄露。这类事故已经发生过数次，就在上个月末。有部分网友生成自己的ChatGPT聊天栏中出现了其他人聊天记录的标题，3月25日OpenAI发文证实是由于ChatGPT本身程序漏洞导致了泄露事故，OpenAI“已紧急修复该漏洞并向用户致歉”。事实上程序本身漏洞导致信息泄露并非“不可饶恕”， 这些漏洞通常及时修补后就不会引起撼动ChatGPT根基的风波。而真正可能撼动ChatGPT根基的是后一种信息泄露风险点位，即ChatGPT的工作原理，实际上，ChatGPT的工作原理就注定了其在现阶段很难解决信息泄露的问题。

具体而言，传统的聊天软件通常会声称“本软件不会收集聊天记录、聊天信息也会点对点进行加密传输”，事实上绝大部分的聊天软件也都会做到这一点。但是这一点对于ChatGPT而言几乎不可能实现，原因在于ChatGPT这类大语言模型一定会收集用户的聊天内容，并将其用于后续算法训练，以使得自身进一步迭代成为更加高效的AI。因此，用户在与ChatGPT聊天的过程中提供的隐私内容，很可能会被ChatGPT收集，并成为其自身算法训练的素材，然后在其他场景中透露给别人。

于是”故事”（事故）就是这样产生的：某员工甲为图方便，将其单位的客户数据输入到ChatGPT中，希望ChatGPT根据数据生成相应的报告，其后这些客户数据就被ChatGPT收集并用作未来算法训练的素材。之后某商业间谍乙在使用ChatGPT时，询问ChatGPT某公司的客户数据大致是什么内容，ChatGPT立刻就将其在员工甲处“学习而来”的知识告诉了乙……

当然，现实的数据泄露情景更为复杂，本文仅是将其简化并以通俗易懂的方式呈现给读者，上述ChatGPT的工作原理在短时间内无法改变，实际上OpenAI已经在ChatGPT的使用指南中数次提醒用户输入ChatGPT聊天框的文本内容会被用于进一步训练模型，警告用户不要提交敏感信息，换言之，ChatGPT的工作原理就注定了其必定会触及到隐私数据保护、数据跨境传输等合规红线，而且这种“矛盾”似乎在短期内无法妥善解决。

三、企业引入AIGC服务的合规要点

接受新技术能够产生巨大的生产力变革，我们必须承认以ChatGPT为代表的AIGC、深度合成技术可能直接成为企业核心竞争力与吸引力的组成部分，对于AIGC、深度合成技术绝不能一禁了之，企业如何在现行的法律框架下发挥ChatGPT等工具的最大潜力，将会是企业合规新的难题。我国是最早对人工智能进行监管的国家之一，《互联网信息服务深度合成管理规定》已于今年1月10日施行。

在此之前《互联网信息服务算法推荐管理规定》《网络音视频信息服务管理规定》《网络信息内容生态治理规定》等法律法规中亦涉及到AIGC、深度合成等内容。根据我国目前有关AIGC、深度合成的法律合规框架，企业如果希望在服务中引入AIGC，应当至少关注以下几点内容：

1.与深度合成服务提供者或者技术支持者的协议条款，重点关注在使用AI方面有何限制，有何免责场景。

2.审查深度合成服务的提供作者与技术支持者是否履行了《互联网信息服务深度合成管理规定》中的合规任务。

3.就员工内部使用ChatGPT等AIGC工具，制定合规使用政策，要求使用相关服务的员工至少应当明确哪些内容不可以通过AIGC处理，以避免企业自身敏感信息泄露。

4.如企业引入的AIGC内容可能会向企业自身的客户披露，那就必须在对外服务时告知哪些内容是由AI生成的，应当警惕内容的风险，确保可能受影响人群的知情权。

四、写在最后

传统聊天软件的服务提供商通常不会收集聊天记录，聊天记录亦会点对点加密，但ChatGPT等AIGC却会不可避免地收集聊天内容用于后续的算法训练，以使自身“迭代进化”，用户提供的隐私信息很可能在这样的机制之下被披露给第三方，实际上AIGC正在慢慢改变隐私数据处理的边界与预期，这对企业合规、数据相关法律规范制定者、司法机关都是一个挑战，未来可能会涉及的数据合规尤其是数据出境等问题，可能仍需进一步探索与研究。

LCOUNCIL 活动推荐

LCOUNCIL四月活动预告

LCOUNCIL实战训练营――广告合规实战训练营

LCOUNCIL 课程预告

线下活动

4.14 新形势下从监管视角看药械企业合规建设新方向与新思路

4.14 【深圳站】海关与贸易合规年度盘点与展望返回搜狐，查看更多

责任编辑：