训练效果未及预期,31名ChatGPT训练派遣工遭解雇
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
4月23日消息,据知情人士爆料和内部沟通文件显示,今年3月,30余名帮助培训爆火聊天机器人ChatGPT背后语言模型的派遣工被解雇。
Slack内部聊天截图显示,截至3月16日,总部位于旧金山的外包公司Invisible Technologies解雇了31名派遣工。不过,OpenAI在其整个公司范围内仍在继续招聘。
截图还显示,数百名被称为“高级人工智能数据训练师”的Invisible Technologies公司派遣工与OpenAI合作,帮助后者训练其GPT聊天机器人。一位派遣工表示,该公司的人工智能数据培训师负责提高模型的编码技能,增强它们的创造性写作能力,或者训练它们拒绝对某些话题做出响应。由于签署了保密协议,这名派遣工要求保持匿名,不过知情人证实了他的身份和就业情况。
Invisible Technologies公司运营副总裁卡姆伦・帕里兹班(Kamron Palizban)在3月份的一次全体员工会议上谈到了裁员问题。他在被泄露的会议录音中表示,由于业务需求发生变化,OpenAI希望减少派遣工数量。帕里兹班在会议上还说,许多被解雇派遣工从事的项目没有为OpenAI提供足够高的投资回报。
OpenAI大幅削减派遣工数量
Invisible Technologies与OpenAI的关系让人们得以一窥这家ChatGPT制造商的数据训练情况。在很大程度上,OpenAI始终对这些训练保密。
在OpenAI与Invisible Technologies的合同调整之前,有报道称前者连续六个月增加员工数量。知情人士表示,截至今年1月,OpenAI已在东欧和拉丁美洲等地雇佣了近1000名数据标注派遣工。
就在Invisible Technologies裁员两个月前,微软刚刚向OpenAI注资100亿美元。但Invisible Technologies并不是唯一一家与OpenAI合作的外包企业。
《时代》周刊的一项调查显示,2022年2月,同样位于旧金山的外包公司Sama在得知其在肯尼亚的数据标注员工正在审查性虐待、仇恨言论和暴力等有害内容后,终止了与OpenAI的合作关系。
在给《时代》周刊的一份声明中,OpenAI发言人解释称:“对有害的文本和图像进行分类和过滤,是将训练数据中包含的暴力和*内容数量降至最低的必要步骤,并有助于创建可以检测有害内容的工具。”
人工智能训练师的工作
根据Invisible Technologies公司派遣工的说法,人工智能训练师最基本的职责包括审查人工智能与其用户之间的对话,以识别潜在的非法、侵犯隐私、攻击性或充满错误的消息。接受采访的派遣工这样描述了他们的日常生活:
开始轮班后,他们首先要打开内部工作浏览器,查看团队的任务清单。他们可能会点击这样的任务:“在禁止浏览的情况下就一个随机话题进行对话”,然后在消息框中输入一个查询。
提交查询后,OpenAI的模型将生成四个响应。派遣工通过打开下拉菜单并选择存在的错误类型,如事实错误、拼写或语法错误,抑或是存在骚扰行为,以此来评估每个响应。然后,派遣工将错误的严重程度分为一到七级,其中七级代表“基本完美”的答案。
接下来,派遣工必须精心设计一个完美的回应,并提交以示完成任务。派遣工表示,结果将被发送给OpenAI和Invisible Technologies公司的质量检查员。对于接下来的每个任务,都需要不断重复这个流程。
Invisible Technologies运营副总裁卡姆伦・帕里兹班在会议中提到OpenAI时表示:“他们正处在这样一个阶段:即将对自己的发展方向有更多的清晰认识。”
Invisible Technologies合伙人兼运营经理格蕾丝・马特利奇(Grace Matelich)在录制的会议上表示,该公司根据完成任务的“质量”和“吞吐量”等绩效指标解雇了表现不佳的派遣工。
马特利奇称,表现不佳的派遣工以及那些被录用但没有“达到认证门槛”的派遣工都被解雇,不过有些人被允许选择转移到不同的OpenAI团队。他还说:“如果你们今天还在这里,我想让你们知道,这是因为我相信你们有能力出色地完成任务。”(小小)
让大模型讲人话,“天工”有何不同?
天工模界,天工建模软件,天工模具有限公司,天工模具钢题图 | 视觉中国
现在,还没发布大模型的科技公司,在行业里已经显得有点非主流了。
微软和OpenAI联手烧起来的大模型之火还没燃完一个月,国内大模型已经开始卷起来。今年四月可以称为国内大模型的肇始之月。继百度在3月底发布文心一言后,阿里、腾讯、字节等行业巨头,以及商汤、知乎等细分领域玩家都陆续发布了自己的大模型产品。
科技公司扎堆大模型,这次真的不能怪它们喜欢抢热点。
除了资本市场热捧ChatGPT概念所能带来的短期资本效应外,向市场发布大模型的更重要意义,在于让产品能够源源不断的吸收到最新的数据和用户反馈,进而转动数据、技术互相驱动的飞轮。也就是说,谁先下场,谁就最有可能在实际场景里实现技术赶超。
一众发布了大模型的公司中,4月17日正式发布的千亿级大语言模型“天工”是话不多的那一个,却公开表示“天工”3.5是第一个真正实现智能涌现的国产大语言模型,已“非常接近OpenAI ChatGPT的智能水平”。
“天工”大模型由昆仑万维和AI团队奇点智源共同打造,作为一家上市公司,昆仑万维给予了旗下大模型非常高的评价,“天工”表现到底如何?我们特地测了测。
聪明的大模型长啥样
据官方介绍,天工比较擅长知识问答、文案撰写、灵盖助手、代码生成、语言翻译和学习指导。且天工具备超强记忆,支持20+轮次交互。
多轮交互考验大模型的上下文编码和动态记忆机制,能不能实现多轮交互不仅是衡量大模型水平的标准,也关乎着其在现实中的应用价值(如客服场景等)。
因此,第一个测试就从多轮交互开始。第一个问题是一个比较笼统的问题,天工给出的答案中规中矩。
在此基础上,开始加限定条件。
对于这个即便在现实中也很难解决的问题,天工给出的解决方案还是比较全面的。之后,将测试问题进一步细化,看看天工能给出什么答案。
天工给出的答案涉及了辞职带娃的方方面面,考虑的还是比较周到的。那么最后,给定具体条件,请天工给出确定的建议。
结合具体的条件,天工给出了直接建议:可以考虑辞职带娃,同时也再一次强调辞职带娃的风险。
可以看出,这个多轮对话测试还是能够反映出天工的水平的,其确实拥有不错的多轮对话能力,能够真正帮助用户解决问题。
难度升一下级,这一次,测试需求是虚构了一个公关危机事件,需要天工给出一份公关危机应对指南。
天工给出的方案框架挺像模像样的,不过这毕竟只是个框架,缺乏实操细节,天工究竟智能到什么程度,还得细化prompt,于是这次测试提出了一个非常具体、有实操性的需求。
面对具体需求,天工也很实际的向测试者要更多信息。于是输入了更加详细的prompt,提供了具体的公司名称、危机细节和危机公关目标。
天工拟出的这份道歉声明,先解释了原委,从事实层面对事件做了说明,然后就是诚恳的向公众道歉,并且还给出了后续的解决方案――增加备货量,确保每位观众都能领到小礼物。可以说,一份合格的道歉声明所需要的元素,天工拟出的文本都涵盖了,虽然测试输入的prompt是虚构的,给定的信息有限,但天工的输出还是挺值得信赖的。而且在这个多轮对话中,天工的表现依然稳定。
此外,天工在实时性的事实回答上表现尤为突出。比如,天工知道最近的烧烤顶流是淄博。这意味着天工的训练数据更新十分及时,且天工对信息的提炼总结能力也是到位的。
接着试试知识问答,提问设置了一个小陷阱,将“遇热”写成“预热”。天工没有被这个错别字迷惑,输出了正确答案。
经过上面几个测试后,再来测测天工在逻辑和数理方面的能力。
先试一下代码生成能力。输入的prompt是帮忙写一个俄罗斯方块程序,然后天工一行行的输出了相应代码。
整体来说这个函数拆分逻辑是合格的。
最后,给天工输入了一个典型的思维陷阱题。在这道题目里,解题人很容易被冗余信息干扰而去计算答案,因此也能比较好的测试天工对信息的辨别能力。
一开始,天工还老老实实的去算了一下,很快它就识破了陷阱――根本不需要交换,两边本来就是各有50颗豆子。这个答题思路暴露了天工的思考过程,人工智能还是挺可爱的,让人想起思维透明的三体人。
意犹未尽,再来一道经典数学题,鸡兔同笼都被测烂了,这次换一道。
天工依旧给出了正确答案。
基于文、理两个方面测试的结果,天工的整体表现确实比较稳定,也能带来一些惊喜。
一个表现相当不错的大模型产品诞生在昆仑万维,可能并不符合市场的一贯认知。甚至在官方推文中,昆仑万维自己也说“很多人不相信昆仑万维能做出大模型”。
不过,说得少不代表做得少,很多时候,扫地僧才是那个真正厉害的人。
有厚积才能薄发
作为当前AI领域最先进技术的代表,合格的大模型可不是做几页PPT就能实现的,其背后需要非常强的算力、数据、算法。
天工之所以能有如今的表现,离不开长期的积累。
大模型(Large Model),顾名思义是指具有数百万或数十亿个参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。相比之下,小模型(Small Model)是指具有较少参数的深度神经网络模型。
天工采用了双千亿模型――千亿预训练基座模型和千亿RLHF排序模型,这使其具备了更高级的自主学习和智能涌现能力。
模型大,训练一次所需的算力也就更大,这也是目前业界公认的发展大模型的挑战之一。而算力是天工最不用担心的事情,其背后有国内最大的GPU集群之一,能够进行充分训练。
在此基础上,天工采用了蒙特卡洛搜索树算法进行优化,这进一步提高了解码过程中的准确性和安全性,这是天工在复杂任务和场景中能够快速且准确相应指令,让用户感受到其足够“聪明”、“通人性”的关键原因之一。
数据作为AI时代的燃料,同样是大模型过程中必不可少的要素。为了给天工最优质的燃料,天工团队投入大量资源从数十万亿的数据中清洗、筛选出了3万亿单词数据用于训练大模型。这使得天工天然“更懂中文”。
天工也很懂得人多力量大的道理,昆仑万维在2022年发布AIGC全系列算法模型的同时,就开源了百亿级参数模型,积累了广泛的开发者好评与社区共创。因此,天工能够得到开源社区上百位AI科学家助力,加速提升。
要集聚如此优质的资源,临时抱佛脚肯定是做不到的。今日天工之成绩,离不开昆仑万维过去数年的扎实投入。
做AI,昆仑万维一直很认真。
昆仑万维旗下的StarMaker是海外市场最大的音乐社交平台,全球活跃用户数超过6000万。基于对相关业务场景的洞察,昆仑万维从2020年就开始布局AI音乐领域,在2022年1月启动SkyMusic音乐实验室,2022年4月已达到人工智能领域最优效果。
也是在这一年,昆仑万维开始从音乐AI往多模态AI拓展。而只有自研大模型,才能建立AIGC的核心壁垒、掌握主动权。此时其合作方奇点智源也越发强烈地意识到千亿级大模型是AGI(通用人工智能)的一个突破口,开始从百亿级模型向千亿级模式冲刺。双方一拍即合。
2022年,昆仑万维和奇点智源就百亿级大语言模型、图像AIGC、编程AIGC等技术领域达成全面技术战略合作,在2022年底宣布全系列模型开源。
“天工”这个千亿级大模型的诞生,算是长期技术投入和积累的厚积薄发。
转动变革的飞轮
昆仑万维之所以对AIGC有如此敏感的嗅觉,与其业务版图密不可分。
2008年,昆仑万维以页游研发和全球游戏发行起家,次年进军海外,是最早出海的一批游戏公司。经过十数年的发展,如今,昆仑万维已经是一家业务遍布全球5大洲、70多个国家和地区,全球平均月活跃用户近4亿,海外收入占比达75%的全球化企业。且业务版图也从最早的游戏,拓展至信息分发、云宇宙、社交娱乐、移动游戏、休闲娱乐和投资五大板块。
出海、全球化、泛娱乐是定义昆仑万维的三个关键词。
娱乐是一个极度依赖创意驱动和内容生产的产业,创意既能带来机遇,也意味着高昂的成本和极高的试错风险,如果能降低创意涌现的随机性,提高创意竞争力,降低内容生成成本,也能实实在在的巩固企业核心竞争力。
理解了这个逻辑,就不难理解为什么昆仑万维对于AIGC会保持如此敏感度:AIGC赋能内容生产能力,提高工作效率和质量的效果显而易见,同时企业运营成本也能得到有效控制。
作为昆仑万维CEO,同时也是从1994年开始参与和倡导开源运动、中文Linux的奠基人,方汉对技术的敏锐嗅觉也让他在2019年底看到GPT3的发布后,便判定改革终将来临。公司高层对未来趋势的判断叠加业务发展的现实需求,构成了昆仑万维长期、坚定投入AI的坚实底气。
AIGC已经在昆仑万维的实际业务场景中展露锋芒:公开信息显示,过去,昆仑万维游戏板块完成一期游戏配乐项目需要4-6个月的时间,现在通过AIGC,同样的项目只需两周交付,资金成本大幅降低。
实际落地后,天工的能力还将在具体场景下实现更快的技术迭代。更加先进的多模态大模型将能有效赋能昆仑万维的实体业务,提升企业竞争力。
这在昆仑万维的发展历史中已经被验证。
2017年,StarMaker选择K歌作为切入音频社交的入口,但在中东、非洲、东南亚市场,买了版权却不能获得伴奏带,StarMaker只能自己做。传统制作方式是人工做声音消除,成本高昂。为此,昆仑万维专门组建了研发AI作曲的实验室StarX MusicX Lab,带着近10位博士研发了将近三年,将AI人声消除技术做到世界头部水准。StarMaker每进入一个新市场,完成版权交易后便能瞬间生成伴奏,实现快速扩张。
当更加先进的生产工具被纳入昆仑万维的业务流程中后,其全球化复杂的运营体系,以及创意驱动的多业务布局,都将得到AI更稳更强的护航。
天工的意义远不止于提升自家产品体验,还在于为昆仑万维打开了全新的可能性。
不是所有人都有能力去做大模型,但对先进生产工具的需求是普遍的,因此天工作为生产工具向市场开放,是有极强的现实基础的。
据Gartner预测,至2023年将有20%的内容被生成式AI所创建;至2025年生成式AI产生的数据将占所有数据的10%(目前不到1%)。红杉则在去年的一份报告中预测,AIGC将产生数万亿美元经济价值。国海证券认为,至2025年,国内AIGC应用规模有望突破2000亿,国内传媒领域应用空间超1000亿。
显然,无论是作为效率工具,还是由之衍生的应用市场,AIGC都能提供足够大的空间。也就是说,天工的想象空间非常大,这将成为未来观察昆仑万维价值的重要线索。
当前,大模型距离全面普及还差一个iPhone时刻。而离开实际应用场景,大模型侈谈杀手级应用,更遑论iPhone时刻。如今,天工不仅在昆仑万维的业务流中输入更多现实反馈,还会在更多合作伙伴的应用场景中锻造能力。
当更先进的技术结合最丰富的应用场景,诞生杀手级应用的可能性将会大大提高。这是跨代际的机遇,孵化出天工的昆仑万维必然能从中分享红利,产业的发展也将在其的刺激下,迸发更多的可能。
今日之天工是昆仑万维的一小步,必将是昆仑万维乃至大模型产业的一大步。