1分钟带你了解chatgpt chatgpt现在开放教程了吗
导读openai官网~出品 | 虎嗅科技组作者 | 齐健 | 陈伊凡头 | 视觉中国OpenAI在12月1日的NLP(自然语言识别)新模型ChatGPT,刚刚与广大网友度过了一个愉快而又有意义的周末。该模型是OpenAI在2020年推出的NLP预训练模型――GP...
出品 | 虎嗅科技组
作者 | 齐健
| 陈伊凡
头 | 视觉中国
OpenAI在12月1日的NLP(自然语言识别)新模型ChatGPT,刚刚与广大网友度过了一个愉快而又有意义的周末。
该模型是OpenAI在2020年推出的NLP预训练模型――GPT-3的衍生产品。在此之前,一直有预测OpenAI将在今年底或明年初推出GPT-4,虽然本次放出的ChatGPT被称为GPT-3.5,而不是GPT-4,但业内人士同样认为这将是对NLP以及人工智能领域有重要意义的一款模型。
ChatGPT一经就被OpenAI挂到官网上,接受广大网友的“检测”。 免费公测版本的服务器很快被热情的测试用户挤爆了。
一时间,针对ChatGPT的调戏、探讨、询问、闲聊贴刷屏了Twitter和朋友圈。周末没有跟踪ChatGPT新闻的“纽约时报”甚至遭到了已离开OpenAI的创始人马斯克发推奚落。
TED负责人Chris对纽约时报没有报道ChatGPT表示震惊,马斯克也在下面奚落纽约时报应该改名叫“社会正义时报”
ChatGPT有多厉害?
GPT-3目前的能力已经接近人类,甚至超过人类了。
ChatGPT模型看起来比以往的人机对话模型更强大,例如,其敢于质疑不正确的前提和假设、主动承认错误以及一些无法回答的问题、主动给拒绝不合理的问题、提升了对用户意的理解以及结果的准确性。与之前的GPT3不同,相比于此前海量学习数据进行训练,ChatGPT中,人对结果的反馈成为了AI学习过程中的一部分。
马斯克发推称:ChatGPT厉害的吓人,我们距离危险而强大的AI不远了。
ChatGPT 使用监督微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方――用户和 AI 助手,AI 训练员可以访问模型编写的对话回复,以帮助 AI 调整回复内容。
为了创建强化学习的奖励模型,该研究需要收集比较数据,其中包含两个或多个按质量排序的模型回复。该研究收集了 AI 训练员与聊天机器人的对话,并随机选择一条模型编写的消息,抽取几个备选回复,让 AI 训练员对这些回复进行排名。此外,该研究还使用近端策略优化算法(PPO)微调模型,并对整个过程进行了数次迭代。
目前已经有网友尝试让ChatGPT参加美国高考;诱骗ChatGPT规划如何毁灭世界;甚至让ChatGPT扮演OpenAI,在系统内构建ChatGPT套娃。
ChatGPT在网友的引导下创作的小说
更多新功能还在持续等待网友开发中……
这么好玩的东西不会只是拿来玩的吧?
在网友排队“调戏”AI的同时,ChatGPT商业落地问题亦成为产业界关心的话题。
ChatGPT或将衍生出一批强大的NLP商业应用。一位人工智能行业专家告诉虎嗅,通用大模型的普及预计会在3-5年内实现,人工智能将很快替代简单重复劳动,甚至是一些流程性的技术岗位,比如翻译、新闻简讯等。通用大模型很可能会在短时间内改变现在生产和生活的很多方式,大量基础性的工作流程会被基于大模型的智能应用渗透甚至取代。
那么代表着最新AI训练趋势的ChatGPT,在商业化方面有可能面临哪些挑战呢?
多位业内人士向虎嗅表示,今天的ChatGPT距离实际落地还有一段距离。其中最为核心的问题,在于模型的准确性和部署成本。
首先,ChatGPT的回答并不能保证准确性,这对需要准确回答具体问题的商业应用来说是致命伤。这也是ChatGPT要在C端大规模推广,所需要面临的挑战。一些业内人士担心,如果AI输出虚假信息的速度太快,可能会在互联网中淹没真实信息,甚至对整个社会产生误导。
这样的担心不无道理,也并非没有先例。Meta早些时候推出的一款大型科学预言模型Galactica,就因为回答问题过于“放飞自我”,在网上输出了大量凭空捏造的虚假内容,仅上线三天就匆匆下架了。
ChatGPT也并不能避免这个问题,OpenAI的科学家John Schulman在此前接受采访时曾表示,他们在解决AI编造事实的问题上取得了一些进展,但还远远不够。
商业化考虑的另一个问题就是经济性。ChatGPT目前尚处在免费的测试阶段,眼前最接近实际的应用场景是搜索引擎优化、营销内容创作辅助和开发者编程。
由于,ChatGPT现在还处在一个优化迭代的阶段,目前开放的公测应该也是希望搜集大众使用的反馈对模型持续改进。OpenAI首席执行官Sam Altman曾提到过,OpenAI未来的重点更新功能之一,是对ChatGPT生成的内容提供Citation。
GPT-3参数量达到1750亿,在2020年6月之后, OpenAI开始尝试对GPT-3进行商业化。目前OpenAI以API的形式向开发者客户有偿提供GPT-3模型,并根据token使用量来收费。其客户包括传媒、营销等多个领域,基于GPT-3产生的App达300多个。
从OpenAI官网公布的API价格来看,收集莎士比亚作品集的价格在48-24000美元不等
训练阶段的沉没成本过高,也导致人工智能应用早期很难从商业角度量化价值,也就是算不好“经济账”。随着算力的不断提高、场景的增多、翻倍的成本和能耗,将成为横梗在所有公司面前的问题。尽管OpenAI的估值目前为200亿美元,但此前亦有观点认为OpenAI应该是一家万亿估值的公司,而这家公司目前阶段主要产品和技术仍停留在实验阶段。
尽管很多小规模的预训练模型在今天的人机对话领域已经有很多成功的商业应用,但像ChatGPT这样大规模的模型,在To B领域中部署的难度很高,部署速度慢、成本高,商业价值也不明确,因此仅能停留在搜索、文化、娱乐等应用领域。
容联云AI科学院院长刘杰对虎嗅表示,To B行业对人工智能要求更严肃、严谨,目前的人机对话内容主要集中在客服、外呼、营销等领域,需要有针对的模型库,利用BERT(预训练的语言表征模型)基础上的UniLM框架等规模小一些的模型进行快速训练。
刘杰认为,包括ChatGPT在内的NLP,在商业化上还处在一个螺旋上升的阶段,未来应用场景很广,但当下技术和商业模式还需要尽快找到一个“共振”的频率。
不过,也有很多人认为ChatGPT未来的应用领域未必局限在人机对话,可能会扩展到更多应用领域,例如程序问题的识别和搜索引擎等。只是不论是哪一点,其都无法避免那些商业化的难题。
依托云厂商生长
数据是一切AI算法、AI模型的原料。
依附于云厂商,显然是一种聪明的做法,原料越丰富,做出来的菜色更多样。
2019年,OpenAI收到来自微软的10亿美元投资,此后一直与微软保持紧密合作。ChatGPT和GPT 3.5的训练也都是基于微软的Azure AI的超算基础设施完成的。
凭借着大规模通用AI模型在实际应用中对算力的需求,Azure AI可以利用ChatGPT秀一波肌肉。
去年11月,微软宣布,OpenAI的GPT-3将通过新的Azure OpenAI服务提供给开发人员。大幅加强了微软在NLP方面的技术能力。OpenAI的直接竞争对手DeepMind则在2014年被谷歌母公司Alphabet收购。谷歌和DeepMind合作的主要项目之一,是后者开发的人工智能推荐系统,这也大大提高了谷歌数据中心的效率。
微软和谷歌在与顶级人工智能研究实验室的合作中收获颇丰,而在这方面亚马逊的AWS可能已经落后于另外两家云业务不那么出众的竞争对手。Gartner于2021年3月的关于云人工智能的Magic 【【微信】】报告发现,AWS远远落后于微软、谷歌和IBM等竞争对手。
不过,在人工智能研究方面,AWS在2017年也推出了自己的机器学习解决方案实验室,提供机器学习专业知识,用于识别和构建识别AWS的机器学习解决方案。在今年9月还推出了一款据说在机器学习任务上表现优于GPT-3的seq2seq模型【【微信】】。
人工智能发展的瓶颈
一位在人工智能领域耕耘多年的业内人士告诉虎嗅,人工智能领域一直以来面临的瓶颈是建立在基础理论之上的,对于算法和架构的突破――大家习惯了用筷子夹丸子,但有没有想过,可能用签子串,效率更高。90年代末期,正在攻读博士的他就经历了一次AI的浪潮,过去40年,发生在AI产业上有三次浪潮,每一次都是由于理论发展的瓶颈最终退潮。
另一个瓶颈是伦理道德。一提到人工智能的伦理道德问题,多数人会想到自动驾驶定责等严重的问题,一位人工智能领域投资人向虎嗅指出,如今自动驾驶的技术走在了法律法规的前面。而如今,随着生成式AI的逐步成熟,AIGC的版权以及AI的价值观问题都成了制约人工智能发展的大问题。
在人类与AI交流的过程中,AI如何学习,能否输出正确的价值观?
大规模训练部分取决于数据的质量,AI无法主观判断什么是正确的,所以AI很容易“学坏”。虽然ChatGPT在“防骗”方面有了很大进步,但它仍然会在“不怀好意”的围观群众诱导下表达出一些不那么“政治正确”的观点,这可能会是通用AI模型商业化的阻力之一。
正在改变与想要改变世界的人,都在 虎嗅APP
ChatGPT热度还未散去,ChatGPT开发商OpenAI了更强大的GPT-4,堪称“王炸”产品。
当地时间3月14日,OpenAI公开大型多模态模型GPT-4,与ChatGPT所用的模型相比,GPT-4不仅能够处理像内容,且回复的准确性有所提高。目前GPT-4没有免费版本,仅向ChatGPT Plus的付费订阅用户及企业和开发者开放。
:OpenAI官网
“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI介绍,GPT-4在专业和学术方面表现出近似于人类的水平。例如,它在模拟律师考试中的得分能够排进前10%左右,相比之下,GPT-3.5的得分只能排在倒数10%左右。
与此前的GPT系列模型相比,GPT-4最大的突破之一是在文本之外还能够处理像内容。OpenAI表示,用户同时输入文本和像的情况下,它能够生成自然语言和代码等文本。
目前像处理功能还未公开,不过该公司在官网上展示了一系列案例。例如,输入如下片并询问“这张片有什么不寻常之处”,GPT-4可作出回答“这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上,使用熨衣板熨烫衣服。”
:OpenAI官网
在官方演示中,GPT-4几乎就只花了1-2秒的时间,识别了手绘网站片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。
除了普通片,GPT-4还能处理更复杂的像信息,包括表格、考试题目截、论文截、漫画等,例如根据专业论文直接给出论文摘要和要点。
GPT-4可对论文进行解读:OpenAI官网
与此前的模型相比,GPT-4的准确性有所提高。OpenAI称,该公司花费6个月的时间,利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果,“至少对我们而言,GPT-4训练运行前所未有地稳定,成为首个能够提前准确预测其训练性能的大型模型。”
OpenAI称,在公司内部的对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高40%,相应的“不允许内容请求的倾向”降低了 82%,根据政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。
不仅是英语,该模型在多种语言方面均表现出优越性。OpenAI称,在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能。其中GPT-4的中文能够达到80.1%的准确性,而GPT-3.5的英文准确性仅为70.1%,GPT-4英文准确性提高到了85.5%。
:OpenAI官网
不过,与早期的GPT模型一样,GPT-4仍然存在一定的局限性。
OpenAI称,它并不完全可靠,可能会出现推理错误,“GPT-4缺乏对绝大多数数据切断后(2021年9月)发生的事件的了解,并且无法从中吸取经验教训……它有时会出现简单的推理错误,它会轻信用户明显的虚假陈述,有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。”
基于此,OpenAI提醒,用户在使用语言模型时应格外小心,最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。
值得注意的是,GPT-4虽然于14日才正式公开,但早在一个月前,微软的新版搜索引擎必应(Bing)就已经在GPT-4 上运行。微软表示,“如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过GPT-4的早期版本。”
与免费的ChatGPT不同,GPT-4目前仅向ChatGPT Plus的付费用户开放,它也将作为API(应用程序编程接口)提供给企业及开发者,开发者需进入等候名单上,将该模型集成到他们的应用程序中。
OpenAI表示,已经有多家公司将GPT-4搭载到他们的产品中,包括语言学习工具软件多邻国(Duolingo)、移动支付公司Stripe和可汗学院(Khan Academy)。
栏目:顾万全 文字:房颖 题:视觉中国 片:苏唯
:作者:澎湃新闻 杨阳