chatgpt什么时候发布 免费chatgpt 小程序
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
大家好,我是校长。
聊一点感慨吧。
昨天,OpenAI 宣布已经在 ChatGPT 中实现了对插件的初步支持。
插件 (Plugins) 是专门为语言模型设计的工具,以安全为核心原则,可帮助 ChatGPT 访问最新信息、运行计算或使用第三方服务。这意味着第三方开发商能够为 ChatGPT 开发插件,并将自己的服务集成到 ChatGPT 当中去。
我从开发者的角度说一说这件事的可能性的意义。
很明显,OpenAI 开放插件的目的就是绑定开发者的生态,把自己打造成互联网新的操作系统和流量入口。
当拥有很多开发者涌进 ChatGPT 的生态当中,这意味着对 ChatGPT 的反哺会更丰富,让 ChatGPT 更智能。
昨天,我看李彦宏在接受 36 氪采访的时候,主持人问:为什么在文心一言还没有完全准备好的前提下就提前发布了吗?
李彦宏说:从技术发展的规律来讲,生成式 AI 这一类型的产品,确实需要有人类反馈之后,它的演进与能力提升才会更快。我们也希望它更快提升,所以必须要及早推出来。
所以,OpenAI 开放插件,让开发者可以对接,开发插件,打造这种生态体系,可以让 ChatGPT 进入更多的行业,接触更多的用户,那意味着 ChatGPT 会随着用户越来越多,接触的事物越来越多,功能越来越强大。
这个势能一旦建立起来,其实,其他 AI 可能是很难追的。
这种允许开发者进行生态打造的行为特别像在移动互联网诞生的时候,苹果的 AppStore 允许开发者去基于 iOS 操作系统开发应用程序,应用程序越多,生态越丰富,就可以吸引更多的用户。
微信在国内为什么这么成功?原因就是在于微信可以链接一切啊,微信本身也像一个微型操作系统,还有很多小程序这种开发者生态不断的丰富微信体系。
所以, ChatGPT 上了插件模块,类比下大概相当于应用程序之于 iOS AppStore,小程序之于微信,AI 时代流量的起点和入口。OpenAI 说不定会成为谷歌这样的巨头,谷歌估计要头大了。
从目前演示来看,首批开放可使用的插件包括了酒店航班预订、外卖服务、在线购物、法律知识、专业问答、文字生成语音,以及用于连接不同产品的 Zapier 等,估计随着进一步的成熟,接入的行业或者服务会越来越多,那么以后,当大家都习惯了跟 ChatGPT 打交道,可能使用搜索引擎的机会就会越来越少。
比尔盖茨说:在我的一生中,我见过两次让我印象深刻的技术演示,它们是革命性的。
第一次是在 1980 年,当时我接触到了图形用户界面 ―― 每个现代操作系统的先驱,包括 【【微信】】。我和向我展示演示的人坐在一起,他是一位名叫 Charles Simonyi 的才华横溢的程序员,我们立即开始集思广益,讨论我们可以用这种用户友好的计算方法做的所有事情。Charles 最终加入了微软,【【微信】】 成为了微软的支柱,我们在那次演示之后所做的思考帮助制定了公司未来 15 年的议程。
第二个大惊喜发生在去年。自 2016 年以来,我一直与 OpenAI 的团队会面,他们的稳步进步给我留下了深刻的印象。2022 年年中,我对他们的工作感到非常兴奋,于是我给了他们一个挑战:训练人工智能以通过大学预修生物学考试。使其能够回答未经专门培训的问题。(我选择 AP Bio 是因为测试不仅仅是对科学事实的简单反省 ―― 它要求你批判性地思考生物学。)如果你能做到,我说,那么你就取得了真正的突破。
我认为挑战会让他们忙上两三年。他们只用了几个月就完成了。
或许,Open AI 可能开启了下一次的工业革命和科技革命。
传送门:
ChatGPT 插件公告及报名表:https://openai.com/blog/chatgpt-plugins
ChatGPT 插件开发文档:https://platform.openai.com/docs/plugins/introduction
ChatGPT 代表插件 Retrieval:https://【【微信】】.com/openai/chatgpt-retrie【【微信】】
点击下方公众号卡片,关注我
在公众号对话框,回复关键字?“1024”
免费领取副业赚钱实操教程
chat gpt聊天功能的优缺点 chatgpt为什么是最强的人工智能
图灵人工智能?
作者 | 鲁冬雪
智能对话技术在近几年来取得了惊人的进步,最近爆火的 ChatGPT 更是将智能对话推到了至高潮。像 ChatGPT 这样的聊天机器人有着广泛的用途,然而想要让其达到真正的智能水平,还有很多挑战需要克服,比如自然语言处理、上下文理解、逻辑推理、情感表达等技术能力都需要进一步迭代。
如今智能对话技术已经发展到什么程度了?当前有什么好的智能对话产品实践经验?智能对话技术的下一步演进将是怎样的?为了得到这些问题的答案,3 月 11 日下午,OPPO 数智在线下举办了主题为《畅谈“智能对话”,共启“交互未来”》的 OGeek 小布沙龙。OPPO 小布助手首席研究员杨振宇博士作为本次沙龙的内容出品人,邀请到了清华大学计算机科学与技术系长聘副教授黄民烈博士、百度 AI 主任研发架构师 & 小度算法团队技术负责人谢剑博士及 OPPO 小布助手算法专家索宏彬博士来到现场进行了硬核的技术干货分享及精彩绝伦的圆桌论坛。
据悉,“OGeek”是由 OPPO 数智工程事业部主办的行业技术沙龙品牌,旨在为技术爱好者搭建一个技术交流和分享的开放平台。沙龙主要围绕“科技为人、以善天下”的品牌使命,聚焦于为智能终端提供安全高效的数据、算力、算法、云服务方面的前沿技术,打造技术互动的行业生态,探索技术在行业应用的实践、突破及未来发展方向。
以下为本次 OGeek 小布沙龙的精华内容整理:
1
黄民烈:预训练对话大模型深度解读
生成式对话模型的图灵测试逐渐接近人类水平,高质量对话也让人误以为 AI 有意识和人格觉醒。特斯拉和小米均在研发人形机器人,国际上也投入了大笔资金立项,似乎“AI- 人”和谐共融的社会将成为必然。基于以上背景,黄民烈指出,随着硬件成本越来越低、执行部件越来越灵敏,机器人的大脑将显得尤为重要。
黄民烈提到,目前 AI 的发展已经历三个时代:
基于规则时代,1966 年计算机发展之初,MIT 的教授基于规则研发了用于心理治疗的 Eliza;
智能助手时代,资本一顿狂追,成果则良莠不齐;
深度学习时代,如今,以深度学习为代表的大模型数据神经对话系统如 ChatGPT 正在开启 AI 发展的第三阶段――深度学习阶段。
黄民烈认为,聊天机器人可分为两个分支――“功能型 AI”及“拟人型 AI”。前者可以不停地完成任务和指令,如传统的智能助手、大模型阶段的 ChatGPT;后者则一般是基于检索的智能机器人、基于生成大模型的 LaMDA 等。
纵观大模型发展历程,由微软研发的 DialoGPT 是相对较早的系统,它完全基于 GPT 架构,从 Reddit 上抽取 147M 对话数据,实现了互信息最大化。谷歌研发的 Meena 系统提出了人工评价体系 SSA,性能显著超越了 DialoGPT。清华 CoAI 小组研发的 CDial-GPT,依托 Decoder-0nly 架构,建立了大规模高质量中文开放域对话数据集 LCCC,其人工评测结果优于原始 Transformer 模型和中文 GPT-2 模型,得到了学术界的认可。
紧接着由 Meta AI 研发的 BlenderBot 问世,共包含三代版本:
第一代:已具备开放域闲聊及多技能融合的能力;
第二代:模型结构与第一代相同,数据能力有所增强。
第三代:迭代为 Decoder-Only 结构,功能模块化与流水线配合执行,完成开放域任务并实现终身学习。
2021 年初,清华 CoAI 小组研发了 EVA,共有两个版本。其中,EVA1.0 包含 28 亿参数,在 181G WDC-Dialogue 上训练而成,开源首个十亿级别中文对话模型;EVA2.0 在精细清洗的 60G WDC-Dialogue 上训练而成,开源多规模版本模型以方便研究者使用。
当我们把目光放到当下的技术产品中,由百度研发的 PLATO 系列模型现已更新至第四代。前两代模型结构相同,参数量均为 1.6B。第三代 PLATO-XL,参数量达到 11B,在连贯性、一致性、信息量、事实性、趣味性上均取得优异表现。第四代 PLATO-K 版本旨在解决开放域对话系统中信息量缺乏和事实不准确的问题,在知识性上有大幅提升。由 Google 研发的 LaMDA 以 Decoder-Only 为架构,参数量达到 137B,在 2.81T 的 token 上进行了预训练,能够在合理、趣味、安全的开放域闲聊。引入 Toolset (TS),在生成质量、安全性、有根据性上取得明显提升。
去年,清华 CoAI 小组联合聆心智能研发了 OPD。它采用 UniLM 架构,在预训练阶段引入了 Soft Prompt。参数量为 6.3B,具有 70GB 高质量对话数据,兼顾出色的闲聊能力与知识问答能力。
关于如今备受关注的 ChatGPT,黄民烈提到,它背后的核心技术其实是指令学习和基于人类反馈的强化学习。黄民烈在此总结了 ChatGPT 的三个突出特点:
遵循指令能力出色,在多轮交互中均能很好地遵从指令;
对话历史建模能力突出,在多轮交互中具有很强的长程记忆能力;
多语言能力强,支持各类主流语言。再者是回复信息性强,倾向于生成较长的回复。最后是安全性好,安全漏洞很少且仍在持续优化。
黄民烈指出,ChatGPT 更突出功能属性,强调提高效率、解放生产力,提升创造力。而 Character AI 和 AI 乌托邦则更关注人格属性,试图满足社交、情感、陪伴、支持等需求。黄民烈将 AI 乌托邦称为 Mini 版的 ChatGPT,它既可以回答刁钻的问题,还可以让不同角色实现跨时空的对话。对于一个问题,ChatGPT 可能会给出一个比较官方的回复,而 AI 乌托邦则会根据不同的角色性格给出不同的回答。
在本次演讲的最后,黄民烈就对话大模型特点做出了总结:
1. 模型架构、预训练任务趋于统一;
2. 参数规模持续增大,下一代对话预训练模型将普遍进入千亿量级;
3. 数据重要性日益凸显,中等规模、高质量的对话数据将显著提升对话预训练模型的交互能力;
4. 人类在模型训练过程的介入和参与不断增加,模型对人类行为的模仿、与人类偏好和价值取向的对齐不断增强;
5. Tool-learning 引起关注,检索、记忆、计算等可插拔的外部模块将成为标配;
6. 新的落地应用场景涌现,以 Character.AI、ChatGPT 为代表的对话模型具有众多潜在的落地应用场景。
2
谢剑:小度助手的智能化演进技术实践
谢剑认为,智能助手的智能化体验将主要围绕以下几个维度进行进化。首先是“交互自然度”,交互自然度不仅体现在语音交互,更侧重于多模态的交互。现在市场上的语音助手基本是一次唤醒一次交互,这种方式并不够智能。其次是“对话智能度”,即智能对话系统要足够聪明。对于同一个问题,不同的提问方式均能得到准确的回答。从基础满足进阶到拟人智能,有人格化、人像化的形象将会与人产生情感的连接。然后是“感知与影响度”,即实现对物理世界更丰富的感知和更强的影响。
小度助手在这个进化蓝图下,主要围绕自然交互和对话智能展开探索。针对自然交互,谢剑指出,无论是把双工交互引进来,还是把“小度小度”变成“小度”,都是为了使用户和设备之间的交互成本更低。对话智能则侧重于不同技术路线应对不同的对话需求,小度个性化持续自学习的统一对话系统,可以在保护用户隐私的情况下进行用户分析,将满意的部分持续积累,不满意的部分通过样本挖掘产生正确的标签,实现系统的自学习。
从工业界的视野来看,谢剑认为对话理解正面临着三个挑战――大规模持续增长的理解体系、语音识别错误和口语化问题的鲁棒性挑战、需要满足不同用户的个性化需求。为此小度助手进行了对话理解层面、对话引导层面的技术迭代。
在对话理解层面,建立大规模个性化多轮对话需求追踪模型。将 NLP 与推荐技术交叉融合,针对用户的需求空间做整体建模,如此便绕开了文本出错的问题。同时,应用个性化和上下文信息融合的注意力网路,进而实现全空间可比的连续概率变化追踪。该模型的端到端纠错和 NLU 能力、上下文理解能力、垂类知识能力以及个性化纠错与消歧能力非常强悍,其中“个性化纠错与消歧能力”尤为突出。
在对话引导层面,谢剑强调智能的对话体验应是:知之为知之,不知为不知,即智能助手一定要知道自己有不知道的边界。通俗来讲,用户与小度聊天,当聊到它没听清或听不懂的问题时,它能够知道自己不知道,而不是答非所问。于是,小度团队构建了深度满意度模型――离线时基于下文 Dialogue Act 的序列行为判别模型,在线时基于离线模型样本,预判最佳结果是否满足用户。
面对 ChatGPT 的成功,谢剑将其背后的强大能力拆解为三个维度,分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。谢剑认为,ChatGPT 最大的亮点是语言智能统一范式的飞跃,在此之前整个学术界也一直在探索。
而以 ChatGPT 为代表的大规模语言模型的新技术范式对智能助手技术的演进的影响,让谢剑产生了一些反思:
先有通用的语言能力后再去做具体任务是通向语言智能的关键;
语言背后的世界常识、逻辑应是相同的;
不少单独的十分垂直的 NLP 研究子方向受到巨大冲击。
关于“ChatGPT 能否代替语音助手”这个问题,谢剑的答案是“不能直接完全替换,但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言,ChatGPT 本身的满足方式还是文本信息,无法直接连接数字世界的服务和 API,比如订闹钟、播放音乐等,而这些都是已有助手需要解决的问题,同时还存在事实性的问答错误以及时效性信息的更新问题,因此无法直接替换。
然而以 ChatGPT 为代表的 LLM 拥有极强的语言推理、总结和生成能力,以 LLM 作为大脑,结合外部工具的调用(包括搜索、服务 API 等)既能够满足现在用户对于语音助手的需求,还能够满足和激发原本满足不好的需求(内容生成、复杂长文本理解等)。
小度助手结合 LLM 新技术范式的升级会朝着 Chain of Reason and Act 方向去进化,用户的需求来了之后首先进行推理,思考需要调用和应用外部的什么服务和工具(比如 搜索、音乐播放服务、视频等),而后基于外部服务和工具的内容返回继续推理,看看是否能够满足用户的需求,在能够满足和不能满足的情况下自主的去生成更合适的内容返回给用户,这种"推理 - 执行 - 推理"链能够大幅的增强 LLM 的能力,进而满足用户对助手的各种需求。
当然这种技术和融合也有很多的挑战,包括成本的挑战、生成式大模型的安全挑战等等,另外在拥有 LLM 大模型的强大能力的同时还需要能够保持原本助手的个性化、自学习等特征,在这些关键问题下,小度团队也在紧锣密鼓的开展研究中。
3
索宏彬:OPPO 小布语音交互技术实践
小布助手是一个多模态、多终端、对话式的智能助手,以“机智”“有用”“温暖”为产品理念,致力于提供多场景、智慧有度的用户体验。
人机语音交互是基于语音输入的一种交互模式,即通过说话就可以得到反馈结果。语音助手则是一款智能型的应用程序,人机之间通过语音进行对话与问答。它的终极目标是全领域通过图灵测试,通俗说就是“能听”“会说”“懂你”。
小布助手的“语音”在落地阶段最重要的工作共有两项:
模型生产能否保证高效,比如把链路里的语音技术点、VAD/KWS/ASR 等基础模型生产置于统一框架之下,并相应地进行流程化改造;
算力部署,要把算法进行高效封装,使其迅速产生推理依据,随后部署到端侧和云侧。将语音处理接口进行抽象,以实现各种各样的语音服务编排。
即便小布助手链路已经构建得相当完整,但使用过程中仍然存在着许多问题。其中,索宏彬认为低功耗信号处理的主要挑战是非平稳噪声、高回放音和空间混响。目前的解决方案是单、双麦降噪,传统信号处理方法与神经网络方法并行,当前小布助手已完成立体声 AEC 算法仿真初版,在最大音量下,MIC1 回声抑制收益可超过 10dB。未来小布助手研发团队将聚焦多场景的 AEC 算法适配,布局远场交互的 Mic 阵列技术,为 OPPO 更多产品形态做好准备。
面对当前行业里“语音唤醒”功能实现中存在的“低功耗”、“高噪声场景下如何保持高水位的唤醒率同时抑制误唤醒率”技术难题,小布完成了唤醒底层算法的开发,从 0 到 1 构建了芯、端、云三级 (DSP/AP/Cloud) 唤醒方案。
关于声纹应用,为了应对人噪干扰、多人交谈、跨信道、短时交互的场景挑战,OPPO 小布研发团队基于 SpeechBrain 框架,选型了 Vector 算法框架及综合性解决方案算法框架 ECAPA-TDNN,并且基于距离度量的无监督聚类技术,进行数据自动化清洗。
在目标语音增强方面,小布助手团队尝试了基于声纹模板更新的主讲人话音检测算法(TSVAD),尝试通过主讲人语音注册环节,对模板进行更新,提升主讲人语音分离模型在实际场景使用时的鲁棒性能,提升后端语音识别准确率;
在自定义 TTS 方面,传统的声音自定义技术方案,录入时间长,效率低。同时,小布助手的用户群体背景及使用场景复杂,因此在复杂的环境和海量数据情况下,如何挑选满足条件的音频作为训练数据成为了一个巨大的挑战。于是小布助手研发团队自研了“纯语音 VAD”与“语音语义深度结合 VAD”的解决方案,同时应用了“预训练 + 在线自适应”的技术方案。
在歌声合成方面,面对“低资源歌声合成”、“跨风格歌声合成”、“跨语言歌声合成”、“个性化歌声合成”的需求,小布助手研发团队提出了两个技术优化方案:
方案一:声码器从 HiFiGAN 升级至 SiFiGAN,通过引入 Source-Filter 模型,模拟发音过程,实现基频(F0)可控,MOS 得分有显著提升;高保真歌声合成,从 24K 升级至 48K,可以保留 12K 以上的高频细节信息;引入 PN 技术,将 Diffusion 模型中的差分方程分解为“Gradient”和“Transfer”两部分,在“Gradient”部分选择“Linear Multi-Step”方法加速计算,并实现了实时推理。
方案二:小样本歌声合成使用 Conditional LayerNorm 技术,Finetune 时只更新与说话人音色相关的参数即可,训练数据从 3 小时降低至 40 分钟以内;同时改进了时长模型 Differentiable Durator,一定程度解决训练和推理过程不匹配的问题,提高自然度。
4
智能对话技术的“下半场”在哪?
在本次 OGeek 小布沙龙的最后,杨振宇与黄民烈、谢剑、索宏彬一起围绕“智能对话技术的‘下半场’在哪?”这一主题展开了圆桌论坛。几位博士均表示,爆火的 ChatGPT 给智能对话领域带来了深远的意义和影响。黄民烈认为,ChatGPT 最大的意义是让所有公众意识到了 AI 的能力以及 AI 能够突破传统认知上的局限”;谢剑和索宏彬都提到了“人机共生”的理念,他们表示 ChatGPT 的出现将启发人们思考,在未来的工作场景中如何实现人机共生。
当提到智能对话等人工交互领域最有前景的方向时,来自学术界和工业界的博士们分别给出了不同的答案,黄民烈认为未来将是千人千面的;谢剑在个性化助手的方向基础上,抛出了“增强语言模型”的观点,让 LLM 结合外部的各种信息和工具来大幅提升 LLM 的能力;索宏彬则认为,从交互模态上看,input 会变得更加丰富。四位博士完美地勾勒出了智能对话技术的美好未来。通过他们的分享,我们可以预见,智能对话与人机交互在未来一定会给我们带来更多的惊喜。
就像出品人杨振宇说的那样,“即使有像 ChatGPT 这样的新技术出现,挑战也仍然存在,包括内容安全与 AI 伦理、长时记忆与个性化、共情能力与拟人化、反馈驱动与自学习。但机遇与挑战并存,随着技术的快速迭代,智能对话领域正在迎来最好的时代。”
值得一提的是,在本次 OGeek 小布沙龙中,杨振宇还宣布了“2023 年中国高校计算机大赛智能交互创新赛”启动事宜,呼吁全球高校在校生参与到本届大赛中。据悉,该大赛是由教育部四大教指委创办,由浙江大学与 OPPO 公司联合承办,旨在提升学生在新一代人机交互方向的技术、场景创新能力,积极探索“科技为人”的智能交互技术,给未来人类生活提供全新的产品及服务体验。希望通过竞赛的形式培育产学研融合的 AI 人才生态体系,共同促进人机物三元融合产业的发展和革新,全面推进 AI 技术的发展。
附:圆桌论坛环节精彩整理
?问题 1(杨振宇):关于智能对话技术的研究与探索,目前学术界和工业界的侧重点分别是什么?
黄民烈:学术界现在的趋势是以神经网络模型为主,工业界的趋势则是朝 OpenAI 的方向持续狂奔。从学术界角度来讲,由于资源受限,无法支撑太多大规模的模型和试验。整个学术界的研究方式正在与工业界的方式趋同和对齐,很多有影响力的论文都是由名校和大厂共同产出的。
学术界当下需要考虑如何学习外界工具方法来解决自身研究的问题。工业界数据是最好的方法,但学术界也需要用有原则性的方法突破它。比如乌托邦个性化对话平台的很多行为要靠数据解决,里面也有很关键的算法,这时既要考虑算法在原理层面是否合适,同时也要注意规避算法短时间内难以克服的缺陷。
谢剑:不单是智能对话,我们可以思考任何计算机领域包括科学领域,学术界和工业界的侧重点是什么。个人看来,学术界侧重突破新的可能。比如不考虑任何成本,智能最终极限将是什么样的。工业界则侧重于解决问题,他们更看重“捅破天花板”的技术最终能应用于哪些场景以解决用户的需求。近年,工业界产品的用户体量很大,也需要再往前走一走。刚刚黄老师提到,现在许多大厂和高校之间都有合作。那么工业界也将与学术届合作,一起捅破“天花板”。
索宏彬:目前,OPPO 小布也在和学校进行合作,该项目的出发点主要围绕两个方向,一是跨领域、多模态领域,涉及语音、图像以及语义结合,可以看出学术界在这些领域是比较关注的。第二个是问题驱动,这其中包括很多技术挑战点,高校工作也比较关注。回到本质上,目前智能助手业务应用上,跟高校的合作还是主要围绕用户体验、围绕问题驱动。
?问题 2(杨振宇):当前 B 端企业和 C 端用户对于“智能对话”产品的核心需求分别有哪些?
谢剑:2B 最后也是 2C,最终都是要满足用户的需求,当然它们也会各有侧重。2B 的客户往往是开发者,他们看重是否具有泛化能力,能否降低开发者成本。2C 的大部分用户不是开发者,他们希望交互一次就能满足需求。所以,从智能对话上来讲,这可能是比较明显看到的区别。也许,新的时代 2B 和 2C 会模糊掉。如果开发者用很简单的自然语言就能开发,就意味着人人都能成为开发者,中文也能变成世界上最强的编程语言之一。所以,2B 和 2C 的模糊,一定程度上也能带动整个社会生态的蓬勃发展。
索宏彬:小布的产品定位正在发生变化,尤其在备受热议的 ChatGPT 出来之后,小布的目标是朝着“有用”的方向走。原来的小布侧重于“有趣”,现在则在向“有用”的方向走,这是很典型的一个变化。
黄民烈:我理解人类有两类基本需求,一类是信息需求,一类是情感需求。信息需求本质上是做事情,怎么把它完成的更好。情感需求本质是要消