庆云古诗词

庆云古诗词

bert翻译

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


BERT:语言理解的深层双向transformer的预训练

原文链接: BERT: Pre-【【淘密令】】nsformers for Language Understanding

        • BERT:语言理解的深层双向transformer的预训练
          • 1.介绍
          • 2.相关工作
            • 2.1 基于无监督特征的方法
          • 2.2 非监督微调方法
          • 2.3 从监督数据中转移学习
        • 3 BERT
          • 3.1 预训练的BERT
          • 3.2 微调BERT
        • 4.实验
          • 4.1 GLUE
            • 4.2 Schatgpt
          • 4.3 Schatgpt.0
          • 4.4 SWAG
        • 5. 消融研究
          • 5.1 预训练任务的效果
          • 5.2模型大小的影响
          • 5.3 BERT的基于特征的方法
        • 6 结论
Jacob Dechatgpt Lee Kristina Toutanova

摘要:介绍了一种新的语言模型表示BERT,它代表transformer的双向编码器表示。与最近的表示模型不同(Peters等人,2018;Radford等人,2018),BERT被用来设计成通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示。因此,只需一个额外的输出层,就可以对预训练的BERT模型进行微调,从而为各种任务(如问题回归和语言推理)创建最先进的模型,而无需对特定任务的体系结构进行大量修改。

BERT概念简单,经验丰富。它在11项自然语言处理任务上取得了最新的技术成果,包括将GLUE分数提高到80.7%(7.7%绝对改善),多项精度至86.7%(4.6%绝对改善),Schatgpt问答测试F1到93.2%(1.5%绝对改善)和Schatgpt.0测试F1到83.1%(5.1%绝对改善)。

1.介绍

语言模型预训练已被证明对改善许多自然语言处理任务是有效的(Dai和Le,2015;Peters等人,2018;Radford等人,2018;Howard和Ruder,2018)。这些任务包括句子层次的任务,如自然语言推理(Bowman等人,2015;Williams等人,2018)和释义(Dolan和Brockett,2005),旨在预测整体句子通过分析他们之间的关系,以及标记级任务,比如命名实体识别和回答问题,模型需要产生细粒度输出在词标记级别(Tjong Kim Sang和De Meulder,2003;Rajpurkar等人,2016)。

目前有两种将先预训练好的语言表示应用于下游任务的策略:基于功能的和微调的。基于功能的方法,如ELMO(Peters等人,2018),使用特定于任务的体系结构,其中包括作为附加功能的预训练表示。微调方法,如生成式预训练Transformer(OpenAI GPT)(Radford等人,2018),引入最小的特定于任务的参数,并通过简单地微调所有预先训练的参数对下游任务进行训练。这两种方法在训练前共享相同的目标功能,即使用单向语言模型来学习一般的语言表示。

我们认为,当前的技术限制了预训练的表示的能力,特别是对于微调方法。主要的限制是标准的语言模型是单向的,这限制了在预训练可以使用的体系结构的选择。例如,在OpenAI GPT中,作者使用了从左到右大体系结构,其中每个标记只能处理Transformer(chatgpt等人,2017)。这样的限制对于句子级的任务来说是次优的,当基于调优的方法应用于诸如回答问题之类的标记任务时可能非常有害,因为在这些任务中,从两个方向合并上下文是非常重要的。

在本文中,我们通过提出BERT:Transformer的双向编码器表示来改进基于微调的方法。Bert受完形填空任务的启发,通过使用“掩蔽语言模型”(MLM)的训练前目标,缓解了前面提到的单向性约束(Taylor,1953)。掩码语言模型随机地从输入中屏蔽掉一些标记,其目的是仅根据上下文来预测掩码的原始词汇表id。与从左到右的语言模型预训练不同,MLM目标使表示能够预训练一个深层双向的Transformer。除了蒙面语言模型之外,我们还使用了一个“下一句话预测”任务来联合预训练文本对表示。本文的贡献:

  • 我们证明了语言表征的双向预训练的重要性。不像Radford等人(2018),使用单向语言模型进行预训练,BERT使用掩蔽语言模型实现预训练的深层双向表示。这也与Peters等人形成了对比(2018),它使用了独立训练的从左到右和从右到左的LMs浅层表示。
  • 我们证明,预训练的表示减少了对许多高工程化的特定于任务的体系结构的需求。BERT是第一个基于微调的表示模型,它在大量语句级和标记级任务上实现了最先进的性能,并形成了许多特定于任务的体系结构。
  • BERT提升了11个NLP任务的技术水平,代码和预训练的模型可在【【网址】】/google-research/bert获得。
2.相关工作

一般语言表示在预训练前就已有很长的历史了,我们在本节中简要回顾了最广泛使用的方法。

2.1 基于无监督特征的方法

数十年来,学习广泛适用的单词表示一直是一个活跃的研究领域,包括非神经(Brown等人,1992;Ando和Zhang,2005;Blitzer等人,2006)和神经(Mikolov等人,2013;Pennington等人,2014)的方法。预训练的词嵌入是现代NLP系统的一个组成部分,提供了重要的改进从嵌入式从零开始学习(Turian等人,2010)。为了预训练单词嵌入向量,使用了从左到右的语言建模目标(Mnih和Hinton,2009),以及在左和右上下文中区分正确和错误的单词的目标(Mikolov等人,2013)。

这些方法已经被推广到更粗的粒度,例如句子嵌入(Kiros等人,2015;Logeswaran和Lee,2018)或者段落嵌入(Le和Mikolov,2014)。为了训练句子表征,之前的工作已使用目标来对候选的下一个句子进行排序(Jernite等人,2017;Logeswaran和Lee,2018),从左到右生成下一个句子单词,给出上一个句子的表示(Kiros等人),或去噪自动编码器派生的目标(Hill等人,2016)。

ELMO及其前身(Peters等人,2017)将传统的词嵌入搜索沿不同的维度进行泛化。它们从左到右和从右到左的语言模型中提取上下文敏感的特性。每个标记的上下文表示是从左到右和从右到左表示的任务连接。在将上下文相关的词嵌入与现有的特定于任务的体系结构集成时,ELMO为几个主要的NLP基准提高了技术水平(Peters等人,2018),情绪分析(Socher等人,2016)和命名实体识别(Tjong Kim Sang和De Meulder,2003)。Melamed等人(2016)提出通过使用LSTM从左到右两种语境中预测单个单词的任务来学习语境表示。与ELMO类似,它们的模型是基于特征的,不是深度双向的。Redus等人(2018)表明完形填空任务可以用来提高文本生成模型的鲁棒性。

2.2 非监督微调方法

与基于特征的方法一样,第一种方法只对来自未标记文本的预训练的词嵌入参数起作用(Collobert和Weston,2008)。 最近,产生上下文标记表示的句子或文档编码器已经从未标记的文本中进行了预训练,并针对监督的下游任务进行了微调(Dai和Le,2015;Howard和Ruder,2018;Radford等人,2018)。这些方法的优点几乎不需要从头学习参数。至少部分由于这一优势,OpenAI GPT(Radford等人,2018)在GLUE基准测试的许多句子级任务上取得了以前最先进的结果(Wang等人,2018)。从左到右的语言模型,和自动编码器的目标已用于此类模型的预训练(Howard和Ruder,2018;Radford等人,2018;Dai和Le,2015)。 图1:BERT的总体预训练和微调过程。 除了输出层,相同的体系结构用于预训练和微调。 相同的预训练模型参数用于初始化不同下游任务的模型。 在微调期间,所有参数都将进行微调。 [CLS]是添加在每个输入示例前面的特殊符号,[SEP]是特殊的分隔符(例如,分隔问题/答案)。

2.3 从监督数据中转移学习

也有研究表明,从监督任务与大数据集的有效转移,如自然语言推理(Conneau等人,2017)和机器翻译(McCann等人,2017)。计算机视觉研究也证明了从大型预训练模型中转移学习的重要性,其中一个有效的方法是使用ImageNet对预训练模型进行微调(Deng等人,2009;Yosinski等人,2014)。

3 BERT

我们将在本节介绍BERT及其详细实现。在我们的框架中有两个步骤:预训练和微调。在训练前,对不同训练前任务的未标记数据进行训练。为了进行微调,首先使用预先训练的参数初始化BERT模型,然后使用来自下游任务的标记数据对所有参数进行微调。每个下游任务都有单独的经过调优的模型,即使它们是用相同的预先训练的参数初始化的。图1中的问题回答示例将作为本节的运行示例。

BERT的一个显著特征是它跨不同任务的统一框架。预训练的体系结构和最终的下游体系结构之间的差异很小。

BERT的模型结构是基于chatgpt等人(2017)描述的原始实现的多层双向Transformer编码器,并在tensor2tensor库中发布。由于Transformer的使用已经变得很普遍,并且我们的实现与最初的实现几乎完全相同,所以我们将省略对模型架构的详尽的背景描述,并向读者推荐chatgpt等人(2017)以及“The Annotated Transformer”等优秀指南。

在这项工作中,我们表示层的数量(即Transformer组)为L,隐藏尺寸为H,注意头个数为A。我们主要报告了两个模型尺寸的结果BERTBASE (L=12, H=768, A=12,总的参数=110M) and BERTLARGE (L=24, H=1024,A=16, 总的参数=340M)。 为了进行比较,选择BERTBASE的模型大小与OpenAI GPT相同。然而,关键的是,BERT Transformer使用双向的self-attention,而GPT Transformer使用约束的self-attention,其中每个标记只能注意其左边的上下文。

输入/输出表示:为了使BERT能够处理各种下游任务,我们的输入表示能够清楚地表示一个句子和两个句子(例如,<问题,回答>)在一个标记标记序列中。在此工作中,一个“句子”可以是任意一段连续的文本,而不是一个实际的语言句子。“序列”是指BERT的输入标记序列,它可以是一个句子,也可以是两个句子组合在一起。

我们使用单词嵌入法(Wu等人,2016),拥有30000个象征性词汇。每个序列的第一个标记总是一个特殊的分类标记([CLS])。与此标记对应的最终隐藏状态用作分类任务的聚合序列表示。句子对被打包成一个单独的序列,我们用两种方法区分这些句子。首先,我们用一个特殊的标记将它们分开,。其次,我们在每个标记中加入一个学习嵌入,表明它是属于句子A还是句子B。如图1所示,我们将输入嵌入记为E,专用[CLS]标记的最终隐藏向量记为C∈RH,第i个输入标记的最终隐藏向量记为Ti∈RH。

对于给定的标记,其输入表示是通过对相应的标记、段和位置嵌入求和来构造的。这种结构的可视化结果可以在图2中看到。

3.1 预训练的BERT

不像Peters等人(2018)和Radford等人(2018),我们没有使用传统的从左到右或从右到左的语言模型来预训练BERT。相反,我们使用两个非监督任务对BERT进行预训练,如本节所示。此步骤在图1的左侧部分中显示。

任务#1:直观地隐蔽LM,我们有理由相信深度双向模型比从左到右的模型或者从右到左的模型的浅层连接更强大。不幸的是,标准的条件语言模型只能训练从左到右或从右到左,因为双向条件作用可让每个单词间接的“看到自己”,而且该模型可以在多层的上下文中轻松地预测目标单词。

为了训练一个深层的双向表示,我们简单地随机屏蔽掉一些百分比的输入标记,然后预测那些屏蔽的标记。我们把这个过程称为“蒙面LM”(MLM),尽管文献中它经常被称为完形填空任务(Taylor,1953)。在这种情况下,掩码标记对应的最终隐藏向量通过词汇表被输入到输出softmax中,就像在标准LM中一样。在我们所有的实验中,我们随机屏蔽了每个序列中15%的单词标记。相对于去噪的自动编码器(chatgpt等人,2008),我们只预测掩蔽词,而不是重建整个输入。

虽然这允许我们获得双向的预训练模型,但缺点是我们在预训练和微调之间产生了不匹配,因为在微调期间不会出现[MASK]标记。为了缓解这种情况,我们并不总是使用实际的[MASK]标记来替换“掩蔽”单词。训练数据生成器随机选择15%的标记位置进行预测。如果选择了第i个标记,我们将第i个标记替换为: (1)80%的时间是[MASK]标记 (2)10%的时间是一个随机标记 (3)10%的时间是不变的第i个标记 然后利用Ti来预测具有交叉熵的原始标记。我们在附录C.2中比较这个过程的变化。

任务#2:下一个句子预测(NSP),许多重要的下游任务,如问答(QA)和自然语言推理(NLI),都是建立在理解两个句子之间的关系的基础上的,而语言建模并不能直接捕获这些关系。为了训练一个理解句子关系的,模型,我们训练了一个二值化的下一个句子预测任务,这个任务可以从任何单语语料库中轻松生成。具体来说,在为每个训练前的例子选择A和B两个句子时,50%的时间是B是A后面的下一个句子(标记为IsBext),50%的时间B是语料库中的一个随机句子(标记为NotNext)。如图1所示,C用于下一个句子预测(NSP)。尽管它很简单,但我们将在第5节中进行演示,针对这项任务的预训练对QA和NLI都非常有益。 图2:BERT输入表示。 输入的嵌入是标记嵌入,分段的总和嵌入和位置嵌入。

NSP任务与Jernite等人(2017)、Logeswaran和Lee(2018)使用的表征学习目标密切相关。然而,在以前的工作中,只有语句嵌入被传输到下游任务,在那里BERT传输所有的参数来初始化最终任务模型参数。

训练前的数据,预训练前的程序很大程度上遵循了现有文献关于语言模型的预训练。对于预训练的语料库,我们使用BooksCorpus(8亿单词(Zhu等人,2015))和英文维基百科(2500万字)。对于Wikipedia,我们只提取文本段落,而忽略列表、表格和标题。关键是要使用文档级的语料库,而不是句子级的语料库,比如十亿词基准(Chelba等人,2013)为了提取长连续序列。

3.2 微调BERT

微调是很简单的,因为Transformer中的自我注意力机制(self-attention mechanism)将替换掉适当的输入和输出,从而对许多下游任务(无论是单个文本还是文本对)进行建模。对于涉及文本对的应用程序,一种常见的模式是在应用双向交叉注意(如Parikh等人,2016;Seo等人,2017)对文本进行独立编码。BERT使用了自我注意力机制来统一这两个阶段,因为自我注意力编码一个连接的文本对有效地包含了两个句子之间的双向交叉注意。

对于每个任务,我们只需将特定于任务的输入和输出输入到BERT中,并对所有参数进行端到端的微调。在输入端,来自预训练的句子A和句子B类似于(1)释义的句子对(2)引申义的假设-前提对(3)问答中的问题-短文对,以及(4)文本分类或序列标注中出现退化文本对。在输出中,标记表现形式被输入到一个输出层,用于标记级别的任务,如序列标记或问题回答,而[CLS]表现形式被输入到一个输出层用于分类,例如需求或情感分析。

与预训练相比,微调相对便宜。本文中所有的结果都可以在一个单一的云TPU上最多一个小时内复制,或者在GPU上最多几个小时,从完全相同的预训练模型开始。我们在第4节的相应小节中描述了特定于任务的细节。

4.实验

在本节中,我们将展示11个NLP任务的BERT微调结果。

4.1 GLUE

一般语言理解评价(GLUE)基准(Wang等人,2018)是一个集合了多种自然语言理解任务的集合。GLUE的数据集详细描述包含在附录B.1中。

为了对GLUE进行微调,我们按照第3节的描述表示输入序列(对单个句子或句子对),并使用第一个输入标记对应的最终隐藏向量C∈RH([CLS])作为聚合表示。微调过程中引入的唯一新参数是分类层权值W∈K×H,其中K为标签数。我们用C和W计算标准分类损失,即log(softmax(CWT))。 表1:由评估服务&#【【网址】】/leaderboard)评分的GLUE测试结果。每个任务下面的数字表示培训示例的数量。 “平均”列略有不同比官方GLUE得分要高,因为我们排除了有问题的WNLI集。8BERT和OpenAI GPT是单一模 型,单项任务。 报告QQP和MRPC的F1得分,报告STS-B的Spearman相关性,以及报告其他任务的准确性得分。 我们排除使用BERT作为其组件之一的条目。

我们对所有的粘合任务使用32的批大小和3个时间段的数据调优。对于每个任务,我们选择了开发集上最佳微调学习率(5e-5, 4e-5, 3e-5,和2e-5)。此外,对于BERTLARGE,我们发现微调有时在小型数据集上是不稳定的,因此我们运行了几个随机重启,并在开发集上选择了最好的模型。对于随机重新启动,我们使用相同的预训练的检查点,但是执行不同的微调数


aigc掀起全场景内容生产力革命 aigc商业化

全场景ai是什么意思

(报告出品方/作者:中信建投证券,杨艾莉、杨晓玮)

办公有望成最快落地场景,微软、谷歌全面升级办公应用

微软与谷歌升级办公应用,有望成AI应用落地最快方向

我们在2月1日发布的报告《生成式AI:海内外公司布局梳理》中已经展望:通过与chatgpt更加深 度的绑定,微软旗下各产品体验均有望“智能升级” 。1)企业级云计算领域:帮助企业级客户更加自主、安全、方便地开发AI应用; 2)个人生产效率方面:微软已将chatgpt整合进旗下搜索引擎必应(Bing),同时chatgpt功能 引入Office,用于部分文本的生成和问答等,这些都将提升个人用户的生产效率; 3)娱乐交互领域:此前微软计划收购动视暴雪,叠加在云游戏的布局,若能引入生成式AI模型,有 望在游戏的生产、分发与最终体验方面进一步升级。 近日,微软已经发布了生产力工具Microsoft 365 chatgpt,旗下Office办公系列均得到升级,重塑个人生产力。

微软发布chatgpt,旗下Word、PPT、EXCEL全面升级

Excel :1)通过自然语言命令操作表格;2)智能回答数据集相关问题并提供建议;3)生成图表 以帮助可视化 。Outlook:1)总结邮件摘要,包括不同观点、待回复问题等;2)通过简单命令回复邮件;3)将笔 记转换为清晰、专业消息。

Teams:1)会议中提供实时摘要和操作项;2)根据会议内容完成会议议程、跟进人员安排等常见 任务;3)为后续行动提供建议。 Power Platform:低代码工具加速和简化开发。1)Power Apps:通过自然语言为程序生成数据表 或改进应用程序。2)Power Automate:通过自然语言创建流程。3)Power chatgpt:快速 创建和修改机器人,可几分钟内构建智能对话机器人。

新智能商务助手Business Chat实现内容快速总结。可以汇集来自文档、演示文稿、电子邮件、日 历、笔记和联系人的数据,支持帮助总结聊天、撰写电子邮件、查找关键日期、根据其他项目文件 编写计划等,并支持多人协同工作。

谷歌升级Workspace

谷歌宣布将生成式AI引入Workspace,帮助用户Gmail、Docs、Slides、Sheets、Meet 和 Chat 中办公。具体包括:起草、回复、总结Gmail 并确定其优先级;集思广益、校对、撰写、重写Docs ;通过自动生成的图像、音频和视频结合命令生成Slides;在Sheets中自动完成公式生成、分类、 数据分析;在 Meet 中生成新背景并记录笔记;启用工作流程在 Chat 中完成工作。 同时,谷歌宣布,开发人员可以在 Google Cloud 上访问 Google包括PaLM在内的AI 模型,以使 用生成式 AI 构建和定制其模型和应用程序。

海外相关应用:Notion AI、Salesforce等

办公升级:Notion AI―高效的文档写作辅助工具

协作办公平台Notion于 2022年11月首次宣布其基于AI的文案写作助手Notion AI,并于 23年2月22日 推出正式版本,具备生成内容、修改内容的功能,可运用在文学、会议日程、新闻稿、销售文案等 内容的辅助创作中,用户可通过网页端、移动端、PC端登陆,据Notion官网截至2月22日累计用户 超200万。 生成内容方面,可精细化便捷修改。用户可在指令框内输入希望写作的内容,或直接从指令框的选 项中选择,Notion AI将快速生成相应内容,用户在此基础上翻译为特定语言,或对特定段落的行文 风格、段落长度、标点符号等进行精细化的修改。

此外,Notion AI还具备检查拼写和语法错误、创建想法列表的能力,以及写Excel公式、写Python 代码等复杂任务的处理能力。 已开启订阅变现。Notion AI目前允许用户免费输入20次指令,超出20次或23年4月5日后,用户使 用时需付费订阅,年度套餐为每年96美元,或每月8美元,月度套餐则为每月10美元,均提供无限 指令次数。

Notion AI较chatgpt更适合简化文本内容书写、编辑的过程。 1)文本内容修改更方便:chatgpt反馈的内容无法直接修改,用户需发送新指令,让chatgpt重 新生成内容。而Notion AI可对反馈内容直接进行修改,包括行文风格、段落长度,其中行文风格有 “更专业”“更直白”“更随意”等5种;或翻译为特定语言,有中英法日韩等14国语言。Notion AI也不保留用户输入的修改指令,因此更便于用户对比修改效果、全文复制后做手动修改。

2)允许导入多种文件格式:Notion AI允许 用户导入Word、CSV、大象笔记、HTML 、谷歌文档等,从而进行后续编辑修改; chatgpt不允许用户导入文件,但可以付 费API形式接入各类应用中,提供聊天机器 人的功能。此接口模型为gpt-3.5-turbo,定 价为每让chatgpt生成1000个tokens,即 收取0.002美元,比目前的GPT 3.5模型便 宜90%,其中token相当于非结构化的单词 ,而1000个token对应约750个词。

3)chatgpt较Notion AI更适合聊天。chatgpt拥有承认错误、讲笑话、拒绝回答等反馈形式, Notion AI也可类似做到,但会覆盖用户输入的内容,且储备的知识不如chatgpt丰富,一定程度影 响聊天体验。

技术原理:基于嵌入模型,让输出内容更准确地符合用户需求。Notion AI利用了chatgpt的嵌入模型 技术,可以更好地理解用户的文本请求,并提供相关的文本结果。嵌入模型的运作原理为,将文本 数据转化为计算机可识别语义的向量,其中语义相近的文本将会转化成彼此接近的向量,反之则距 离更远,从而为后续对应的本文结果输出提高准确性,进而用于文本搜索、异常检测、分类组合等。

Notion AI本质上为协作平台Notion的一个功能,后者由同名公司在2016年发布,通过版本的迭代优 化,实现了用户数的快速积累与估值的攀升。据36氪,2021年,Notion总用户数突破2000万,为 2019年的20倍;公司当前不是Y Combinator的孵化项目,但在2021年10月获得蔻图资本、红杉资 本领投的2.75亿美元C轮融资,投后估值为103亿美元,为2020年20亿美元的5倍。

办公升级: Meru―通用文档的助理“发言人”

Meru:对话式提取文件中数据。Meru的作用相当于为部分文件内嵌对话机器人,通过调用API将特 定的文档、文件、网址等文件的信息进行提取,从而像人类一样,通过对话方式,反馈给用户个性 化的相关答案,免去了用户主动搜索数据信息的过程。Meru也允许直接调用存储在Dropbox、Box 、Google Drive内的文档。

Meru已开放多种付费套餐。用户可以免费使用Meru,更高价格的付费版本将对应更多的询问次数 、可调用的文件存储服务及其他增值服务等,价位在99美元/599美元每月,也可定制需求。

办公升级:Baselit―低门槛AI数据分析工具

Baselit:低门槛AI数据分析工具。基于GPT-3模型和用户提供的数据库,根据简单的英文说明, Baselit即可快速运行数据的查询、转换、可视化工作,降低非技术团队处理和分析数据的门槛。例 如,可以按月进行GMV排序、查看每月失败的支付次数、特定客户支付失败的次数占比等,帮助客 户做更加深入细致的数据分析。

办公升级: ALPHA WATCH―查找财务资料的AI对话机器人

ALPHAWATCH:查找财务资料的AI对 话机器人。用户通过AlphaWatch输入自 然语言,AI聊天机器人能够快速查找相 关行业、公司的叙述、新闻、股价信息 等信息,例如美国证券交易委员会的文 件、卖方报告、投资者文件、新闻报道 等。ALPHAWATCH自然语言模型使用 数十亿个相互关联的维度,可简化从不 同非结构化来源收集并筛选信息的流程 ,为投资者的分析、决策提供便利。

办公升级:chatgpt―通过文本修改对应音频,获chatgpt投资

chatgpt:通过文本修改对应音频。chatgpt成立于2017年,不属于Y Combinator孵化计划Winter 2023 Batch的项目,但据36氪,其于2022年11月获得了 chatgpt Startup Fund 领投的 5千万美元C 轮融资,最新估值为 5.5亿美元。

chatgpt运作原理为:借助语音识别技术,将音频内容转录成对应的文本,用户编辑转录后的文本 时,就会对应修改原始音频,包括删词、改词、补词。其中对于新添加的文本,chatgpt 可按原始 音频生成声音,以避免重复录制,并支持自动识别和分离不同的说话人。 chatgpt也支持视频转录 为文字,以及删减文字来编辑视频,但当前不能通过添加文字来增补视频内容。

定价方面,chatgpt根据团队用户数和每月转录时长提供不同订阅版本。其中免费版每月有1小时转 录时长;每月 10 小时、30小时的版本分别对应定价每月12美元、24 美元。

办公升级: Defog―内嵌于第三方应用的AI数据分析机器人

Defog:内嵌于第三方应用的AI数据分析机器人。基于大语言模型, Defog可根据用户的自然语言 提问,将第三方应用中的特定数据进行可视化展示,方便用户了解有关应用的数据和见解。 Defog原理为:许多企业将数据存储在特定的数据库中, Defog模型只需要访问相应数据库的数据 架构即可工作,后者能将多种数据汇集在一起形成整体视图,而不需要有关用户的实际数据,因而 不会影响隐私。Defog已经与所有主要的数据库集成,包括Postqres,MySQL,chatgpt,Azure Synapse和Schatgpt等,也能接入其他有可视化查询数据的场景,如Web应用程序、移动APP等。

电商管理升级:Salesforce―老牌CRM厂商,结合AI技术升级产品

基于生成式AI的客户关系管理工具。近期Salesforce正式发布Einstein GPT,为全球首个基于生成式 AI的客户关系管理技术,结合了GPT-3.5,可自动生成个性化内容和自动化任务,或进行数据分析,帮 助销售人员、客服、营销人员提高工作效率,如生成个性化的客户邮件、为开发人员自动生成代码、 从客户的文本回答中甄别客户情绪、挖掘最有可能达成的交易等。 多项AI技术能力,支持服务多行业。 Einstein GPT具备机器学习、自然语言处理、计算机视觉技术, 能帮助用户提高对业务和客户的预测能力、理解并回答客户问题的能力、识别图像能力。由此, EinsteinGPT可服务多个行业,如公共部门、制造业、通讯、电商等。

国内相关公司:万兴科技、光云科技等

金山办公:WPS Office本地化优势,有望发力AI升级

金山办公:2023年重点发力AIGC等AI领域。公司为国内领先的办公软件与服务提供商,主要产品包括 WPS Office、金山文档、稻壳儿等办公软件,产品覆盖全球220多个国家和地区,截至2022年9底主 要产品月活设备数达5.78亿。据消费日报,金山办公CEO章庆元表示,2023年,金山办公的核心战略 目标是持续赋能企业数字化转型,将重点在AI领域发力,尤其是在AIGC方面实现更多技术应用突破, 帮助客户更好地实现数字化转型。

福昕软件:福昕PDF有望于AIGC技术结合

福昕软件:正研究AIGC与文档等产品的结合。公司为PDF电子文档解决方案提供厂商,主要产品包括 福昕阅读器及移动版、高级PDF编辑器、PDF过滤器等PDF相关的办公软件,以及视频录制、音频剪辑等 其他软件应用,直接用户已超过6.5亿,企业客户数达42.5万以上。据wind公开的投资者调研,公司表 示正在研究将AIGC技术与公司现有的产品进行结合的可行性,如结合,公司的定位仍然是在文档方面 的应用,且公司规划可利用的产品或技术预计也不仅限于chatgpt。

网易&有道:关注云笔记、精品课等产品迭代

有道:将AIGC技术引入教育场景。网易有道为国内的智能学习公司,旗下产品包括有道词典、有道词 典笔等软硬件学习工具,以及素养类课程、大学与职场课程等在线学习平台,有道全线产品月活用户 超1.2亿。据36氪,公司的AI技术团队近年来一直在AIGC上有持续性投入,2022年底已尝试将 chatgpt同源技术运用到教育场景,包括AI口语老师、中文作文打分和评价等。公司目前产品最终形 态还在讨论中,可能在智能硬件、在线课程领域落地。

万兴科技:视频软件已接入chatgpt,文档应用万兴PDF全新功能上线

图片和视频AIGC:旗下视频创意软件Wondershare Filmora新版本已接入chatgpt服务,可自由调用其AI 绘图功能,在视频创作领域集成AIGC新技术,一键生成图片素材。 计划加深与chatgpt等头部模型研发型公司合作。公司在2022年年底已发布万兴爱画,并计划近期推出 交互型图生图新功能,未来将逐步深化与以chatgpt为代表的AI上游技术商合作,借助AIGC技术持续升 级和推出产品。 近日公司的文档创意软件万兴PDF发布。正式上线“自动生成书签目录”功能,可以解决教育、技术 人员等PDF重度用户群体阅读大体积文档时定位难、翻页难的问题,让PDF处理和阅读更快捷高效。

报告节选:

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。