庆云古诗词

庆云古诗词

OpenAI CEO否认训练 GPT-5;雷军首谈大模型;宁德时代与 58 同城达成战略合作

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

openai是哪个公司的,openai api key获取,openai账号注册,openai key获取

极客早知道

6min read

OpenAI CEO否认训练 GPT-5;雷军首谈大模型;宁德时代与 58 同城达成战略合作

美漪2023/04/15

摘要

首例虚构数据干扰算法推荐构成不正当竞争案宣判:抖音获赔 100 万元;比亚迪仰望 U8 官宣 4 月 18 日全国预售;iPhone 15 Pro 设计再遭泄露

OpenAI CEO:公司目前没有训练 GPT-5,短期内也不会训练

4 月 14 日消息,OpenAI CEO Sam Altman 近日确认,公司目前没有训练 GPT-5,并且「短期内也不会训练」。

近日一封公开信要求像 OpenAI 这样的实验室暂停开发「比 GPT-4 更强大」的 AI 系统。

在 MIT 的一个活动上,Altman 表示,这封信「缺少大部分技术细节,无法了解需要暂停的地方」,并指「我们现在没有训练,也短期内不会训练 GPT-5。」

然而,没有在训练 GPT-5 并不意味着 OpenAI 不再拓展 GPT-4 的能力。Altman 强调了,他们也在考虑这项工作的安全性问题。「我们正在 GPT-4 之上做其他事情,我认为这些都涉及到安全问题,这些问题在信中被完全忽略了,」他说道。(来源:IT 之家)

宁德时代与 58 同城签署战略合作协议

据宁德时代消息,4 月 13 日,宁德时代与 58 同城在福建宁德签署战略合作协议,计划在新能源汽车、新能源二手车流通等多个领域展开全面战略合作。

根据协议,在新能源汽车领域,宁德时代将向 58 同城提供有竞争力的产品及服务保障,支持 58 同城开拓新能源汽车市场;在新能源二手车流通领域,58 同城将充分发挥流量、渠道、平台等优势,联合宁德时代共同推动新能源二手车流通的规模化、规范化发展,建立宁德时代品牌影响力。

此外,双方将在国内户用储能、新能源汽车后市场等多个领域展开合作。(来源:证券时报)

SpaceX:发射 StarShip 火箭的计划获得美国政府批准,预计最快 4 月 17 日首次试飞

最新消息称,美国太空公司 SpaceX 可能会在 4 月下旬进行一次关键的StarShip超重型火箭发射测试,预计最快 4 月 17 日首次试飞。

按照 SpaceX 的设想,星际飞船将是完全可重复使用的运输系统,可以将宇航员和货物运送到地球轨道、月球、火星以及太空中的其他地方。

该公司计划在 SpaceX 位于得克萨斯州南部博卡奇卡的 Starbase 设施进行试射,这也是该公司高达 394 英尺(约合 120 米)星际飞船系统的首次发射。

StarShip星舰作为人类首款可完全重复使用的天地往返运载器,这次首飞十分值得关注。(来源:网易科技)

英特尔与极氪签署战略合作备忘录,携手打造新能源汽车智能体验

4 月 14 日消息,日前,英特尔与吉利控股集团旗下智能纯电品牌极氪智能科技宣布签署战略合作备忘录。

双方将基于此前成功的合作基础,在汽车硬件产品开发、智能车载应用和解决方案,以及生态链建设等领域探索深入合作,携手为用户打造新能源车(NEV)智能车载体验等创新产品。

英特尔公司高级副总裁王锐表示,「英特尔会创新更高算力的软硬一体方案,助力产业伙伴为用户提供更智能、更安全的驾乘体验。」

极氪智能科技 CEO 安聪慧也表示:「随着双方合作的不断深化,我们将实现优势互补,为用户打造令人期待的豪华智能纯电汽车和出行体验。」(来源:TechWeb)

字节跳动被曝抢 VR 开发者迁移 Meta 应用

4 月 14 日消息,据知情人士透露,字节跳动计划向那些为 Meta 开发虚拟现实软件的第三方开发者支付报酬,让他们将那些为 Meta 虚拟现实设备开发的应用程序迁移到 Pico 设备上来。

知情人士说,字节跳动向一些虚拟现实软件开发者提出的报价是每款应用 1.5 万至 2.5 万美元。这些激励措施表明两家公司在虚拟现实领域的竞争越来越激烈。

对此,字节跳动一位发言人说,向开发人员付费把现有应用迁移到新平台,这是行规。而 Meta 内容生态系统总监克里斯・普鲁特也曾公开表示「字节跳动进入虚拟现实市场并为开发者提供资金,这对 Meta 来说是件好事。」(来源:TechWeb)

首例虚构数据干扰算法推荐构成不正当竞争案宣判:抖音获赔 100 万元

杭州中院消息,杭州互联网法院近日公开宣判了首例涉及虚构数据干扰算法推荐引发的不正当竞争案。

涉案刷量软件是一款名为「抖竹」的 APP,用户在手机上登录抖竹和抖音账号后,设置任务、移动端就能够自动打开抖音并自动实施一系列指定动作,包括模拟人工操作养号、批量点赞和评论、随机转发等,实现为指定账号引流、截流同行粉丝的目标。

抖音认为「抖竹」妨碍了抖音的正常运行,构成不正当竞争。请求判令停止侵权、消除影响并赔偿经济损失及合理费用共计 150 万元。

法院一审判决被告停止涉案不正当竞争行为,发布声明消除影响,并应赔偿抖音经济损失及合理费用共计 100 万元。(来源:TechWeb)

雷军发文谈大模型及 AIGC:小米正研发一些有趣技术和产品,打磨好了再展示

4 月 14 日,小米 CEO 雷军今晚微博发文谈大模型和 AIGC。

雷军称,小米在 AI 领域已经耕耘多年,有 AI 实验室、小爱同学、自动驾驶等团队。对于大模型,我们当然会全力以赴,坚决拥抱。我们正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。

此外,根据小米近日发布内部邮件,宣布任命栾剑担任技术委员会 AI 实验室大模型团队负责人,向技术委员会 AI 实验室主任王斌汇报。(来源:IT 之家)

比亚迪仰望 U8 官宣 4 月 18 日全国预售,百万级新能源硬派越野

4 月 14 日消息,比亚迪官宣,旗下百万级新能源硬派越野汽车―― 仰望 U8 将于 4 月 18 日开启全国预售,并将在当天亮相上海车展。

仰望 U8 是该品牌首款量产车型,定位百万级新能源硬派越野,采用了仰望品牌的家族式设计「时空之门」,标配「易四方」的动力技术。

根据官方公布的最新信息来看,仰望 U8 的长 / 宽 / 高分别为 5319/2050/1930mm,轴距 3050mm,定位中大型 SUV。

外观设计方面,仰望 U8 前脸拥有巨大的「工」字形格栅,两侧采用点阵式 LED 光源,拥有电动隐藏式门把手,顶部还搭载了激光雷达。(来源:IT 之家)

微软 SwiftKey 输入法增加了由 Bing 驱动的 AI 功能

微软已经更新了 iOS 和 Android 版的 SwiftKey,配备了 ChatGPT 的人工智能功能。根据该公司的博客文章,必应在三个主要方面与 SwiftKey 整合。用户可以在搜索、聊天和语气中依赖人工智能驱动的必应。

通过 Chat 功能,人们可以在旅途中访问新必应,以进行更详细的查询。如果你刚到这个地区,正在给一些新朋友发短信,推荐一家好的当地餐馆,那么它就会很有帮助。

SwiftKey 的这些功能在所有提供新必应的市场都可以使用。现在任何人都可以使用搜索,而访问 Tone 和 Chat 则需要你登录你的微软账户,该账户已被批准访问新必应预览。(来源:cnBeta)

iPhone 15 Pro 设计再遭泄露:音量双按键 静音拨片改为 Action 按钮

目前,虽然苹果公司还没有公布 iPhone 15 的产品阵容,但有关该系列产品的信息被曝出不少。

4 月 14 日消息,据外媒报道,泄密者泄露的信息显示,iPhone 15 Pro 和 iPhone 15 Pro Max 将恢复双键设计。

泄密者泄露的渲染图显示,苹果公司计划为 iPhone 15 Pro 机型恢复双键设计,而不采用单一的统一音量键。

除了计划使用之前的双键设计外,该公司还计划将静音拨片改成 Action 按钮,类似于 Apple Watch Ultra 上的 Action 按钮。

苹果之所以还能更改这些设计,是因为这些设备仍处于工程验证测试(EVT)阶段,尚未进入最终生产。(来源:TechWeb)

科学家发现一颗新的「准月球」正围绕地球运转

最近发现的一颗名为 2023 FW13 的新小行星不仅仅是一颗路过的小行星。根据新的报告,这颗新发现的小行星实际上是地球的一个古老的伙伴,是一颗最晚在公元前 100 年起就在我们星球附近运行的准月球。

此外,天文学家认为,这颗新成立的准月球将至少坚持到公元 3700 年,这意味着它将在未来几千年内与地球一起在宇宙中旅行。

未来对这颗准月球的探测任务有可能为我们带来更多关于它有多大的信息,甚至了解它由什么材料组成。(来源:cnBeta)

ChatGPT新能源苹果公司比亚迪


nlp基础知识与模型 nlp大模型相较垂直模型优势有哪些

nlp基础知识,nlp基础入门,nlp入门教程,nlp基础理论

作者 | JayLou

来源 | 知乎

前言

在之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》一文中,介绍了从word2vec到ELMo再到BERT的发展路径。而在BERT出现之后的这大半年的时间里,模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得起游戏的核心玩家反复迭代了若干版,一次次的刷新我们这些吃瓜群众的案板上的瓜。

有没有感觉出瓜速度太快以至于吃速跟不上?不用担心,小编帮你们找来了这篇总结的恰到好处的文章,对ELMo以来的15个代表性的预训练语言模型进行了多维度的对比和分析。尤其是近期找工作的小伙伴们注意啦,这篇文章里面提出来的一些问题很适合作为面试考点(划掉,交流点)噢~

首先上一张镇楼专用图,看一下ELMo以来的预训练语言模型发展的概况

然后上本文正餐,一个高能的【【微信】】,这也是本文写作的主线。

Question List

  • Q1:从不同维度对比各【预训练语言模型】?

  • Q2:基于深度学习的NLP特征抽取机制有哪些?各有哪些优缺点?

  • Q3:自回归和自编码语言模型各有什么优缺点?

  • Q4:单向模型的内核机制是怎样的?有哪些缺点?

  • Q5:Transformer内部机制的深入理解:

    • 为什么是缩放点积,而不是点积模型?

    • 相较于加性模型,点积模型具备哪些优点?

    • 多头机制为什么有效?

  • Q6-Q10:BERT内核机制探究

    • BERT为什么如此有效?

    • BERT存在哪些优缺点?

    • BERT擅长处理哪些下游NLP任务?

    • BERT基于“字输入”还是“词输入”好?(对于中文任务)

    • BERT为什么不适用于自然语言生成任务(NLG)?

  • Q11-Q15:针对BERT原生模型的缺点,后续的BERT系列模型是:

    • 如何改进【生成任务】的?

    • 如何引入【知识】的?

    • 如何引入【多任务学习机制】的?

    • 如何改进【mask策略】的?

    • 如何进行【精细调参】的?

  • Q16:XLNet提出的背景是怎样的?

  • Q17:XLNet为何如此有效:

    • 为什么PLM可以实现双向上下文的建模?

    • 怎么解决没有目标(target)位置信息的问题?

  • Q18:Transformer-XL怎么实现对长文本建模?

下面本文将从以下几个方面来对上述问题一一探讨

一. 不同视角下的预训练语言模型对比

二.预训练语言模型的基础:特征抽取机制+语言模型的分类三.单向模型回顾+内核机制探究四.BERT的内核机制探究五.BERT系列模型进展介绍六.XLNET的内核机制探究七.预训练语言模型的未来

Q1:从不同维度对比【预训练语言模型】

从特征抽取、预训练语言模型目标、BERT系列模型的改进方向、特征表示4个视角,对比预训练语言模型:

  • 不同的特征抽取机制

    • RNNs:ELMO/ULMFiT/SiATL;

    • Transformer:GPT1.0/GPT2.0/BERT系列模型;

    • Transformer-XL:XLNet;

  • 不同的预训练语言目标

    • 自编码(AutoEncode):BERT系列模型;

    • 自回归(AutoRegression):单向模型(ELMO / ULMFiT / SiATL / GPT1.0 / GPT2.0)和XLNet;

  • BERT系列模型的改进

    • 引入常识:ERNIE1.0 / ERNIE(THU) / ERNIE2.0(简称为“ERNIE系列”);

    • 引入多任务学习:MTDNN/ERNIE2.0;

    • 基于生成任务的改进:MASS/UNILM;

    • 不同的mask策略:WWM/ERNIE系列/SpanBERT;

    • 精细调参:RoBERTa;

  • 特征表示(是否能表示上下文)

    • 单向特征表示:单向模型(ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0);

    • 双向特征表示:BERT系列模型+XLNet;

Q2:基于深度学习的NLP特征抽取机制有哪些?各有哪些优缺点?

1)能否处理长距离依赖问题

长距离依赖建模能力:Transformer-XL > Transformer > RNNs > CNNs

  • MLP:不考虑序列(位置)信息,不能处理变长序列,如NNLM和word2vec;

  • CNNs:考虑序列(位置)信息,不能处理长距离依赖,聚焦于n-gram提取,pooling操作会导致序列(位置)信息丢失;

  • RNNs:天然适合处理序列(位置)信息,但仍不能处理长距离依赖(由于BPTT导致的梯度消失等问题),故又称之为“较长的短期记忆单元(LSTM)”;

  • 【【微信】】ansformer-XL:self-attention解决长距离依赖,无位置偏差;

2)前馈/循环网络 or 串行/并行计算

  • MLP/CNNs/Transformer:前馈/并行

  • RNNs/ Transformer-XL:循环/串行:

3)计算时间复杂度(序列长度n,embedding size为d,filter大小k)

  • CNNs:

  • RNNs:

  • Self Attention:

Q3:自回归和自编码语言模型各有什么优缺点?

1)自回归语言模型

  • 优点:

    • 文本序列联合概率的密度估计,即为传统的语言模型,天然适合处理自然生成任务;

  • 缺点:

    • 联合概率按照文本序列从左至右分解(顺序拆解),无法通过上下文信息进行双向特征表征;

  • 代表模型:ELMO/GPT1.0/GPT2.0;

  • 改进:XLNet将传统的自回归语言模型进行推广,将顺序拆解变为随机拆解(排列语言模型),产生上下文相关的双向特征表示;

2)自编码语言模型

  • 优点:本质为降噪自编码特征表示,通过引入噪声[MASK]构建MLM,获取上下文相关的双向特征表示;

  • 缺点:引入独立性假设,为联合概率的有偏估计,没有考虑预测[MASK]之间的相关性

    • 不适合直接处理生成任务,MLM预训练目标的设置造成预训练过程和生成过程不一致;

    • 预训练时的[MASK]噪声在finetune阶段不会出现,造成两阶段不匹配问题;

  • 代表模型:BERT系列模型;

Q4:单向模型的内核机制是怎样的?有哪些缺点?

1)ELMo (Allen Institute)[6]

  • 要点:

    • 引入双向语言模型,其实是2个单向语言模型(前向和后向)的集成;

    • 通过保存预训练好的2层biLSTM,通过特征集成或finetune应用于下游任务;

  • 缺点:

    • 本质上为自回归语言模型,只能获取单向的特征表示,不能同时获取上下文表示;

    • LSTM不能解决长距离依赖。

  • 为什么不能用biLSTM构建双向语言模型?

    • 不能采取2层biLSTM同时进行特征抽取构建双向语言模型,否则会出现标签泄漏的问题;因此ELMO前向和后向的LSTM参数独立,共享词向量,独立构建语言模型;

2)ULMFiT (fast.ai) / SiATL

? 2.1)ULMFiT[7]要点:

  • 三阶段训练:LM预训练+精调特定任务LM+精调特定分类任务;

  • 特征抽取:3层AWD-LSTM;

  • 精调特定分类任务:逐层解冻;

? 2.2) SiATL[8]要点:

  • 二阶段训练:LM预训练+特定任务精调分类任务(引入LM作为辅助目标,辅助目标对于小数据有用,与GPT相反);?- 特征抽取:LSTM+self-attention;

  • 精调特定分类任务:逐层解冻;

    • 都通过一些技巧解决finetune过程中的灾难性遗忘问题:如果预训练用的无监督数据和任务数据所在领域不同,逐层解冻带来的效果更明显[9];

3)GPT1.0 / GPT2.0 (OpenAI)

  • GPT1.0[10]要点:

    • 采用Transformer进行特征抽取,首次将Transformer应用于预训练语言模型;

    • finetune阶段引入语言模型辅助目标(辅助目标对于大数据集有用,小数据反而有所下降,与SiATL相反),解决finetune过程中的灾难性遗忘;

    • 预训练和finetune一致,统一二阶段框架;

  • GPT2.0[11]要点:

    • 没有针对特定模型的精调流程:GPT2.0认为预训练中已包含很多特定任务所需的信息。

    • 生成任务取得很好效果,使用覆盖更广、质量更高的数据;

  • 缺点:

    • 依然为单向自回归语言模型,无法获取上下文相关的特征表示;

这一部分对BERT的内核机制进行介绍,在回答“BERT为什么如此有效?”之前,首先介绍Transformer的内核机制。

Q5:Transformer[12]内部机制的深入理解(回顾)

1)Multi-Head Attention和Scaled Dot-Product Attention

本质是self attention通过attention mask动态编码变长序列,解决长距离依赖、无位置偏差、可并行计算

  • 为什么是缩放点积,而不是点积模型?

    • 当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax 函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。

  • 为什么是双线性点积模型(经过线性变换Q??K)?

    • 双线性点积模型,引入非对称性,更具健壮性(Attention mask对角元素值不一定是最大的,也就是说当前位置对自身的注意力得分不一定最高)。

  • 相较于加性模型,点积模型具备哪些优点?

    • 常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。

  • 多头机制为什么有效?

    • 类似于CNN中通过多通道机制进行特征选择;

    • Transformer中先通过切头(spilt)再分别进行Scaled Dot-Product Attention,可以使进行点积计算的维度d不大(防止梯度消失),同时缩小attention mask矩阵。

2)Position-wise Feed-Forward Networks

  • FFN 将每个位置的Multi-Head Attention结果映射到一个更大维度的特征空间,然后使用ReLU引入非线性进行筛选,最后恢复回原始维度。

  • Transformer在抛弃了 LSTM 结构后,FFN 中的 ReLU成为了一个主要的提供非线性变换的单元。

3)Positional Encoding

将Positional Embedding改为Positional Encoding,主要的区别在于Positional Encoding是用公式表达的、不可学习的,而Positional Embedding是可学习的(如BERT),两种方案的训练速度和模型精度差异不大;但是Positional Embedding位置编码范围是固定的,而Positional Encoding编码范围是不受限制的。

  • 为什么引入?和??建模Positional Encoding?

  • 引入?和??是为了使模型实现对相对位置的学习,两个位置 pos 和 pos+k 的位置编码是固定间距k的线性变化:

  • 可以证明:间隔为k的任意两个位置编码的欧式空间距离是恒等的,只与k有关。

Q6:BERT[13]为什么如此有效?

  • 引入Masked Language Model(MLM)预训练目标,能够获取上下文相关的双向特征表示;

  • 引入Next Sentence Prediction(NSP)预训练目标,擅长处理句子或段落的匹配任务;

  • 引入强大的特征抽取机制Transformer(多种机制并存):

    • Multi-Head self attention:多头机制类似于“多通道”特征抽取,self attention通过attention mask动态编码变长序列,解决长距离依赖(无位置偏差)、可并行计算;

    • Feed-forward :在位置维度计算非线性层级特征;

    • Layer Norm & Residuals:加速训练,使“深度”网络更加健壮;

  • 引入大规模、高质量的文本数据;

Q7:BERT存在哪些优缺点?

  • 优点:能够获取上下文相关的双向特征表示;

  • 缺点:

    • 生成任务表现不佳:预训练过程和生成过程的不一致,导致在生成任务上效果不佳;

    • 采取独立性假设:没有考虑预测[MASK]之间的相关性,是对语言模型联合概率的有偏估计(不是密度估计);

    • 输入噪声[MASK],造成预训练-精调两阶段之间的差异;

    • 无法文档级别的NLP任务,只适合于句子和段落级别的任务;

Q8:BERT擅长处理哪些下游NLP任务[14]?

? ? 1. 适合句子和段落级别的任务,不适用于文档级别的任务;

? ? 2. 适合处理高层语义信息提取的任务,对浅层语义信息提取的任务的提升效果不大(如一些简单的文本分类任务);

? ? 3. 适合处理句子/段落的匹配任务;因此,在一些任务中可以构造辅助句(类似匹配任务)实现效果提升(如关系抽取/情感挖掘等任务);

? ? 4. 不适合处理NLG任务;

Q9:BERT基于“字输入”还是“词输入”好?(对于中文任务)

? ? 1. 如果基于“词输入”,会加剧OOV问题,会增大输入空间,需要利用大得多的语料去学习输入空间到标签空间的函数映射。

? ? 2. 随着Transfomer特征抽取能力,分词不再成为必要,词级别的特征学习可以纳入为内部特征进行表示学习。

Q10:BERT为什么不适用于自然语言生成任务(NLG)?

? ? 1. 由于BERT本身在预训练过程和生成过程的不一致,并没有做生成任务的相应机制,导致在生成任务上效果不佳,不能直接应用于生成任务。

? ? 2. 如果将BERT或者GPT用于Seq2Seq的自然语言生成任务,可以分别进行预训练编码器和解码器,但是编码器-注意力-解码器结构没有被联合训练,BERT和GPT在条件生成任务中只是次优效果。

这一部分介绍一些模型,它们均是对BERT原生模型在一些方向的改进。

Q11:针对BERT原生模型,后续的BERT系列模型是如何改进【生成任务】的?

1)MASS(微软)[15]

  • 统一预训练框架:通过类似的Seq2Seq框架,在预训练阶段统一了BERT和LM模型;

  • Encoder中理解unmasked token