openai公司首席技术官 open ai首席技术官
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
来源丨元宇宙简史
编写丨元宇宙简史编辑部
【元宇宙导读】在麻省理工学院举办的一次活动中,阿尔特曼被问及这封公开信,他表示,这封信“缺少大部分技术细节,无法了解需要暂停的地方”,并指“我们现在没有训练,也短期内不会训练GPT-5”,OpenAI目前只是在GPT-4的基础上进行更多的工作而已。
近几年,人工智能的发展速度和能力一直引发着社会和科技界的关注和讨论。
最近,一封由多位科技界领袖人物签署的公开信在网络上引起了轩然大波,该信呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统,称这种暂停应该是公开的和可验证的,并且包括所有关键参与者。这封信强调了对未来系统安全性的担忧,但遭到了包括一些签署方在内的许多业内人士的批评。
对此,OpenAI首席执行官山姆・阿尔特曼在麻省理工学院的一次活动中做出了回应,否认了公司正在训练GPT-5的传言,并表示公开信缺乏技术细节。
OpenAI是一家致力于创建和推广友善的人工智能的研究机构,OpenAI是由马斯克、阿尔特曼等六人在2015年联合创办,最初为非营利性机构。OpenAI最引人注目的项目之一就是GPT系列,这是一系列基于深度学习的自然语言生成系统,可以与人类进行流畅、有趣、甚至有创造力的对话。GPT系列已经迭代了多个版本,最新的GPT-4是目前世界上最大的语言模型之一。GPT-4不仅可以聊天,还可以写诗、编故事、生成代码、模仿名人等等,展现了惊人的能力和潜力。
然而,GPT-4也引发了一些争议和担忧,一方面是其可能被滥用或误用,造成社会和道德问题,另一方面是其可能对人类的智能和文化产生不可预测的影响。
不久前,生命未来研究所(Future of Life Institute)公布了一封公开信 ,呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统至少6个月,称这种暂停应该是公开的和可验证的,并且包括所有关键参与者。如果不能迅速实施这种暂停,政府应介入并实行暂停。人工智能实验室和独立专家应该利用这次暂停,共同开发和实施一套用于高级人工智能设计和开发的共享安全协议,并由独立的外部专家进行严格审计和监督。
这封信得到了包括马斯克在内的多位科技界领袖人物的签名支持 。然而,也有人认为这封信是马斯克及一众被OpenAI甩在身后的科技巨头们的缓兵之计 。毕竟,马斯克转头就投入AI浪潮,是个“心机Boy” 。
有观点认为,马斯克参与签名,主要是OpenAI的迭代速度太快了 。Google的搜索比对手好20%就占据了90%的搜索市场份额。OpenAI 的影响会更广泛,所有的上层应用都希望使用优更强大 AI 赋能的云服务。只能寄希望于 OpenAI 会像自动驾驶那样发展到某个阶段会遇到难以克服的瓶颈 。
OpenAI的CEO阿尔特曼则回应称:马斯克等人呼吁将AI研发工作暂停六个月的公开信缺乏“技术细节”。“我也认为,需要提高AI的安全指导意见。但公开信并非正确的解决之道。”
在麻省理工学院举办的一次活动中,阿尔特曼被问及这封公开信,他表示,这封信“缺少大部分技术细节,无法了解需要暂停的地方”,并指“我们现在没有训练,也短期内不会训练GPT-5”。
他还透露,OpenAI目前只是在GPT-4的基础上进行更多的工作而已。“我们正在做一些其他事情,在GPT-4之上,我认为有各种安全问题需要解决,而这些问题完全被忽略了。” 阿尔特曼说。
阿尔特曼还表示,OpenAI花了很长时间研究GPT-4的安全性,接受了外部审核,也进行了内部的红队演习。总之,OpenAI已经尽最大努力去了解,这个模型究竟发生了什么,而且让整个过程谨慎再谨慎。
他自豪地表示:自从我们发布GPT-4以后,一切都很不错。的确,GPT-4的安全能力确实无可指责,用阿尔特曼的话说,它也许不是功能最强大的模型,但肯定是目前未知最安全、最对齐的模型。
阿尔特曼认为,在技术进步和社会责任之间找到平衡是非常重要的。他说:“我认为我们需要更加关注安全性问题,并随着模型能力的提升而增加相应的措施。但我也认为我们需要保持创新和探索,并让更多人参与到这个过程中来。”
阿尔特曼还表示,OpenAI一直致力于让人工智能更加开放和透明,并与政府和社会进行沟通和合作。他说:“我们相信人工智能是一种可以造福全人类的技术,我们希望通过我们的工作来促进这一愿景。”
严正声明:本文为元宇宙简史原创,未经授权禁止转载!内容仅供参考交流,不构成任何投资建议。任何读者若据此进行投资决策,风险自担。
openai ceo sam altman 最新精彩访谈 ai技术计算公式
openai官网,openai api key获取,openai和chatGPT什么关系,openai translator来源:OpenAI
「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA
摘要:近日,OpenAI发布了一份分析报告显示,自2012年以来,在最大规模的人工智能训练中所使用的计算量呈指数级增长,3.5个月的时间翻一倍(相比之下,摩尔定律(Moore’s Law)有18个月的倍增周期)。自2012年以来,该指标增长了30多万倍(18个月的倍增周期只会增加12倍)。
计算方面的改进一直是人工智能发展的一个关键组成部分,因此只要这种趋势继续下去,就值得为远超出当今能力的系统所带来的影响做准备。
?
图表显示了以petaflop/s-days为单位的总计算量,用于训练相对熟知的选定结果,为它们使用了大量时间计算,并给出了足够的信息以估计所使用的计算。petaflop/s-day(pfs-day)包括一天里每秒执行1015个神经网络操作,或者总共大约1020个操作。计算时间的产品是一种精神上的便利,类似于能量中的kW-hr。
我们不测量硬件的峰值理论FLOPS,而是尝试估计所执行的实际操作的数量。我们将加法和乘法作为单独的操作,我们将任何加法或乘法作为单个操作,而不考虑数字的精确性(使“FLOP” 略微用词不当),并且忽略全套模型。附录中提供本图中的示例计算。所显示的最佳匹配线的倍增时间为3.43个月。
概述
推动人工智能发展的因素有三个:算法创新、数据(可以是监督数据或交互环境),以及可用于训练的计算量。算法创新和数据很难追踪,但计算是非同寻常可以进行量化的,它提供了一个衡量人工智能发展进程的机会。当然,使用大量的计算有时会暴露出我们当前算法的缺点。但至少在许多当前的领域中,更多的计算似乎可以预见性地得到更好的性能,并且通常是对算法进步的补充。
对于本分析,我们认为相关的数字不是单个GPU的速度,也不是最大数据中心的容纳量,而是用于训练单个模型的计算量――这是最有可能与最佳模型的有力程度相互关联的数字。每个模型的计算与总体计算有很大的不同,因为对并行性(硬件和算法)的限制约束了模型的大小,或者模型可以被有效地训练的程度。当然,重要的突破仍然是通过少量的计算来实现的――该分析仅涵盖计算能力。
这一趋势表明每年大约增长10倍。这在一定程度上是由自定义硬件驱动的,它允许在给定价格(GPU和TPU)中每秒执行更多的操作,但这主要是由研究人员推动的,他们反复寻找方法以在并行的情况下使用更多的芯片,并愿意为此支付经济成本。
阶段
从图中我们大致可以看到四个不同的阶段:
?2012年之前:在机器学习中使用GPU并不常见,这使得图中的任何结果都难以实现。
?2012年至2014年:在许多GPU上进行训练的基础设施并不常见,因此大多数结果都使用1-8个GPU,额定功率为1-2 TFLOPS,总共为0.001-0.1 pfs-days。
?2014年至2016年:大规模的结果使用了10-100个GPU,额定功率为5-10 TFLOPS,结果为0.1-10 pfs-days。数据并行度的收益递减意味着更大规模的训练运行价值有限。
?2016年至2017年:允许更大算法并行性的方法(如大批量大小、架构搜索和专家级迭代)以及专用硬件(如TPU和更快的互连)极大地增加了这些限制,至少对于某些应用程序而言是这样。
AlphaGoZero / AlphaZero是大规模算法并行性中最明显的公开示例,但此规模的许多其他应用程序现在都是通过算法实现的,并且可能已经在生产环境中发生了。
期待
我们有多种理由去相信图表中所呈现的趋势可能会继续。许多硬件初创公司正在开发AI专用芯片,其中一些公司宣称,他们将在未来1 - 2年内实现 FLOPS / Watt(与FLOPS / $相关)的大幅增长。简单地对硬件进行重新配置来完成相同数量的操作以减少经济成本,也可能会有带来收益。在并行性方面,上述最近所提出的许多算法创新在原则上可以乘法组合――例如,体系结构搜索和大规模并行SGD。
另一方面,成本最终将会限制这一趋势的并行性,而物理学将会限制芯片的效率。我们认为,目前最大规模的训练项目所采用的硬件,仅需要数百万美元的购买成本(尽管摊销成本要低得多)。
但如今大多数神经网络计算仍然被用于推理(部署),而不是训练中,这意味着公司可以重新调整用途或购买更多的芯片进行训练。因此,如果有足够的经济激励措施,我们甚至可以看到越来越多的大规模并行训练项目,从而使这一趋势延续若干年。世界上的硬件总预算每年达1万亿美元,因此绝对的限制依然遥遥无期。
总的来说,考虑到上述数据、计算指数趋势的先例、机器学习特定硬件的运行以及经济上的激励措施,我们认为确信这种趋势在短期内不会持续存在是一个错误错误。
过去的趋势不足以预测这种趋势将持续多久,或者在它持续的过程中会发生什么。但即使存在能力迅速增长的合理潜力,也意味着现在就开始着手处理AI的安全性和恶意使用问题是至关重要的。深谋远虑对负责任的决策制定和负责任的技术发展而言至关重要,我们必须走在这些趋势的前面,而不是对它们作出姗姗来迟的反应。
附录:方法
我们使用了两种方法用于生成这些数据点。当我们有足够的信息时,我们直接在每个训练样本中所描述的架构中计算FLOP的数量(相加和相乘),并乘以训练期间的前向和后向通道总数。当我们没有足够的信息来直接计算FLOP时,我们查看了GPU的训练时间和所使用的GPU总数,并假设了使用效率(通常为0.33)。
对于大多数论文,我们能够使用第一种方法,但对于少数情况下我们依赖于第二种方法,并且我们会尽可能计算两者以作为一致性检查。在大多数情况下,我们也向作者证实了这一点。这些计算并不是精确的,但我们的目标是在2-3倍的范围内做到正确。我们在下面提供一些样本计算。
方法1示例:计数模型中的操作
当作者给出前向传递时所使用的操作数时,这种方法特别容易使用,就像在残差网络(Resnet)论文中(特别是Resnet-151模型)一样:
(add-multiplies per forward pass) * (2 FLOPs/add-multiply) * (3 for forward and backward pass) * (number of examples in dataset) * (number of epochs)
= (11.4 * 10^9) * 2 * 3 * (1.2 * 10^6 images) * 128
= 10,000 PF = 0.117 pfs-days
操作也可以在一些深度学习框架中以编程方式计算已知的模型体系结构,或者我们可以简单地手动计算操作。 如果一篇论文提供了足够的信息来进行计算,它将会非常准确,但在某些情况下,论文不包含所有必要的信息,作者也无法公开揭示它。
方法2示例:GPU时间
如果我们不能直接计算操作,那么我们可以查看有多少GPU进行了多长时间的训练,使用对GPU利用率的合理猜测,来尝试估算已执行操作的次数。需要强调的是,我们不计算理论上FLOPS的峰值,而是使用理论上FLOPS的假定分数,来尝试估算实际的FLOPS。根据我们自身的经验,我们通常假定GPU的利用率为33%,CPU的利用率为17%,除非我们有更具体的信息(例如:我们与作者交谈过或工作是在OpenAI上完成的)。
举例来说,在AlexNet论文中明确指出,“我们的网络需要花费5到6天的时间在两台GTX 580 3GB GPU上进行训练”。根据我们的假设,这意味着总计算量为:
Number of GPUs * (peta-flops/GTX580) * days trained * estimated utilization
= 2 * (1.58 * 10 ^ -3 PF) * 5.5 * 0.33
= 500 PF = 0.0058 pfs-days?
这种方法更为近似,我们可以轻易地减少二分之一甚至更多计算量;我们的目标只是估计数量级。在实践中,当这两种方法都适用时,它们通常可以很好地组合在一起(对于AlexNet而言,我们也可以直接进行计数操作,这时我们得到0.0054pfs-days,而对于GPU时间方法而言,我们得到0.0058pfs-days)。
1.2M images * 90 epochs * 0.75 GFLOPS * (2 add-multiply) * (3 backward pass)?
= 470 PF = 0.0054 pfs-days
选择的附加计算
?丢弃率(Dropout)
Method 2:
1 GPU * 4 days * 1.54 TFLOPS/GTX 580 * 0.33 utilization?
= 184 PF = 0.0021 pfs-days
?卷积神经网络的可视化与理解
Method 2:
1 GPU * 12 days * 1.54 TFLOPS/GTX 580 * 0.33 utilization?
= 532 PF = 0.0062 pfs-days
?Deep 【【微信】】(DQN)
Method 1:
Network is 84x84x3 input, 16, 8x8, stride 4, 32 4x4 stride 2, 256 fully connected
First layer: 20*20*3*16*8*8 = 1.23M add-multiplies
版权声明:除非特别标注原创,其它均来自互联网,转载时请以链接形式注明文章出处。