open ai能取代任何算法吗 open ai 预测未来
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
律融玫瑰@LawrenceLuk
人工智能机器人想象图
本报告翻译和解释仅在于披露《GPT-4 Technical Report》(中文翻译:《GPT-4 技术报告》以下简称:报告)已经披露的内容,不做扩大解读或探讨,本翻译和解释也不构成对GPT-4模型产品进行推广使用,因报告披露内容有限(加上附录内容涉及敏感信息),解释和翻译过程仅根据报告主体内容,难免存在疏漏情况,用户需谨慎阅读,仔细甄别引用,原版报告所有权和解释权归出具报告方OPenAI 2023作者,报告以原英文报告内容为准,本报告仅为中文翻译和解释作者“律融玫瑰@LawrenceLuk”观点,如需引用本中文翻译报告和解释内容需注明出处“律融玫瑰@LawrenceLuk”,文章内容涉及到“我们”指原报告出具方,敬请留意。
1.介绍
本技术报告介绍了GPT-4,是一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这些模型是一个重要的研究领域,因为它们有潜力被用于广泛的应用中,如对话系统、文本摘要 和机器翻译。因此,它们一直是近年来的重大兴趣和进展的主题。
开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和更微妙的场景中。为了在这种情况下测试它的能力,GPT-4在最初为人类设计的各种测试中进行了评估。在这些评估中,它的表现表现得相当好,而且得分往往超过了绝大多数的人类考生。例如,在一个模拟的律师考试中,GPT-4的成绩排名前10%。这与GPT-3.5形成了鲜明对比,后者排名倒数10%。
在一套传统的NLP基准测试中,GPT-4的性能优于以前的大型语言模型和大多数最先进的系统(它们通常有特定于基准测试的培训或手工工程)。在MMLU基准测试上,一套涵盖57个科目的英语多项选择题,GPT-4不仅在英语方面远远超过了现有的模型,而且在其他语言中也表现出了强大的性能。在MMLU的翻译变体上,GPT-4在26种语言中的24种中超过了最先进的英语语言 。我们将在后面的章节中更详细地讨论这些模型性能结果,以及模型安全性改进和结果。
解释:1、自然语言处理(NLP)的基准测试是用来衡量和比较不同NLP系统性能的标准化测试任务。这些基准测试旨在评估NLP系统在不同类型的语言处理任务上的能力,如文本分类、情感分析、机器翻译、命名实体识别、问答系统等。
2、MMLU(Multilingual Multi-Lechatgpt)是一种新的基准测试,旨在评估多语言NLP模型的性能。MMLU基准测试不仅考虑了不同的语言,还考虑了不同的NLP任务和模型架构。它包含了12个任务,涵盖了文本分类、情感分析、命名实体识别、机器翻译等多个领域。MMLU基准测试的结果可以帮助研究者了解不同的多语言NLP模型在不同任务上的表现,并促进多语言NLP模型的研究和发展。
本报告还讨论了该项目的一个关键挑战,开发深度学习基础设施和优化方法,在广泛的范围内可以预测。这使得我们能够对GPT-4的预期性能(基于以类似方式训练的小运行)进行预测,并与最终运行相比进行测试,以增加我们对训练的信心。
尽管具有强大的功能,但 GPT-4 与早期的 GPT 模型具有相似的局限性:它不完全可靠(例如,可能会出现“幻觉”),上下文窗口有限,并且无法从经验中学习。 使用 GPT-4 的输出时应小心,特别是在可靠性很重要的情况下。
GPT-4的能力和局限性带来了重大的和新的安全挑战,我们相信,考虑到潜在的社会影响,仔细研究这些挑战是一个重要的研究领域。该报告包括一个广泛的系统卡(附录之后),描述了我们预见的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散和其他方面的风险。它还描述了我们为减轻GPT-4部署的潜在危害而采取的干预措施,包括与领域专家进行的对抗性测试,以及一个模型辅助的安全管道。
2.本技术报告的范围和局限性
本报告重点介绍了GPT-4的能力、限制和安全性。GPT-4是一种转换器风格的模型,预先训练来预测文档中的下一个令牌,使用公开可用的数据(如互联网数据)和从第三方供应商许可的数据。然后使用来自人类反馈(RLHF)的强化学习对该模型进行了微调。考虑到像GPT-4 这样的大规模模型的竞争格局和安全影响,本报告没有包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。
我们致力于对我们的技术进行独立的审计,并在本版本附带的系统卡中分享了这一领域的一些初步步骤和想法。(见下文注释2)我们计划向更多的第三方提供更多的技术细节,这些第三方可以就我们如何权衡上述竞争和安全考虑与进一步提高透明度的科学价值提供建议。
报告注释2:除了附带的系统卡外,OpenAI还将很快发布关于人工智能系统的社会和经济影响的更多想法,包括对有效监管的必要性。
解释:人类反馈(RLHF)是指在强化学习中,智能体(agent)与人类之间交互时,人类提供的反馈信息。与传统的强化学习中,智能体只能通过环境给出的奖励信号来学习相比,人类反馈可以提供更加细致和具体的指导,帮助智能体更快、更准确地学习到想要的行为。通常,人类反馈可以分为两种类型:显式反馈和隐式反馈。显式反馈是指人类明确告诉智能体它的行为是好的还是坏的,例如给出一个奖励值或惩罚值。而隐式反馈是指人类通过观察智能体的行为,然后提供一些关于如何改进的建议或提示。人类反馈在许多领域都得到了广泛的应用,例如在游戏设计、机器人控制和自然语言处理等领域中,都可以利用人类反馈来提高智能体的性能和学习效率。
3.可预测的比例
GPT-4项目的一个主要重点是构建一个可预测的深度学习堆栈。主要原因是,对于像GPT-4这样的大型训练运行,进行广泛的模型特定调优是不可行的。为了解决这个问题,我们开发了跨多个尺度具有非常可预测行为的基础设施和优化方法。这些改进使我们能够从使用1000x-10,000x更少的计算训练的较小模型中可靠地预测GPT-4性能的某些方面。
3.1损失预测
经过适当训练的大型语言模型的最终损失被认为是用于训练模型的计算量的幂律来近似的。为了验证Openai的优化基础设施的可扩展性,通过拟合一个具有不可约损失项的尺度律来预测GPT-4在Openai内部代码库(而不是训练集的一部分)上的最终损失(如Henighan等人。[15]):L (C)=aCb+c;来自使用相同方法训练的模型,但最多比GPT-4少10000倍。这个预测是在运行开始后不久做出的,没有使用任何部分结果。拟合的比例律对GPT-4的最终损失具有较高的预测(图1)。
3.2人类的能力的扩展
在培训之前了解模型的能力,可以改善围绕对齐、安全和部署的决策。除了预测最终的损失外,我们还开发了预测更多可解释的能力指标的方法。
解释:对齐(Alignment)是指确保人工智能系统的行为与人类的价值和意图保持一致的过程。这是一个重要的问题,因为人工智能系统可能会出现意外行为,这些行为可能会与人类价值观相违背,导致不良的后果。对齐是人工智能安全和伦理方面的一个关键问题,它需要跨学科合作,涉及哲学、心理学、计算机科学等领域的专家。
其中一个指标是在HumanEval数据集上的通过率,它衡量了综合不同复杂度的Python函数的能力。通过从最多减少1;000次计算训练的模型中推断,我们成功地预测了HumanEval数据集的一个子集上的通过率(图2)。对于人类中的个体问题,表现偶尔会随着规模的扩大而恶化。尽管存在这些挑战,我们还是发现了一个近似的幂律关系-eP[日志(pass_rate (C))]=α *C― k
解释:HumanEval数据集是一个用于自然语言处理(NLP)任务评估的数据集,由OpenAI发布。该数据集包含了一系列经过人工标注的英文句子,涵盖了多种语言处理任务,如语言模型、文本分类、命名实体识别等。
图1英文原版引用
上图1(OpenAl代码库下一个单词预测每个单词的位数):GPT-4和较小型号的性能。该指标是来自OpenAI内部代码库的数据集的最终损失。这是一个方便的大型代码令牌数据集,不包含在训练集中。OpenAI选择考虑损失,因为在不同数量的训练计算中,它往往比其他措施的噪音更小。小型模型(不包括GPT-4)的功率定律ft显示为虚线;这种拟合准确预测了GPT-4的最终损失。x轴是训练计算归一化,因此GPT-4是1。
图2英文原版引用
上图2(对23个编码问题的能力测试):GPT-4和较小型号的性能。该度量是在HumanEval数据集的一个子集上的平均对数通过率。虚线表示了适合较小模型(不包括GPT-4)的幂律;这种拟合准确地预测了GPT-4的性能。x轴是训练计算归一化的GPT-4是1。
我们在训练完成前,只使用GPT-4在人类eval上的信息,对其在人类环境上的表现进行了预测。除了15个最难的人类问题外,所有问题都根据小模型的性能分成6个难度桶。结果在3上rd最简单的桶如图2所示,显示了这个人类问题子集非常准确,我们可以准确地估计几个较小模型的log(pass_rate)。对其他五个桶的预测表现得几乎一样好,主要的例外是GPT-4的表现逊于我们对最简单的桶的预测。
解释:人类eval(chatgpt)指的是通过人类专家的评估来评估机器学习模型或人工智能算法的性能。在机器学习和人工智能领域,通常会使用各种评估指标来评估模型的性能,例如准确率、召回率、F1分数等。这些指标可以帮助我们对模型的性能进行定量评估,但是它们并不能完全代表人类对某些任务的真实认知和判断。相比之下,人类eval的优势在于它可以提供更加贴近真实场景的评估结果。人类eval通常需要专业人员或受过训练的志愿者来进行评估。他们会对模型的输出进行人工标注或人工判断,并将结果与模型的输出进行比较。这种评估方法能够考虑到人类的认知能力、语言理解和语境等因素,因此更能够反映模型在实际应用场景中的表现。然而,人类eval也存在一些局限性,例如评估的主观性、可重复性和效率等方面的问题。此外,对于某些任务,例如图像处理和语音识别等,人类eval也可能存在一定的局限性,因为人类对于这些任务的认知和感知能力可能不如机器。综合来说,人类eval在机器学习和人工智能领域中仍然具有重要的地位,可以作为评估模型性能的一个重要手段。在实际应用中,需要根据具体任务的特点和要求来选择适合的评估方法,从而更好地评估和改进模型的性能。
在培训完成之前,我们仅使用培训前可用的信息,注册了GPT-4在HumanEval上的表现的预测。除了15个最难的HumanEval问题外,所有问题都根据较小模型的性能分为6个难度桶。图2显示了3r最简单的桶上的结果,表明对HumanEval问题的这一子集的预测非常准确,我们可以准确估计几个较小模型的对数(通过率)。其他五个桶的预测几乎也一样好,主要的例外是GP1-4在最简单的桶上表现不佳。
某些能力仍然难以预测。例如,逆尺度奖提出了几个任务,其中模型的性能随着尺度的函数而下降。这与Wei等人最近的一个研究结果类似。我们发现GPT-4逆转了这一趋势,如图3中的一个任务称为事后忽略所示。
图3英文原版引用
图3,GPT-4和较小模型在事后忽视任务上的性能。y轴表示精度,越高越好。阿达、巴贝奇和库里指的是可通过OpenAI API [47]获得的模型。我们相信,准确预测未来的能力对安全很重要。接下来,我们计划在大型模型培训开始之前改进这些方法,并注册跨各种能力的性能预测,我们希望这成为该领域的一个共同目标。
我们相信,准确预测未来的能力对安全很重要。接下来,我们计划在大型模型培训开始之前改进这些方法,并注册跨各种能力的性能预测,我们希望这成为该领域的一个共同目标。
4.功能
我们在一系列不同的基准测试上测试了GPT-4,包括模拟最初为人类设计的测试(考试)(注释4)。我们没有为这些考试进行过专门的培训。考试中的少数问题是模型在训练中看到的;对于每一个考试,我们都运行一个变体,删除这些问题,并报告两个较低的分数。我们相信这些结果是具有代表性的。有关污染的更多细节(检测方法和每次检查的统计数据),请参见附录C(本中文翻译报告不提供)。
考试来源于公开可获得的材料。考试问题包括多重回答问题和自由回答问题;我们为每种格式设计了单独的提示,图像被包含在需要它的问题的输入中。评估设置是基于一组验证考试的表现而设计的,我们报告了保留测试考试的最终结果。总体分数是通过结合多项选择题的分数和自由回答题的分数来确定的。我们估计并报告了每个总体得分对应的百分位数。关于考试评估方法的详情见附录A。
报告注释3:对于AMC 10和AMC 12 2022考试,人类的百分位数尚未公布,因此报告的数字是外推的,可能有很大的不确定性。见附录A.5(本中文翻译报告不提供)。
报告注释4:我们在这些考试中使用了训练后的RLHF模型。
解释:RLHF(Reward Learning from Human Feedback)是一种基于人类反馈学习奖励信号的强化学习方法。在传统的强化学习中,智能体通过与环境进行交互,根据奖励信号来更新策略,从而实现目标任务的优化。然而,在某些任务中,奖励信号可能很难定义或很难获取,这时就需要借助人类反馈来辅助智能体学习。RLHF模型的基本思想是通过人类反馈来学习奖励信号,从而实现智能体的强化学习。具体来说,智能体会不断地向人类请求反馈,根据人类反馈来学习奖励信号,并将其作为更新策略的信号。通常情况下,人类反馈可以分为两种类型:正反馈和负反馈。正反馈表示智能体的行为是正确的或有益的,负反馈则表示智能体的行为是错误的或不良的。智能体会根据不同类型的反馈来更新策略,并逐步优化任务性能。与传统的基于奖励信号的强化学习相比,RLHF模型具有以下优势:RLHF模型能够利用人类反馈来学习复杂的任务,即使任务的奖励信号很难定义或很难获取。RLHF模型可以避免人为定义奖励信号所带来的问题,例如奖励信号的选择和设计。RLHF模型可以根据人类反馈进行实时学习和更新,从而快速适应不同的任务和环境。总的来说,RLHF模型是一种非常有前景的强化学习方法,它可以通过与人类合作来学习复杂的任务,具有广泛的应用前景。
表1英文原版引用
根据表1中文翻译
接表1中文翻译
表1说明:GPT在学术和专业考试中的表现。在每种情况下,我们都会模拟真实考试的条件和评分。我们报告GPT-4的最终分数根据特定考试规则进行评分,以及达到GPT-4分数的考生的百分位数。比如律师资格考试和法学院入学考试GPT-4表现尤佳。
图4英文原版引用
图4(考试成绩(按GPT-3.5性能排序)GPT在学术和专业考试中的表现。在每一种情况下,我们都模拟了真实考试的条件和评分。考试将根据GPT-3.5的性能从低到高进行。GPT-4在大多数考试中的表现都优于GPT-3.5。保守地说,我们报告了百分位数范围的低端,但这在AP考试中产生了一些工件,它们有非常宽的评分箱。例如,尽管GPT-4在AP生物学上获得了最高的分数(5/5),但这只在图中显示为第85百分位,因为15%的考生达到了这个分数。
GPT-4在这些专业和学术考试中表现出了人类水平的表现。值得注意的是,它通过了一个模拟版本的统一律师资格考试,得分在考生的前10%(表1,图4)。该模型的考试能力似乎主要源于训练前的过程,并没有受到RLHF的显著影响。在多项选择题上 ,基本的GPT-4模型和RLHF模型在我们测试的考试中平均表现得同样好(见附录B,本中文翻译报告不提供)。 我们还在为评估语言模型而设计的传统基准上评估了预先训练过的基础GPT-4模型。对于我们报告的每个基准,我们对出现在训练集中的测试数据进行了污染检查(关于每个基准污染的详细 信息见附录D)。(注释5)在评估GPT-4时,我们对所有基准测试使用了少量提示。(注释6)
GPT-4的性能大大优于现有的语言模型,以及以前的最先进的(SOTA)系统,这些系统通常具有特定于基准测试的手工制作或额外的训练协议(表2)。
解释:SOTA代表最先进技术(State-of-the-Art),是指当前领域内已知最优秀的方法或系统。在机器学习和人工智能领域,SOTA通常是指在某项任务上取得的最高性能水平,通常以评估指标来衡量,例如准确率、F1分数等。在机器学习和人工智能领域,SOTA系统通常指在某个任务或领域中具有最高性能的系统。这些系统通常是由经验丰富的研究人员和工程师设计和实现的,它们通过使用最新的技术和算法来优化性能,并在公开数据集或比赛中获得最佳结果。这些系统通常具有高精度、高速度和高可靠性等特点,可以广泛应用于各种实际场景中。一些常见的SOTA系统包括语音识别系统、自然语言处理系统、计算机视觉系统等。例如,当前在语音识别领域的SOTA系统包括Google的Translatotron、Microsoft的Speech-to-Text、百度的DeepSpeech等。在自然语言处理领域,当前的SOTA系统包括Google的BERT、OpenAI的GPT、Facebook的RoBERTa等。在计算机视觉领域,当前的SOTA系统包括Microsoft的MSRA ResNet、Facebook的Detectron2、Google的EfficientNet等。总之,SOTA系统是指在某个领域或任务中性能最优秀的系统,它们代表着该领域的最新进展和最佳实践,并为相关研究和应用提供了有力的支持
报告注释5:在我们的污染检查中,我们发现部分大台[48]无意中混合到训练集中,我们将其从我们的报告结果中排除。
报告注释6:对于GSM-8K,我们在GPT-4的训练前组合中包含了部分训练集。我们在评估时使用思维链提示。
表2英文原版引用
表2中文翻译
表2。GPT-4在学术基准上的表现。我们比较了GPT-4与最佳SOTA(与基准特定训练)和LM评估的最 佳SOTA。GPT-4在所有基准测试上都优于现有的lm,并且在除DROP之外的所有数据集上通过特定基 准测试训练优于SOTA。对于每个任务,我们报告GPT-4的表现以及用于评估的少镜头方法。对于GSM -8K,我们在GPT-4训练前组合中包含了部分训练集(见附录E,本中文翻译报告不提供),并在评估时使用思维链提示。对于多项选择题,我们将所有的答案(ABCD)呈现给模型,并要求它选择答案的字母,类似于人类将如何解决这样的问题。
解释:GSM-8K是一种音频编码格式,也称为GSM Full Rate或GSM 06.10。它是GSM(Global System for Mobile Communications)移动电话标准中用于语音编码的一种格式,旨在在低码率下实现高质量的语音传输。GSM-8K采用了一种名为RPE-LTP(Regular Pulse Excitation - Long Term Prediction)的编码算法,将音频信号分成20毫秒的帧,并对每一帧进行压缩。在编码过程中,RPE-LTP算法将语音信号分成固定和可变的成分,使用线性预测编码(LPC)来处理可变的成分,使用脉冲编码调制(PCM)来处理固定的成分。GSM-8K编码器可以将输入音频信号压缩到每秒13 kbit/s的比特率,并且可以实现语音通话的高质量传输。它被广泛应用于GSM移动通信网络和其他低带宽语音通信系统中,如VoIP、视频会议等。需要注意的是,尽管GSM-8K在低带宽环境下具有较高的音质表现,但它并不是一种高保真度的音频编码格式。在高质量音频应用中,通常采用更高比特率的编码格式,如AAC、MP3等。
许多现有的ML基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的能力,我们使用 Azure翻译将MMLU基准测试[35,36]――一套跨越57个主题的多重推理问题――翻译成多种语言(参见附录F,例如翻译和提示)。我们发现,在我们测试的大多数语言中,GPT-4和PA-4的性能优于英语语言,包括拉脱维亚语、拉尔士语和[3]语(图5)。
GPT-4在遵循用户意图[63]的能力方面比以前的模型有了显著的改进。在提交给ChatGPT [64]OpenAI API [47]的5,214个提示的数据集上,GPT-4生成的响应比GPT-3.5对70.2%的提示生成的 响应更受青睐。(注释7) 我们是开源的OpenAI Evals(注释8),我们的框架用于创建和运行基准,以评估像GPT-4这样的模型,同时逐个样本检查性能。Evals与现有的基准测试兼容,并可用于跟踪部署中的模型的性能。我们计划随着时间的推移,增加这些基准的多样性,以代表更广泛的故障模式和一组更困难的任务。
报告注释7:我们收集了通过ChatGPT和OpenAI API发送给我们的用户提示,从每个模型中采样一个响应,并将这些提示和响应发送给人类标签者。标签人员被要求判断响应是否是用户给出提示时想要的。标签者没有被告知哪个反应是由哪个模型产生的,反应呈现的顺序是随机的。我们会过滤掉包含任何类型的不允许或敏感内容的提示,包括个人身份信息(PII)、性内容、仇恨言论和类似的内容。我们也过滤了较短的部分。“ 你好,ChatGPT!”)和过于常见的提示。
报告注释8:【【网址】】/openai/evals
图5英文原版引用
图5。GPT-4在多种语言中的性能与之前在MMLU中的英语模型相比。GPT-4在绝大多数测试语言中优于现有语言模型[2,3]的英语语言,包括资源丰富的语言,如拉脱维亚语、威尔士语和斯瓦希里人。
解释:GPT-4在中文方面表现为80.9%,相比GPT3.5英语语言模型相对还高。
4.1视觉输入
GPT-4接受由图像和文本组成的提示,这与仅文本设置平行,允许用户指定任何视觉或语言任务 。具体来说,该模型生成给定由任意交错的文本和图像组成的文本输出。在一系列的领域中― ―包括带有文本和照片、图表或屏幕截图的文档――GPT-4显示出与它在纯文本输入上类似的功能。表3是GPT-4的视觉输入实例。为语言模型开发的标准测试时间技术(例如。当同时使用图像和文本时,它也同样有效――例子请参见附录G(本中文翻译报告不提供)。
关于一套狭窄的学术愿景基准的初步结果可以在GPT-4的博客文章中找到。我们计划在后续工作中发布更多关于GPT-4的视觉能力的信息。
表3英文原版引用
表3中文翻译
表3。演示GPT-4的视觉输入能力的示例提示。提示符包含一个关于GPT-4能够回答的具有多个面板的图像的问题。
5.限制
尽管具有能力,但GPT-4与早期GPT模型有类似的局限性。最重要的是,它仍然不是完全可靠的(它“幻觉”事实,并产生推理错误)。在使用语言模型输出时,应该非常小心,特别是在高风险上下文中,使精确的协议符合特定应用程序的需要(如人工审查,附加上下文,或完全避免高风险使用)。详情请参见我们的系统卡。
与之前的GPT-3.5模型相比,GPT-4显著减少了幻觉(这些模型本身也随着持续的迭代而有所改善)。在我们内部的、反向设计的事实性评估中,GPT-4的得分比我们最新的GPT-3.5高出19个百分点(图6)。
图6英文原版引用
图6。GPT-4在9个内部反向设计的事实评估上的性能。y轴表示精度,越高越好。1.0的准确性意味着模型的答案被认为与人类对当时所有问题的理想回答相一致。我们将GPT-4与基于GPT-3.5的三个早期版本的ChatGPT [64]进行了比较;GPT-4比最新的GPT-3.5模型提高了19个百分点,在所有主题上都有显著的提高。
GPT-4在像TruthfulQA [66]这样的公共基准测试上取得了进展,它测试了模型从反向选择的错误语句中分离事实的能力(图7)。这些问题以及实际上不正确的答案。GPT-4的基础模型在这项任务上只比GPT-3稍好一些。5;然而,在RLHF训练后,我们观察到比GPT-3.5有很大的改善。(注释9)表4同时显示了正确答案和错误答案。GPT-4拒绝选择常用的说法(你不能教一个老狗新的技巧 ),但是它仍然可以错过微妙的细节(埃尔维斯・普雷斯利不是一个演员的儿子,所以帕金斯是正确的答案)。
GPT-4通常缺乏对2021年9月其绝大多数训练前数据被切断后发生的事件的了解(注释10),并没有从它 的经验中吸取教训。它有时会犯简单的推理错误,这些错误似乎不符合许多领域的能力,或者过于容易接受用户明显错误的陈述。它可能会像人类一样在硬问题上失败,比如在它生成的代码中引入安全漏洞。
报告注释9:我们没有检查RLHF训练后数据的真实QA污染
报告注释10:训练前和训练后的数据包含了少量的最新数据
GPT-4的预测也可能是错误的,当它可能出错时,它不小心仔细检查工作。有趣的是,预先训练过的模型是经过高度校准的(其预测对答案的信心通常与正确的概率相匹配)。然而,经过训练后的过程后,校准减少了(图8)
GPT-4在其输出中有各种偏差,我们已经努力加以纠正,但这将需要一些时间来充分描述和管理。我们的目标是使GPT-4和我们构建的其他系统具有合理的默认行为,反映了广泛的用户价值,允许这些系统在一些广泛的范围内被定制,并获得关于这些边界应该是什么的公共输入。更多细节请参见OpenAI 。
明讯财经:Sam Altman 承认 OpenAI 对 ChatGPT 有点害怕
明讯财经网,明讯新材上市,明讯软件,明讯新材料【【淘密令】】 承认他对 OpenAI 的 ChatGPT 创建“有点害怕”。
首席执行官告诉美国广播公司新闻,如果他说他不关心这件事,人们不应该“相信我”。
他还表示,人工智能将接管许多工作,但可能会带来“更好”的工作。
OpenAI 的首席执行官承认他对自己创建的 ChatGPT “有点害怕”,并警告说它可能会“淘汰”许多工作岗位。【【淘密令】】 在周四接受美国广播公司新闻采访时表示,“人们应该感到高兴”,因为该公司对人工智能的潜力“有点害怕”。
“我认为,如果我说我不是,你要么不信任我,要么对我从事这份工作感到非常不高兴,”他说。
奥尔特曼还表示,人工智能可以取代许多工作,但它也可能带来“更好的工作”。“开发人工智能的根本原因是,就对我们生活的影响、改善我们的生活和好处而言,这将是人类迄今为止开发的最伟大的技术,”他说。
这位 37 岁的年轻人告诉美国广播公司,他与政府官员“定期联系”,并表示监管机构和社会应该参与 ChatGPT 的推出。反馈可以帮助遏制其广泛使用带来的任何负面后果。
这位企业家上个月在一系列推文中警告说,世界可能离“潜在的可怕”人工智能不远。奥尔特曼在推文中表示支持对人工智能进行监管,并表示规则“至关重要”,社会需要时间来适应“这么大的东西”。
OpenAI 本周推出了 GPT-4,这是其最新的 ChatGPT 模型,Altman 将其描述为比早期版本“更少偏见”和“更具创造性”。它仅适用于支付其 Plus 订阅费用的用户。
最新版本能够处理图像提示,据说比其他版本更准确,用户可以与之进行更长时间的对话。
OpenAI 负责人周二表示,它可以通过律师资格考试,并且能够在“几门 AP 考试中获得 5 分”。它已经被教师用来帮助为学生制定课程计划和测验。
OpenAI 没有立即回应 Insider 在正常工作时间之外提出的置评请求。