庆云古诗词

庆云古诗词

dota2 openai什么时候能玩 openai dota2 记录

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


选自OpenAI,机器之心编译。

2017 年,OpenAI 在 Dota2 TI 决赛现场以 1 对 1 solo 的方式击败了「Dota 2」世界顶级玩家。经过一年的发展,OpenAI 于昨日宣布他们的 AI bot 在 5 v 5 团队赛中击败业余人类玩家,并计划之后能够击败顶级专业团队。机器之心对OpenAI的博客内容进行了编译介绍。

我们团队构建的模型,OpenAI Five,已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下,但我们计划到 8 月份在有限英雄池下击败 TI 赛中的一支顶级专业队伍。我们可能不会成功,因为 Dota2 是当前最流行也最复杂的电子竞技游戏之一,一批有激情与创造力的玩家经年训练,想要瓜分 4000 万美金的奖金池。

通过自我对抗学习,OpenAI Five 每天相当于玩 180 年的游戏。训练上,它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化(Proximal Policy Optimization)方法进行训练,这是在我们去年建立的 solo Dota2 系统上的扩增。当我们为每个英雄使用单独的一个 LSTM,模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。这出乎了我们刚开始时的预料。

人工智能的一个里程碑就是在星际争霸或者 Dota 这类复杂的电子游戏中超越人类的水平。相比于上一个里程碑,即国际象棋与围棋,复杂电子游戏开始反映真实世界的混乱与连续的本质。因此我们希望,能够解决复杂电子游戏的系统可以成为通用的、在游戏之外有广阔应用场景的系统。

Dota2 是一个实时的 5 v 5 策略游戏,每个玩家控制一个英雄。而玩 Dota 的 AI 需要掌握以下技能:

  • 长线策略。Dota 游戏平均每秒 30 帧,一场时常 45 分钟,大概 8 万 tick。大部分操作(例如操纵英雄移动)都有单独的小影响,但一些个体行为可能会影响到游戏战略,例如 TP 回家。此外,还有一些策略可能会终结整场游戏。OpenAI Five 每 4 帧观察一次,产生了 2 万个决策。相比之下,国际象棋一般在 40 步之前就结束了,围棋大概 150 步,但这些游戏每一步都很有策略性。
  • 局部可观测状态。己方单位和建筑的视野都有限。地图的其他部分是没有视野的,可能藏有敌人和敌方策略。高玩通常需要基于不完整数据做推理,以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。
  • 高维、持续的行为空间。在 Dota 中,每个英雄能采取数十种行为,而且许多行为要么面向敌方单位,要么点地移动位置。我们把这个空间离散到每个英雄 17 万种可能的操作(不是每 tick 都有效,例如在技能冷却时放技能就是无效操作);不计算连续部分,每 tick 平均 1000 个可能有效行为。国际象棋的行为数量大概是 35,围棋 250。
  • 高维、连续的观察空间。Dota 是在一张包含 10 个英雄、20 几个塔、数十个 NPC 单位的地图上操作的游戏,此外还有神符、树、眼卫等。通过 Valve(Dota 2 的运营公司)的 【【微信】】,我们的模型把 Dota 游戏视为 2 万个状态,也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值(8x8 的棋盘,6 类棋子和较小的历史信息)。围棋大概有 400 个枚举值(19x19 的棋盘,黑白 2 子,加上 Ko)。

Dota 规则也非常复杂,这类游戏开发了十几年,成百上千的代码行实现游戏逻辑。而且游戏每两周更新一次,环境语义一直在变。

我们的系统使用一个高度扩展版本的近端策略优化(Proximal Policy Optimization)算法进行学习。OpenAI Five 和之前的 1v1 机器人都是通过自我对抗进行学习的。他们从随机参数开始,并不从人类玩家的方法中进行搜索或者自举。

强化学习研究人员(包括我们自己)过去普遍认为,进行长时间范围的学习需要根本性的算法突破,例如层级强化学习(hierarchical reinforcement learning)。而我们的结果显示,我们并没有充分信任现有的模型――至少当他们以足够的规模和合理的探索方式运行的时候。

我们的智能体被训练以最大化未来奖励的指数衰减和,其中指数衰减因子被称为 γ。在 OpenAIFive 最新一轮的训练中,我们将 γ 从 0.998(以 46 秒为半衰期)调整到了 0.997(以 5 分钟为半衰期)。相比之下,OpenAI 的近端策略优化(PPO)论文中最长的时间跨度为半衰期 0.5 秒,DeepMind 的 Rainbow 论文中最长的时间跨度为半衰期 4.4 秒,Google Brain 的 Obser【【微信】】 论文中则使用了 46 秒的半衰期。

虽然当前 OpenAI Five 的补兵能力略差(看我们的测试赛,专业 Dota 解说员 Blitz 估计它的补兵能力只有职业玩家的中值水平),但它在选择优先攻击目标上能达到专业水平。获取长期奖励(例如插眼控图)通常需要牺牲短期奖励(例如发育后的金钱),因为团推时要也要耗费时间。这一观察加强了我们的信念:系统会随长时间而有优化。

每个 Open AI Five 网络包含一个单层、1024 个单元的 LSTM 网络,它能观察当前的游戏状态(从 Valve 的 【【微信】】 中抽取)并通过一些可能的行动 Head 发出下一步采取的行动。每一个 Head 都包含语义信息,例如延迟该行动的时间值、选择哪一个行动和其 X 与 Y 的坐标轴。

OpenAI Five 使用了观察空间和行动空间的交互性演示。它将世界表征为一个由 2 万个数值组成的列表,并通过发出一个包含 8 个枚举值的列表而采取行动。我们可以在 OpenAI 网站上选择不同的行动和目标以理解 OpenAI Five 是如何编码每一个行动,以及如何观察世界的。下图展示了人们可能会观察到的场景:

OpenAI Five 可以对其丢失的状态片段作出反应,这些状态片段可能与它所看到的相关。例如,直到最近 OpenAI Five 的观察还没有包含弹片落下的区域,而人类可以在屏幕上轻松观察到这些落弹区域。然而,我们观察到 OpenAI Five 可以学习走出活跃的落弹区域,因为在这样的区域中智能体会发现它们的生命值在下降。

尽管构建的学习算法能处理较长的视野,但我们仍然需要探索环境。即使我们已经限制了复杂度,但游戏仍然有数百种物品、几十种建筑、法术、单位类型以及需要长时间慢慢学习的游戏机制,这些变量将组合成极其巨量的情况。因此,有效地探索这一巨大的组合空间是非常困难的。

OpenAI Five 通过自我对抗(self-play)从随机权重开始学习,这为探索环境提供了一个自然的 curriculum。为了避免「策略崩坏」,智能体在 80% 的游戏中通过自我对抗进行训练,而在 20% 的游戏中与过去的智能体进行对战。在第一场游戏中,英雄漫无目的地在地图上探索,而在几个小时的训练后,出现了规划、发育或中期战斗等概念。几天后,智能体能一致地采用基本的人类策略:试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练,它们变得精通 5 个英雄一起推塔这样的高级策略了。

在 2017 年,我们第一个智能体击败了机器人,但仍然不能战胜人类。为了强制在策略空间中进行探索,我们有且仅在训练期间对这些单位的属性(生命、速度和初始等级等)进行了随机化,然后它开始与人类对战。随后,当一名测试玩家不停地击败我们的 1V1 机器人时,我们增加了训练的随机性,然后测试玩家就开始输掉比赛了。此外,我们的机器人团队同时将类似的随机技术应用到物理机器人中,以便从模仿学习迁移知识到现实世界中。

OpenAI Five 使用我们为 1V1 机器人编写的随机化,它还使用一个新的「lane assignment」。在每次训练游戏开始时,我们随机「分配」每一个英雄到线路的一些子集,并在智能体发生偏离时对其进行惩罚,直到游戏中的随机选择时间才结束惩罚。

这样的探索得到了很好的奖励。我们的奖励主要由衡量人类如何在游戏中做决策的指标组成:净价值、杀敌数、死亡数、助攻数、最后人头等。我们通过减去每一个团队的平均奖励以后处理每一个智能体的奖励,因此这能防止智能体找到正项和(positive-sum)的情况。

OpenAI Five 没有在各个英雄的神经网络之间搭建显式的沟通渠道。团队合作由一个我们称之为「团队精神」的超参数控制。团队精神的取值范围为从 0 到 1,代表了 OpenAI Five 的每个英雄在多大程度上关注自己的个人奖励函数以及在多大程度上关注团队平均奖励函数。在训练中,我们将其值从 0 逐渐调整到 1。

我们的系统是用通用的强化学习训练系统 Rapid 来实现的。Rapid 可以被应用到任何一个 Gym 环境。在 OpenAI,我们也用 Rapid 来解决其他问题,包括竞争性自我对抗训练(Competiti【【微信】】)。

训练系统示意图

我们已经在 IBM Kubernetes,微软 Azure,谷歌 GCP 后端上实现了 Rapid。

到目前为止,我们与这些队伍进行了对战:

  1. 最强的 OpenAI 职员团队: 匹配分 2500
  2. 观看 OpenAI 职员比赛的观众玩家 (包括 Blitz 等):匹配分 4000-6000,他们此前从没有组队参赛过。
  3. Valve 公司团队: 匹配分 2500-4000
  4. 业余团队: 天梯 4200, 作为一支队伍来进行训练。
  5. 半职业团队: 天梯 5500, 作为一支队伍来进行训练。

在与前面三支队伍的比赛中,OpenAI 取得了胜利,输给了后面的两只队伍(只赢了开场前三局)。

我们观察到 OpenAI Five 具有以下几个特点:

经常来牺牲自己的优势路(夜魇军团的上路,天辉军团的下路),以压制敌人的优势路,迫使战斗转移到对手更难防御的一边。该策略在过去几年的专业领域出现过,现在已经成为了流行战术。Blitz 说他在打 DOTA 8 年后才学到了这个战术,当时是 Liquid(一支职业队伍)告诉了他。

比赛初期到中期的转换比对手更快。它是这样做到的:1)在人类玩家走位出问题时,进行多次成功 gank,2)在对方组织起反抗前,去组队推塔。

在一些领域机器有时也会偏离主流打法,例如在前期将钱和经验让给辅助英雄(这些英雄一般不优先获取资源)。OpenAI Five 的优先级使它获得的伤害更快达到顶峰,从而建立起更大的优势,赢得团战以及利用对方的错误来确保快速取胜。

OpenAI Five 获得的信息和人类是一样的,但前者可以实时看到位置、生命值和装备清单等,而这些信息都需要人类选手去手动查看。我们的方法从根本上就没有依赖于(实时)观察状态,但从游戏中渲染像素就需要成千上万块 GPU。

OpenAI Five 平均每分钟可进行 150-170 次操作(APM=150-170,因为每四帧观察一次,所以理论峰值为 450)。熟练的玩家有可能掌握完美捕捉画面的时机,但这对机器来说轻而易举。OpenAI Five 的平均反应时间为 80 毫秒,比人类更快。

这些差异在 1V1 中影响最大(当时我们机器人的反应时间为 67 毫秒),但竞技是相对公平的,因为我们已经看到人类在学习和适应机器人的打法。在去年 TI 之后,很多专业选手使用我们的 1V1 机器人进行了为期数月的训练。William *"Blitz"* Lee(前 DOTA2 专业选手和教练)表示,1V1 机器人已经改变了我们对单挑的传统看法(机器人采取了快节奏的打法,现在每个人都已经试着去跟着这个节奏)。

二元奖励可以给予良好的表现。我们的 1v1 模型具有形状奖励,包括上次命中奖励,杀戮等。我们进行了一个实验,只奖励代理的获胜或失败,并且让它在中间训练了一个数量级较慢并且稍微平稳的阶段,与我们平常看到的平滑学习曲线形成对比。该实验在 4500 个核心和 16 个 k80 GPU 上进行训练,训练至半专业级(70 【【微信】】,而非我们最好的 1v1 机器人的 90 【【微信】】)。

我们可以从头开始学习卡兵。对 1v1 来说,我们使用传统的强化学习和一个卡兵奖励(a creep block award)来学习卡兵。我们的一个同事在去度假前(去和未婚妻求婚!)留下了 2v2 模型,打算看看需要多久的训练能才提高表现。令他惊讶的是,这个模型在没有任何指导或奖励的情况下学会了卡兵。

我们仍在修复系统漏洞。下图显示了击败业余玩家的训练代码,相比之下,我们只是修复了一些漏洞,比如训练期间的罕见崩溃,或者导致达到 25 级的巨大负面奖励的错误。事实证明我们可以在隐藏严重漏洞的情况下,依然击败优秀的人类玩家!

Open AI Dota 的一个子团队手托去年在 Dota 2 国际邀请赛 1v1 上击败世界顶级专业玩家的笔记本电脑。

Open AI 的团队专注于达成八月份制定的目标。我们不知道它是否可以实现,但是我们相信通过自身的努力(和运气),机会还是很大的。

原文地址&#【【网址】】/openai-five…


chatgpt聊天机器人真能取代人工吗 使用chatgpt定制专属聊天机器人

ChatGPT聊天机器人怎么玩,ChatGPT聊天机器人会员系统搭建,ChatGPT聊天机器人怎么购买,chatai聊天机器人

以下是使用ChatGPT的方法:

在网络浏览器中访问 【【网址】】。

注册一个免费的 OpenAI 帐户。

点击页面左上角的“新建聊天”。

键入问题或提示,然后按回车键开始使用 ChatGPT。

ChatGPT 是免费的吗?

ChatGPT对在OpenAI网站上拥有帐户的任何人都可以免费使用。您可以使用您的电子邮件地址、Google 帐户或 Microsoft 帐户创建一个免费帐户。在 2023 年 <> 月撰写本文时,ChatGPT 的免费版本没有使用限制。

还有一个“ChatGPT Plus”订阅计划,每月 20 美元。它在需求高时提供可靠的可用性、更快的响应速度以及优先访问 ChatGPT 插件等新功能。

ChatGPT Plus现在可让您访问GPT-4,这是一种升级的型号,比ChatGPT免费版本中的GPT-3.5(技术上是gpt-3.5-turbo)型号功能更强大。您还可以使用Bing的AI聊天,该聊天也基于GPT-4构建。

如何使用聊天GPT

首先,在计算机、智能手机或平板电脑上的 Web 浏览器中导航到 【【网址】】。系统会要求您“登录”或“注册”。您可以使用电子邮件地址、Google 帐户或 Microsoft 帐户免费注册。

 

ChatGPT将实时“输入”响应。完成后,您可以使用拇指向上和向下按钮提供反馈。

每个提示都会启动一个对话。您可以输入后续提示或完全更改主题。它会记住你在说什么。

如果您认为响应不够好,您可以简单地要求它重试。

你也可以告诉ChatGPT,当它对某事不正确时。(我让它对汤姆汉克斯说了一些假话。

您可以将 【【网址】】 网站添加为书签,以便将来快速返回。

相关: 你可以用 ChatGPT 做的 8 件令人惊讶的事情

如何解决“容量不足”、“网络错误”和其他问题

ChatGPT非常受欢迎,它仍然只是一个研究项目。如果目前有很多其他人也在使用该服务,您可能并不总是能够使用 ChatGPT。如果您无法使用它,您将看到一条消息,指出“ChatGPT 现在已满负荷”。要修复此错误,您可能需要稍后再回来,或者您可能只是在 Web 浏览器中刷新页面,它可能会起作用。

如果这对您来说是一个问题,每月为 ChatGPT Plus 支付 20 美元将使您获得优先访问权限,这样您就可以使用 ChatGPT,即使它负载很重。

在使用 ChatGPT 时,您可能还会在对话中看到错误,例如“网络错误”消息。这有时可能是由您的网络问题引起的(例如,互联网连接问题、Wi-Fi issue 或 VPN 问题),但也可能是 ChatGPT 服务器的问题。在某些情况下,请求来自 ChatGPT 的很长的响应可能会导致错误。系统可能会提示您请求来自 ChatGPT 的另一个响应或尝试重新加载页面。

如果其他网页工作正常,但您在使用 ChatGPT 时遇到错误,则可能是很多人尝试使用它的问题 - 离开 ChatGPT 并稍后重试,或者考虑为 ChatGPT 加上优先访问付费。

如何保存聊天 GPT 对话

值得庆幸的是,ChatGPT对话会自动保存到您的OpenAI帐户中。您可以从侧边栏菜单访问过去的对话。每次开始新对话时,该对话都会添加到列表中。

在桌面上,侧边栏已展开。单击对话以再次阅读或继续聊天。对话是根据您输入的第一个提示命名的。

在移动浏览器中,您需要点击左上角的汉堡菜单以展开侧边栏。

侧边栏菜单也是您可以清除对话列表的地方。只需选择菜单底部的“清除对话”。

仅此而已。您的 ChatGPT 对话将保存到您的 OpenAI 帐户中,因此无论您在哪里登录,您都可以看到它们。

常见问题

“GPT”在 ChatGPT 中代表什么?

“GPT”代表“生成预训练变压器”。GPT 是一种语言模型,它使用深度学习生成类似人类的文本以响应提示。名称的“聊天”部分来自聊天机器人。

ChatGPT Plus值得吗?

ChatGPT Plus 是一个订阅计划,每月 20 美元。它包括在需求高时提供可靠的可用性、更快的响应速度以及优先访问插件等新功能。它现在还允许您访问 GPT-4,这是一个功能更强大的模型,通常可以提供更好的结果。高级用户可以从 Plus 功能中受益。

ChatGPT 会保存数据吗?

OpenAI表示,它不会保存与ChatGPT的个人交互数据供自己使用。当您与 ChatGPT 进行对话时,系统会处理您的输入以生成响应,并且您的对话将保存在您的帐户中。但是一旦您删除了帐户,对话就永远消失了。

聊天GPT有智能手机应用程序吗?

OpenAI没有适用于iPhone和Android的官方ChatGPT应用程序。但是,它在智能手机上的移动浏览器中确实运行良好。由于其受欢迎程度,苹果应用商店和谷歌Play商店中有许多假冒的ChatGPT应用程序。也就是说,像Petey for Apple Watch这样的应用程序将合法地让你通过ChatGPT的API访问聊天机器人。

ChatGPT 是否提供准确和诚实的答案?

ChatGPT只能像它分析的材料一样准确和诚实。其回复的准确性类似于您在线阅读文章后的准确程度。ChatGPT只能告诉你它读到了什么。它无法像拥有数十年经验的专家那样告诉您它是否准确。这就是“我读了一堆关于管道的文章”和“我是一名水管工大师,我可以权威地回答这个问题”之间的区别。

ChatGPT 是否使用实时数据和当前事件?

ChatGPT 不是最新的时事。在撰写本文时,当前版本的 ChatGPT 的数据集仅到 2021 年。ChatGPT 目前没有连接到互联网,也不会实时“吸收”新信息。ChatGPT将能够通过插件访问网络上的信息。

我可以使用 ChatGPT 做作业吗?

没有什么能阻止您将家庭作业中的问题插入 ChatGPT。但是,您可能不想这样做。ChatGPT通常是错误的,因为它是在互联网上的文本上训练的。它非常擅长对某事听起来很权威,但它可能是完全错误的。您需要进行大量事实检查以确保准确性。更不用说这肯定直接违反了您学校或大学的学术诚信政策。

这就是ChatGPT上的故事!你可以自由地狂野地问任何你想问的问题。ChatGPT 将尽最大努力回答这个问题,但如果不能,它会解释原因。以下是 ChatGPT 的一些令人惊讶的用途,可帮助您入门。请记住,ChatGPT 使用的是来自互联网的信息,互联网并不总是准确的。不要把ChatGPT所说的一切都当作事实。通常不是。

您可能很快就会在搜索引擎中看到更多ChatGPT和类似的AI。微软有一个基于ChatGPT Plus构建的相同GPT-4模型的Bing AI聊天功能,而谷歌的Bard聊天机器人使用其对话应用程序语言模型(LaMDA)技术,现已上市。您现在还可以尝试几种 ChatGPT 的替代方案。

本文地址:
版权声明: 转载时请以链接形式注明文章出处。