近年来,人工智能代理在一系列复杂的游戏环境中取得了成功。例如,AlphaZero 一开始只知道如何下棋的基本规则,就击败了国际象棋、将棋和围棋的世界冠军项目。借助强化学习 (RL),这个单一系统通过一轮又一轮游戏的试错过程来学习。但是 AlphaZero 仍然单独训练每个游戏——如果不从头开始重复强化学习过程,就无法简单地学习另一个游戏或任务。其他成功的 RL 游戏也是如此,例如 Atari、Capture the Flag、StarCraft II、Dota 2 和 Hide-and-Seek。深度思维 解决智能以推动科学和人类进步的使命促使 DeepMind 探索如何克服这一限制,以创建更多具有一般和自适应行为的智能 AI 代理。这些代理不是一次学习一个游戏,而是能够对全新的条件做出反应并完成一系列游戏和任务,包括以前从未见过的游戏和任务。
今天,DeepMind 发布了“Open Learning Leads to Generic Competent Agents”DeepMind 发现代理表现出一般启发式行为,例如实验,广泛适用于许多任务,而不是特定于单个任务的行为。这种新方法标志着朝着创建更通用的代理迈出了重要一步定制微小程序,该代理具有在不断变化的环境中快速适应的灵活性。
开放学习导致通用代理
代理执行各种测试任务。该代理接受了各种游戏的训练,因此能够推广到训练期间从未见过的测试游戏。
缺乏训练数据——“数据”点是不同的任务——一直是限制 RL 训练的代理在游戏中的行为普遍性的主要因素之一。由于无法在足够大的任务集上训练代理定制微小程序,使用 RL 训练的代理无法将其学习行为适应新任务。但是通过设计模拟空间以允许程序生成的任务,DeepMind 的团队创造了一种方法来训练并从编程创建的任务中产生经验。这使 DeepMind 能够在 Xland 中包含数十亿个任务,涉及不同的游戏、世界和玩家。
DeepMind 的 AI 代理是多人游戏环境中的 3D 第一人称化身,旨在模拟物理世界。玩家通过查看 RGB 图像感知周围环境并接收目标的文本描述,然后他们在一系列游戏中进行训练。这些游戏就像寻找对象和导航世界的合作游戏一样简单,玩家的目标可能是“接近紫色立方体”。更复杂的游戏可以基于从多个奖励选项中进行选择,例如“靠近紫色立方体或将黄色球体放在红色地板上”,而更具竞争力的游戏则涉及与合作玩家对战,例如对称的捉迷藏。寻找每一个。球员都有一个目标,“看到对手 小程序的定制网站 ,让对手看不到我”。每个游戏都为玩家定义了一个奖励,
因为 XLands 可以通过编程方式指定,所以游戏空间允许自动和算法生成数据。并且由于 Xland 中的任务涉及多个玩家,因此合作玩家的行为极大地影响了 AI 代理所面临的挑战。这些复杂的非线性交互创造了理想的训练数据来源,因为有时环境成分的微小变化会导致智能体面临的挑战发生巨大变化。
XLand 由一系列游戏组成(这里考虑嵌入 2D 中的点,根据它们的属性着色和大小),每个游戏都可以在许多不同的模拟世界中进行,这些模拟世界的拓扑和特征变化平滑。Xland 任务的实例将游戏与世界和合作玩家联系在一起。
训练方法
DeepMind 研究的核心是深度强化学习在为 DeepMind 代理训练神经网络中的作用。DeepMind 使用的神经网络架构为代理中的循环状态提供了一种注意力机制——通过估计代理正在玩的游戏的特定子目标来帮助引导代理的注意力。DeepMind 发现这个 Object Attention Agent (GOAT) 可以学习更通用的策略。
DeepMind 还探讨了这样一个问题,即训练任务的哪种分布会产生最好的智能体,尤其是在如此广阔的环境中?DeepMind 使用的动态任务生成允许代理训练任务的不断变化分布:生成的每个任务既不太难也不太容易,但正好适合训练。然后,DeepMind 使用基于人口的训练 (PBT) 来调整基于适应度的动态任务生成的参数,旨在提高智能体的综合能力。最后,DeepMind 将多个训练运行连接在一起 app要多少钱 ,以便每一代代理都可以引导上一代。
这导致了以深度强化学习为核心的最终训练过程,在每一步都使用经验更新代理的神经网络:
经验步骤源自响应代理行为而动态生成的训练任务,
代理的任务生成能力随代理的相对性能和鲁棒性而变化,
在最外层循环中,几代代理相互引导,为多人环境提供更丰富的合作玩家,并重新定义流程本身的指标。
训练过程从头开始,迭代构建复杂性,不断改变学习问题以保持代理学习。组合学习系统的迭代性质并没有优化有界性能指标,而是迭代定义的一般能力范围,从而导致智能体的潜在开放学习过程,仅受环境空间和智能体神经网络的表达能力限制.
智能体的学习过程由多个时间尺度的动态组成
衡量进度
为了衡量代理在这个广阔的宇宙中的表现如何,DeepMind 创建了一组评估任务,使用与用于训练的数据分开的游戏和世界。这些“保留”任务包括专门设计的任务,例如捉迷藏和夺旗。
由于 Xland 的规模定制微小程序 哪里开发app比较好 ,理解和表征 DeepMind 代理的性能可能是一个挑战。每个任务都涉及不同级别的复杂性、不同的可实现奖励规模以及代理的不同能力,因此仅将奖励与保留任务进行平均将隐藏复杂性和奖励的实际差异 – 并将有效地结合所有任务被视为平等有趣,这不一定适用于程序生成的环境。
为了克服这些限制 小程序费用定制 ,DeepMind 采取了不同的方法。首先,DeepMind 使用由 DeepMind 当前训练的玩家集计算的纳什均衡值对每个任务的分数进行归一化。其次,DeepMind 考虑了归一化分数的整个分布——而不是查看平均归一化分数,DeepMind 查看归一化分数的不同百分位数——以及代理至少获得一个奖励步骤的任务百分比:参与。这意味着只有当一个代理在所有百分位上都超过性能时,它才会被认为比另一个代理更好。这一措施为 DeepMind 提供了一种有意义的方式来评估代理的性能和鲁棒性。
在对 DeepMind 的代理进行了五代训练后,DeepMind 在 DeepMind 保留的评估空间中看到了学习和性能的持续改进。在 Xland 的 4,000 个独特世界中玩大约 700,000 款独特的游戏,上一代的每个代理都经历了 2000 亿个训练步骤,这是 340 万个独特任务的结果。目前,DeepMind 的智能体已经能够参与到每一个程序生成的评估任务中,除了一些甚至人类也无法完成的评估任务。DeepMind 看到的结果清楚地表明了整个任务空间中的一般零样本行为——归一化分数百分位数的前沿不断提高。
上一代代理的学习进度显示了 DeepMind 的测试指标如何随着时间的推移而进步,也转化为手写保持测试任务的零样本性能。
定性地观察 DeepMind 的代理,DeepMind 经常看到出现一般的启发式行为,而不是针对单个任务的高度优化的特定行为。DeepMind 并不知道智能体在新情况下确切地知道“最好的事情”,而是看到了智能体实验并改变世界状态直到它们达到有益状态的证据。DeepMind 还看到代理依赖于其他工具的使用,包括遮挡可见性、创建坡道以及从其他对象中检索对象。由于环境是多人游戏,DeepMind 可以检查代理行为的进度,同时针对持续的社会困境进行训练,例如在“吃鸡游戏”中。随着训练的进行,DeepMind 的代理播放自己的副本似乎表现出更多的合作行为。
上图:会发生哪些类型的行为?(1) 特工展示了随着战术情况的展开切换他们选择的选项的能力。(2) 特工展示了对工具使用的一瞥,例如创建坡道。(3) 特工学习 一种一般的试错实验行为,当他们意识到已经找到正确的状态时停止。底部:在这个手写的探测任务中,同一个代理设法使用对象到达目标紫色金字塔的多种方式。
在这个手写检测任务中,同一个代理设法使用对象到达目标紫色金字塔的多种方式。
通过分析代理的内部表征,DeepMind 可以说,通过在广泛的任务空间中采用这种强化学习方法,DeepMind 的代理了解了他们身体的基础知识和时间的流逝,他们了解了他们遇到的游戏的高级结构. 也许更有趣的是,他们清楚地认识到环境的奖励状态。新任务中行为的这种普遍性和多样性暗示了在下游任务上微调这些代理的潜力。例如,DeepMind 在一篇技术论文中表明,只需对新提出的复杂任务进行 30 分钟的强化训练,代理就可以快速适应,而从头开始使用 RL 训练的代理根本无法学习这些任务。
DeepMind 通过开发像 Xland 这样的环境和支持开放复杂性创建的新训练算法,已经看到了 RL 代理零样本泛化的明显迹象。虽然这些代理开始在这个任务空间中普遍具备能力 微信小程序开发定制多少钱 ,但 DeepMind 期待继续 DeepMind 的研究和开发,以进一步提高它们的性能并创建更具适应性的代理。
发现、改变
探知、求新
共享,感恩一路相伴
昱远品牌形象已完成全面升级
点击访问新官网