您的位置:首页>动态 >内容

英特尔研究人员描述了Sample Factory在强化学习实验中可实现高吞吐量

2020-07-02 16:50:21来源:
导读 在本周于Arxiv org上发表的预印本中,英特尔研究人员描述了Sample Factory,该系统在强化学习实验中可实现高吞吐量(每秒高于105个环境帧)

在本周于Arxiv.org上发表的预印本中,英特尔研究人员描述了Sample Factory,该系统在强化学习实验中可实现高吞吐量(每秒高于105个环境帧)。与这些实验通常需要的分布式服务器和硬件设置相比,Sample Factory针对单机设置进行了优化,使研究人员能够在电子游戏,机器人技术和其他领域的AI培训中实现合著者声称的“前所未有的”结果。
 

在模拟中对AI软件代理进行培训是当代强化学习研究的基石。但是,尽管领先方法的采样效率有所提高,但是众所周知,大多数方法仍然需要大量数据和计算。由于实验规模的扩大,性能得到了很大程度的提高。如今,在复杂环境下进行数十亿规模的实验相对司空见惯,而最高级的努力使特工在一次会议中采取了数万亿的行动。

Sample Factory通过称为异步近端策略优化的算法来提高效率,该算法可在单GPU商用PC上积极地并行化代理训练并实现高达130,000 FPS(此处表示每秒环境帧)的吞吐量。通过将每个工作负载与三种类型的组件之一相关联,它将所有计算的空闲时间最小化:部署工作者,策略工作者和学习者。这些组件使用快速排队协议和共享的硬件内存相互通信。排队为连续和异步执行提供了基础,只要队列中有要处理的内容,就可以立即开始下一个计算步骤。

需要明确的是,Sample Factory无法启用以前无法执行的实验。但是它加快了它们的速度,因此它们在单PC设置上比以前更加实用。在全速运行的情况下,即使在多代理环境和大量代理的情况下,Sample Factory每秒也可以生成和使用1GB以上的数据。典型的模型更新需要不到1毫秒的时间。

在两台PC上进行的实验(一台具有10核CPU和GTX 1080 Ti GPU,另一台具有服务器级36核CPU和单个RTX 2080 Ti)中,研究人员在以下三种模拟器上评估了Sample Factory的性能: VizDoom(用于AI研究的类似Doom的游戏)和DeepMind Lab(类似于Quake III的环境)。他们报告说,在700到2,000个环境之间,该系统在大多数训练场景中均优于基准方法,每秒至少达到10,000帧。

在一项测试中,研究人员使用Sample Factory训练了一个代理商来同时解决30个环境。在另一场比赛中,他们在VizDoom中的“决斗”和“死亡竞赛”场景中训练了8个特工,之后特工以100%的最高难度击败了游戏内机器人。在第三名中,他们有八名特工互相竞争,积累了18年的模拟经验,这使这些特工可以击败脚本化机器人100的78次。

共同作者写道:“我们的目标是使深度学习(强化学习)民主化,并有可能使用广泛可用的商品硬件在数十亿次的环境转变中对整个代理商进行培训。”“我们认为这是一个重要的研究领域,因为它可以使任何利用无模型[强化学习]的项目受益。利用我们的系统架构,研究人员可以更快地迭代他们的想法,从而加快该领域的进步。”

GitHub上提供了样本工厂和示例模型。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章