练习Rainbow必要1425个GPU Day?谷歌说强化进修能够低落盘算本钱

2022-11-17 09:34:53 作者:女乃 口嘴
导读:训练Rainbow需要1425个GPU Day?谷歌说强化学习可以降低计算成本,机器之心报道编辑:陈萍、小舟DeepMind 提出的 Rainbow 算法,可以让 AI 玩 Atari 游戏的水平提升一大截,但该算法计算成本非常高,一个...

呆板之心报道

编辑:陈萍、小舟

DeepMind 提出的 Rainbow 算法,可以让 AI 玩 Atari 游戏的程度提拔一大截,但该算法盘算本钱非常高,一个重要缘故原由是学术研究公布的尺度通常是必要在大型基准测试上评估新算法。来自谷歌的研究者通过添加和移除差别组件,在有限的盘算预算、中小型情况下,以小范围试验得到与 Rainbow 算法同等的效果。

人们广泛以为,将传统强化进修与深度神经网络联合的深度强化进修,始于 DQN 算法的开创性公布。DQN 的论文展示了这种组合的庞大潜力,评释它可以孕育发生玩 Atari 2600 游戏的有用智能体。之后有多种要领革新了原始 DQN,而 Rainbow 算法联合了很多最新希望,在 ALE 基准测试上实现了 SOTA 的性能。然而这一希望带来了非常高的盘算本钱,拥有足够盘算资源的和没有盘算资源之间的差距被进一步拉大。

在 ICML 2021 的一篇论文《Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research》中,研究者起首商议了与 Rainbow 算法相干的盘算本钱。研究者探究了通过联合多种算法组件,以小范围试验得到与 Rainbow 算法同等的效果,并将该想法进一步推广到在较小的盘算预算上举行的研究怎样提供有代价的科学看法。

论文地点:http://arxiv.org/abs/2011.14826

Rainbow 盘算本钱高的一个重要缘故原由是学术研究公布的尺度通常是必要在大型基准测试(比方 ALE,此中包罗 57 款强化进修智能体可以或许学会玩 Atari 2600 游戏)上评估新算法。通常利用 Tesla P100 GPU 练习模子学会玩一个游戏约莫必要五天时间。别的,假如想要创建故意义的置信界限,通常至少实行 5 次运行。

是以,在全套 57 款游戏上练习 Rainbow 必要约莫 34,200 个 GPU hour(约 1425 天)才气提供令人佩服的性能试验数据。如许的试验只有可以或许在多个 GPU 上并行练习时才可行,这使得较小的研究小组望而生畏。

Rainbow 算法

与原始 Rainbow 算法的论文一样,在 ICML 2021 的这篇论文中,研究者评估了在原始 DQN 算法中添加以下组件的成效:双 Q 进修(double Q-learning)、优先履历回放(prioritized experience replay,PER)、竞争网络、多步进修、漫衍式强化进修和喧华网络。

该研究在四个经典操纵情况中举行评估。必要细致的是,相比于 ALE 游戏必要 5 天,这些情况在 10-20 分钟内就可以完成完全练习:

左上:在 CartPole 中,游戏使命是智能体通过左右移动均衡推车上的一根杆子;右上:在 Acrobot 中,有两个杠杆和两个毗连点,智能体必要向两个杠杆之间的毗连点施加力以举高下面的杠杆使其高于某个高度要求。左下:在 LunarLander 中,智能体的使命是将飞船降落在两个旌旗之间;右下:在 MountainCar 中,智能体必要在两座山丘之间借助必然的动力将车开到右边的山顶。

研究者探究了将每个组件单独添加到 DQN 以及从完备 Rainbow 算法中删除每个组件的成效,并发觉总的来说每一个算法组件的添加都的确革新了底子 DQN 的进修成效。然而,该研究也发觉了一些紧张的差别,比方通常被以为能起到革新作用的漫衍式 RL 自身并不总是可以或许孕育发生革新。现实上,与 Rainbow 论文中的 ALE 效果相反,在经典操纵情况中,漫衍式 RL 仅在与其他组件联合时才会孕育发生革新。

上图表现了在 4 个经典操纵情况中,向 DQN 添加差别组件时的练习进度。x 轴为练习 step,y 轴为性能(越高越好)。

上图表现了在 4 个经典操纵情况中,从 Rainbow 中移除种种组件时的练习进度。x 轴为练习 step,y 轴为性能(越高越好)。

研究者还在 MinAtar 情况中重新运行了 Rainbow 试验,MinAtar 情况由一组五个小型化的 Atari 游戏构成,试验效果与原 Rainbow 论文雷同。MinAtar 游戏的练习速率约莫是通例 Atari 2600 游戏的 10 倍,此中后者的练习速率是在最初的 Rainbow 算法上评估的。别的,该研究的试验效果另有一些有味的方面,比方游戏动态和给智能体添加基于像素的输入。是以,该研究提供了一个具有挑衅性的中级情况,介于经典操纵和完备的 Atari 2600 游戏之间。

综合来看,研究者发觉如今的效果与原始 Rainbow 论文的效果同等——每个算法组件孕育发生的影响大概因情况而异。研究者发起利用单一智能体来均衡差别算法组件之间的衡量,该研究的 Rainbow 版本大概与原始版本高度同等,这是由于将全部组件组合在一路会孕育发生团体性能更好的智能体。然而,在差别算法组件之间,有一些紧张的细节改变值得举行更彻底的探究。

「优化器 - 丧失函数」差别组合试验

DQN 被提出时,同时采纳了 Huber 丧失和 RMSProp 优化器。对付研究者而言,在构建 DQN 时利用雷同的选择是一种常见的做法,由于研究者将大部门时间用在了其他算法设计上。

而该研究重新商议了 DQN 在低本钱、小范围经典操纵和 MinAtar 情况中利用的丧失函数和优化器。研究者利用 Adam 优化器举行了一些初始试验,现在 Adam 优化器是最盛行的优化器,并在试验中联合利用了一个更简洁的丧失函数,即均方偏差丧失 (MSE)。因为在开辟新算法时,优化器和丧失函数的选择每每被纰漏,而该研究发觉在全部的经典操纵和 MinAtar 情况中,这二者的转变都能让试验效果有明显的革新。

是以,研究者将两个优化器(RMSProp、Adam 优化器)与两个丧失函数(Huber、MSE 丧失)举行了差别的组合,并在整个 ALE 平台(包罗 60 款 Atari 2600 游戏)上举行了评估。效果发觉 Adam+MSE 组合优于 RMSProp+Huber 组合。

在默认 DQN 设置下(RMSProp + Huber),评估 Adam+MSE 组合带来的革新(越高越好)。

别的,在比力种种「优化器 - 丧失函数」组合的历程中,研究者发觉当利用 RMSProp 时,Huber 丧失每每比 MSE 体现得更好(实线和橙色虚线之间的间隙可以阐明这一点)。

对 60 款 Atari 2600 游戏的尺度化得分举行汇总,比力差别的「优化器 - 丧失函数」组合。

在有限的盘算预算下,该研究研究者可以或许在高条理上复现论文《Rainbow: Combining Improvements in Deep Reinforcement Learning》的研究,而且发觉新的、有味的征象。明显,重新审视某事物比初次发觉更简单。然而,研究者开展这项事情的目标是为了论证中小型情况实证研究的相干性和紧张性。研究者信赖,这些盘算强度较低的情况可以或许很好地对新算法的性能、举动和庞大性举行更要害和彻底的阐发。该研究盼望 AI 研究职员可以或许把小范围情况作为一种有代价的东西,评审职员也要幸免轻忽那些专注于小范围情况的试验事情。

参考链接:http://ai.googleblog.com/2021/07/reducing-computational-cost-of-deep.html

精彩图集