呆板之心报道
编辑:小舟
DeepMind 的研究科学家和工程师亲身教学了一套强化进修课程,现在已全部上线。
DeepMind 作为环球顶级 AI 研究机构,自 2010 年创建以来已有多项天下瞩目标研究结果,比方击败天下顶级围棋玩家的 AlphaGo 和本年高效猜测的卵白质布局的 AlphaFold。
近几年,DeepMind 团结伦敦大学学院(UCL)推出了一些人工智能线上课程,本年他们团结推出的「2021 强化进修系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲身教学,旨在为门生提供对当代强化进修的全面先容。
课程主页:http://deepmind.com/learning-resources/reinforcement-learning-series-2021
课程先容
本次课程共包罗 13 节,涵盖了次序决议计划题目中强化进修和计划的底子知识,并进一步解说了当代深度强化进修算法。此中细致解说了强化进修的多个主题,包罗马尔科夫决议计划历程(MDP)、基于样本的进修算法(比方双 Q 进修、SARSA)、深度强化进修等,还探究了一些更高级的主题,包罗 off-policy 进修、多步更新和资格迹(eligibility traces),以及实现 Rainbow DQN 等深度强化进修算法必要的理论和实际条件。
下面我们来看一下各节课程的详细内容。
第 1 讲 强化进修简介:DeepMind 研究科学家 Hado van Hasselt 起首简洁先容了本次强化进修课程的内容,然后解说了强化进修与 AI 的干系。
第 2 讲 探究与操纵:Hado van Hasselt 解说了为什么进修智能体一定同时做到均衡探究和使用所获的知识。
第 3 讲 MDP 和动态计划:DeepMind 研究科学家 Diana Borsa 解说了怎样利用动态计划办理 MDP 以提取正确的猜测和精良的操纵计谋。
第 4 讲 动态计划算法的理论底子:Diana Borsa 解说了动态计划算法的扩展和紧缩映射定理(contraction mapping)。
第 5 讲 无模子猜测:Hado van Hasselt 认真解说了无模子猜测及其与蒙特卡罗和时间差分算法的干系。
第 6 讲 无模子操纵:Hado van Hasselt 解说了用于计谋革新的猜测算法,以孕育发生可以从采样履历中进修精良举动计谋的算法。
第 7 讲 函数类似:Hado van Hasselt 解说了怎样将深度进修与强化进修联合,以实现「深度强化进修」。
第 8 讲 计划与模子:DeepMind 研究工程师 Matteo Hessel 解说了怎样进修和利用模子,包罗 Dyna 、蒙特卡洛树搜刮 (MCTS) 等算法。
第 9 讲 计谋梯度和 Actor-Critic 要领:Hado van Hasselt 报告了可以直接进修计谋的计谋算法,并进一步解说告终合代价猜测以进步进修服从的 actor critic 算法。
第 10 讲 类似动态计划:Diana Borsa 解说了类似动态计划算法,探究了怎样从理论的角度阐发类似算法的性能。
第 11 讲 多步和 off-policy:Hado van Hasselt 解说了多步和 off-policy 算法,包罗多种减小方差的要领。
第 12 讲 深度强化进修 #1:Matteo Hessel 解说了深度强化进修的现实要求和详细算法,以及怎样利用主动微分(Jax)来实现。
第 13 讲 深度强化进修 #2:Matteo Hessel 解说了通用代价函数(general value functions)、基于 GVF 的帮助使命,并进一步解说了怎样处置惩罚算法中的扩展题目。
DeepMind 研究者亲身讲课
该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。
Hado van Hasselt
Hado van Hasselt 是 DeepMind 的一名研究科学家,也是伦敦大学学院(UCL)的荣誉传授。Hado van Hasselt 博士结业于天下顶尖公立研究型大学和百强名校乌得勒支大学,他的研究兴趣包罗人工智能、呆板进修、深度进修,并重点研究强化进修。
Diana Borsa
Diana Borsa 是 DeepMind 的研究科学家,也是 UCL 的荣誉讲师。她的研究兴趣重要是强化进修、呆板进修、统计进修和通用人工智能(AGI),涵盖智能体进修、交互体系、多智能体体系、概率建模、表征进修等。
Matteo Hessel
Matteo Hessel 是 DeepMind 的一位研究工程师,也是 UCL 的荣誉讲师。他的研究重点是强化进修及其与深度进修的联合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上颁发过十余篇论文,这些论文的引用次数凌驾 4000 次,并得到了 2 项注册专利。