DeepMind团结UCL，推出2021强化进修最新课程

2022-11-17 09:37:50 作者：放学铃才是中国好声音

导读：DeepMind联合UCL，推出2021强化学习最新课程,机器之心报道编辑：小舟DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程，目前已全部上线。DeepMind 作为全球顶级 AI 研究...

呆板之心报道

编辑：小舟

DeepMind 的研究科学家和工程师亲身教学了一套强化进修课程，现在已全部上线。

DeepMind 作为环球顶级 AI 研究机构，自 2010 年创建以来已有多项天下瞩目标研究结果，比方击败天下顶级围棋玩家的 AlphaGo 和本年高效猜测的卵白质布局的 AlphaFold。

近几年，DeepMind 团结伦敦大学学院（UCL）推出了一些人工智能线上课程，本年他们团结推出的「2021 强化进修系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲身教学，旨在为门生提供对当代强化进修的全面先容。

课程主页：http://deepmind.com/learning-resources/reinforcement-learning-series-2021

课程先容

本次课程共包罗 13 节，涵盖了次序决议计划题目中强化进修和计划的底子知识，并进一步解说了当代深度强化进修算法。此中细致解说了强化进修的多个主题，包罗马尔科夫决议计划历程（MDP）、基于样本的进修算法（比方双 Q 进修、SARSA）、深度强化进修等，还探究了一些更高级的主题，包罗 off-policy 进修、多步更新和资格迹（eligibility traces），以及实现 Rainbow DQN 等深度强化进修算法必要的理论和实际条件。

下面我们来看一下各节课程的详细内容。

第 1 讲强化进修简介：DeepMind 研究科学家 Hado van Hasselt 起首简洁先容了本次强化进修课程的内容，然后解说了强化进修与 AI 的干系。

第 2 讲探究与操纵：Hado van Hasselt 解说了为什么进修智能体一定同时做到均衡探究和使用所获的知识。

第 3 讲 MDP 和动态计划：DeepMind 研究科学家 Diana Borsa 解说了怎样利用动态计划办理 MDP 以提取正确的猜测和精良的操纵计谋。

第 4 讲动态计划算法的理论底子：Diana Borsa 解说了动态计划算法的扩展和紧缩映射定理（contraction mapping）。

第 5 讲无模子猜测：Hado van Hasselt 认真解说了无模子猜测及其与蒙特卡罗和时间差分算法的干系。

第 6 讲无模子操纵：Hado van Hasselt 解说了用于计谋革新的猜测算法，以孕育发生可以从采样履历中进修精良举动计谋的算法。

第 7 讲函数类似：Hado van Hasselt 解说了怎样将深度进修与强化进修联合，以实现「深度强化进修」。

第 8 讲计划与模子：DeepMind 研究工程师 Matteo Hessel 解说了怎样进修和利用模子，包罗 Dyna 、蒙特卡洛树搜刮 (MCTS) 等算法。

第 9 讲计谋梯度和 Actor-Critic 要领：Hado van Hasselt 报告了可以直接进修计谋的计谋算法，并进一步解说告终合代价猜测以进步进修服从的 actor critic 算法。

第 10 讲类似动态计划：Diana Borsa 解说了类似动态计划算法，探究了怎样从理论的角度阐发类似算法的性能。

第 11 讲多步和 off-policy：Hado van Hasselt 解说了多步和 off-policy 算法，包罗多种减小方差的要领。

第 12 讲深度强化进修 #1：Matteo Hessel 解说了深度强化进修的现实要求和详细算法，以及怎样利用主动微分（Jax）来实现。

第 13 讲深度强化进修 #2：Matteo Hessel 解说了通用代价函数（general value functions）、基于 GVF 的帮助使命，并进一步解说了怎样处置惩罚算法中的扩展题目。

DeepMind 研究者亲身讲课

该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

Hado van Hasselt 是 DeepMind 的一名研究科学家，也是伦敦大学学院（UCL）的荣誉传授。Hado van Hasselt 博士结业于天下顶尖公立研究型大学和百强名校乌得勒支大学，他的研究兴趣包罗人工智能、呆板进修、深度进修，并重点研究强化进修。

Diana Borsa

Diana Borsa 是 DeepMind 的研究科学家，也是 UCL 的荣誉讲师。她的研究兴趣重要是强化进修、呆板进修、统计进修和通用人工智能（AGI），涵盖智能体进修、交互体系、多智能体体系、概率建模、表征进修等。

Matteo Hessel

Matteo Hessel 是 DeepMind 的一位研究工程师，也是 UCL 的荣誉讲师。他的研究重点是强化进修及其与深度进修的联合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上颁发过十余篇论文，这些论文的引用次数凌驾 4000 次，并得到了 2 项注册专利。

相关推荐

精彩图集

图片推荐