admin管理员组文章数量:1794759
【论文笔记】强化学习论文阅读
简要介绍了一下Model-Based RL领域的经典论文(2018年以前)。
文章目录- 引子
- a. Model is learned
- Imagination-Augmented Agents for Deep Reinforcement Learning, Weber, et al, 2017. Algorithm: I2A.(deepmind)
- Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi, et al, 2017. Algorithm: MBMF.
- Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning, Feinberg et al, 2018. Algorithm: MVE.
- Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion, Buckman et al, 2018. Algorithm: STEVE.
- Model-Ensemble Trust-Region Policy Optimization, Kurutach, et al, 2018. Algorithm: ME-TRPO.
- Model-Based Reinforcement Learning via Meta-Policy Optimization, Clavera, et al, 2018. Algorithm: MB-MPO.
- Recurrent World Models Facilitate Policy Evolution, Ha and Schmidhuber, 2018.
- b.Model is Given
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, Silver, et al, 2018. Algorithm: AlphaZero.
- Thinking Fast and Slow with Deep Learning and Tree Search, Anthony et al, 2017. Algorithm: Expert Iteration(ExIt).
在model-free的方法中,无非两种方式,value-based方法先学习值函数(MC或TD)再更新策略,policy-based方法直接将真实轨迹数据(real experience)更新策略。而model-based方法呢,顾名思义,会先将着重点放在环境模型(environment dynamics),通过采样先学习一个对环境的建模,再根据学习到的环境模型做值函数/策略优化。在model-based方法中,planning步骤至关重要,正是通过在learned model基础上做planning才提高了整个强化学习算法迭代的效率。
在完成了对环境的建模后,在model-based大类方法中同样有两种路径,一种是通过学到的model生成一些仿真轨迹,通过仿真轨迹估计值函数进而优化策略;另一种是通过学到的model直接优化策略,这也是目前model-based方法常走的路线。
a. Model is learned Imagination-Augmented Agents for Deep Reinforcement Learning, Weber, et al, 2017. Algorithm: I2A.(deepmind)Ot即为t时刻的环境状态(St) 使rollout policy来模仿最终的想象力增强的策略, 以此来进行rollout policy 的训练。
也就是说,通过和环境交互采样后,让系统学习到一个可编码的环境。在决策时,就先考虑通过模型“想象”后续情况,然后得到一个策略。得到策略后,再将这个策略用无模型的方式进行表征。
Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi, et al, 2017. Algorithm: MBMF.基于模型和无模型的方法各有千秋,这篇文章希望把基于模型的收敛快和无模型的水平高相结合。因此使用模仿学习,学习专家策略,让无模型的网络较快地达到一个相对可以接受的水平,然后采用无模型强化学习。 核心其实就是用模仿学习加快了无模型强化前期的收敛速度。
Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning, Feinberg et al, 2018. Algorithm: MVE.因为模型是学习得到的,在规划时如果步数太多,模型很容易会有偏差,于是采用H步截断的方式。这样也可以减少计算的复杂度。 另外,使用AC方式训练模型,用专家网络估计后续步骤的reward,用Q估计H步后局面的价值。
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion, Buckman et al, 2018. Algorithm: STEVE.感觉就是刷分的方式。 用多个网络估计reward。 用多个网络学习model,进行状态转移估计。 用多个网络对H步的状态价值进行估计。 当然效果肯定也好。对于越难学到的model,ensemble的效果越好。
Model-Ensemble Trust-Region Policy Optimization, Kurutach, et al, 2018. Algorithm: ME-TRPO.用监督学习方法学习环境动力模型,然后用TRPO进行agent的策略学习。最后用ensemble的方式让模型work得更好。
Model-Based Reinforcement Learning via Meta-Policy Optimization, Clavera, et al, 2018. Algorithm: MB-MPO.之前的基于model的都是先随机采样学得model,之后都用这个学到的model了。本文使用环境采样和策略学习交替进行的方式。 可以想象,在前期模型不太好的情况下进行策略学习可能会带来算力上的浪费。每次学习的时候采样的又不多。 实际上,每一次学习策略都是用元学习的方式。 最终呢,这个模型不容易受到模型偏差的影响,因为它不断地在刷新自己对模型的认知。
Recurrent World Models Facilitate Policy Evolution, Ha and Schmidhuber, 2018.用VAE来做环境的编码,用RNN对环境进行处理,用决策器(单层线性模型)进行决策。 将环境模型用在了赛车游戏中,取得了不错的效果。
b.Model is Given Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, Silver, et al, 2018. Algorithm: AlphaZero. Thinking Fast and Slow with Deep Learning and Tree Search, Anthony et al, 2017. Algorithm: Expert Iteration(ExIt).神经网络更像是人的直觉,而MCTS更像是推理的过程。 用神经网络来评估当前局面,然后用MCTS进行随机采样动作,然后再用神经网络评估、再MCTS采样……如此循环直到叶子节点。
MCTS用神经网络选择行为的话,神经网络的效果会对MCTS的效果产生影响。 神经网络越来越好的同时,能够促进MCTS得到的结果越来越好,从而产生良性循环。颇有“教学相长”的味道。
都看到这里了,就顺手点个赞吧~
版权声明:本文标题:【论文笔记】强化学习论文阅读 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1686986801a125727.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论