Actor-Critic Methods
目录
前言
Actor-Critic Methods 结合了价值学习和策略学习,同时训练了两个神经网络。
Actor 网络用于产生策略,Critic 网络用于评估策略。
目标
① 更新策略网络Π的参数,是为了增大状态价值V的值,要用价值网络q进行打分来训练。
② 更新价值网络q的参数,是为了让评价网络更精准的评价动作,从而更精准的预测累计奖励。
具体的可视化流程
每个回合只执行一次动作,但预测两次动作,只更新一次参数。
流程总结
这里不用qt用deta t是使用了 Baseline 而不是原始的方法,不影响期望,但可以让方差降低减少误差。
实际任何qt附近的数都可以作为 Baseline 但它不能是动作 at 的函数。