Current Location:home > Detailed Browse

Article Detail

一种深度Q网络的改进算法

Submit Time: 2018-10-11
Author: 夏宗涛 1 ; 秦进 1 ;
Institute: 1.贵州大学 计算机科学与技术学院;

Abstracts

深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态—动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态—动作值,从而使得最优状态—动作值与非最优状态—动作值的差异增大,减少过估计问题的影响。实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能。说明改进的算法比深度Q网络寻得了更优的策略。
Download Comment From cooperative journals:《计算机应用研究》 Hits:531 Downloads:228
Journal:计算机应用研究
Recommended references: 夏宗涛,秦进.(2018).一种深度Q网络的改进算法.计算机应用研究.[ChinaXiv:201810.00021] (Click&Copy)
Version History
[V1] 2018-10-11 09:20:10 chinaXiv:201810.00021V1 Download
Related Paper

Download

Current Browse

Cross Subject Browse

  • - NO