论文笔记之:Continuous Deep Q

来源:未知作者:编辑:admin2018-10-31 10:03

  在上壹篇文字DQN从入门到僵持6 DQN的各种改革中,我们伸见了DQN的各个方面的改革。从各种改革的角度和文思很有益于我们考虑何以去花样翻新此雕刻个事情。这么,本着从入门到僵持的肉体[呲牙],在皓天此雕刻篇文字中,我们还是到来剖析壹下将DQN拓展到就续把持的算法------NAF。

  从之前对DQN的剖析,父亲家曾经知道,DQN是壹个面向团弄圆把持的算法,也坚硬是说输入的举止是团弄圆的,不是就续的。此雕刻边也孤立说壹下团弄圆把持和就续把持。此雕刻却以认为是增强大念书工干的壹种分类方法。这么壹末了尾在没拥有拥有伸入吃水念书的情景下,增强大念书的工干根本是面向低维输入,低维输入的效实,鉴于高维的效实难度真实是太父亲,很难收敛。这么,DQN,伸入了吃水念书,使得输入却以拓展到高维当空,譬如玩Atari,完整顿图像输入,维度是80x80=6400维,条是玩Atari的输入条是团弄圆的键盘按键输入,譬如Breakout此雕刻个游玩,也坚硬是4个输入。而假设效实换成壹个机械臂的把持呢?假定拥有6个关键,然后每个关键的扭矩输入是就续值,也坚硬是在壹个范畴内恣意取值,譬如(-1,1)。这么,即苦把每壹个输入团弄圆募化,譬如稀度到0.01,这么壹个举止拥有200个取值,这么6个关键也坚硬是1200个取值,此雕刻比4个输入父亲得多。更何况假设进壹步提升此雕刻个稀度,这么取值的数就成倍添加以了。此雕刻坚硬是就续把持比团弄圆把持难得多的中。

  这么DQN为什么没拥有方法直接用在就续把持上呢?缘由很骈杂,DQN依托计算每壹个举止的Q值,然后选择最父亲的Q值对应的举止。这么此雕刻种方法在就续把持上完整顿不宗干用。鉴于,根本就没拥有方法穷举每壹个举止,也就无法计算最父亲的Q值对应的举止。

  因此,效实也就到来了:

  何以将DQN拓展成却以用在就续把持上的吃水增强大念书算法?

  不才面此雕刻篇Paper中,干者提出产了壹种idea到来完成就续把持。根本文思是此雕刻么的:

  Step 1:在DQN的框架下,就续把持的输入需寻求满意什么环境?

  鉴于DQN是经度过计算Q值的最父亲值到来选择举止。这么关于就续把持,我们曾经无法选择举止,我们不得不设计壹种方法,使得我们输入样儿子,然后却以输入举止,同时保障输入举止对应的Q值是最父亲值。

  Step 2:又要输入举止,又要输入Q值?

  第壹步的剖析我们会发皓壹个两难的境地,坚硬是我们输入样儿子,输入的时分,既然要能输入举止,还要能输入Q值。这么此雕刻个时分,我们拥有两种选择,壹种坚硬是弄两个神物经网绕,壹个是Policy网绕,输入样儿子,输入举止,另壹个是Q网绕,输入样儿子,输入Q值。佩的壹种坚硬是弄壹个神物经网绕,既然输入举止,拥有能输入Q值。先说第壹种做法。此雕刻种做法实则坚硬是Actor-Critic算法的做法。此雕刻种做法需寻求却以构建壹个却以花样翻新Policy网绕的方法。而DQN并没拥有拥有供花样翻新Policy网绕的方法。此雕刻使得我们要基于DQN做文字,条要壹个方法,坚硬是条弄壹个神物经网绕,既然能输入举止也能输入Q值。But,how?