初期方策から最適方策との差分を学ぶ強化学習 Residual Policy Learning

Residual Policy Learningという,モデルフリー強化学習による初期方策の最適化を試みた非常にシンプルな手法を提案している論文があったのでまとめてみました.

元の論文はこちら↓

https://arxiv.org/abs/1812.06298

概要

この論文では,ヒューリスティックに設計した初期方策π(s)と理想方策π*(s)との残差を,強化学習を用いて最適化するResidual Policy Learning(RPL)という手法を提案している.

ロボットアーム制御において強化学習を用いて方策を獲得する場合,できるだけ少ない試行で方策を獲得することが求められる. これに対して,デモンストレーションを用いたり,モデルベース強化学習を用いる手法などがある. RPLは,与えられたタスクに対して不完全な制御方策が得られている場合を想定し,与えられた初期方策を改善していくことで,少ない試行回数で適切な方策を獲得することを実現する手法である.

百聞は一見に如かずといいますしとりあえずこの動画↓を見てみるとわかりやすい.


Residual Policy Learning

具体的な手法

提案手法となるRPLでは,初期方策と最適方策の残差関数fθ(s)を更新することで目的となる方策を獲得する. パラメータθによって定まる方策πθ(s)は 初期方策π(s)と残差関数fθ(s)
πθ(s)=π(s)+fθ(s)
とする. この時,方策勾配はθπθ(s)=∇θfθ(s)となり,初期方策が微分不可能であったとしても方策の勾配が得られる. RPLではこの勾配をもとに従来のモデルフリー型の強化学習手法を用いて方策πθ(s)を最適化することで目的となる方策を学習する. この論文では強化学習手法としてDeep Determinic Policy Gradient(DDPG)を用いている.DDPGとは,モデルフリー方策オフ型のアクタークリティック手法であり, 連続行動空間での学習においてサンプル効率の良いことで知られる.

また、この論文で対象とするタスクはすべて,タスク達成によってのみ報酬が得られるタスクである. そのため以下の実験においてすべてにHindsight Experience Replay(HER)を用いている. HERとは,このような特定の状態に至ることを目的とするタスクにおいて, タスクが失敗した場合であっても,その試行の最終状態が目的であったと置き換えて学習を行うことで ,効率的に学習を行う手法である.

学習時の工夫として,価値関数が初期値のまま学習を開始すると,その価値関数によって方策が更新されるため悪い方向に学習が進む. そのため学習初期はfθ(s)について更新せずに価値関数のみを学習しQ関数のlossが閾値βを下回るまで続ける.

実験

実験では7自由度のロボットアームを用いて,対象物を押したり,L字のフックを使って引っ張ったりすることで 目的の位置まで移動させるタスクを用いている. 初期方策π(s)ヒューリスティックに設計された方策や,モデルベース強化学習手法によって獲得された方策を用いている. 比較対象となっているのは次の2つの手法である.

  • DDPG+HER:初期方策π(s)をまったく用いない従来手法

  • Expert Exploration: DDPG+HERにおいて,初期方策π(s)を用いて探索を行う手法

実験結果の例として,ComplexHookにおける各手法のステップ回数ごとのタスク成功率の変化は以下のグラフとなっている(論文より引用)

f:id:keiforbusy:20190621232758p:plain

 

ComlexHookではランダムに凹凸のあるテーブル上に,目的の物体とL字のフックがあるという環境を想定する. エージェントはL字のフックをつかみ,対象となる物体を引き寄せ,目的の位置(赤色の球体の位置)に移動させることを目的とするタスクである. 初期方策は,平らなテーブルで対象物は正方形のブロックである場合であれば,完全にタスクを達成できるような方策を採用している.

状態として凹凸および対象物の情報は与えられていないことには注意が必要である.

初期方策では,凹凸や目的物体が変化するとタスクを失敗する可能性がある.提案手法ではこのような初期方策をもとに,より 環境の外乱に強い方策が獲得できることがわかる.また従来手法と比較しても少ない試行数である程度高い成功率が得られていることがわかる.

 

読んだ感想と応用

RPLは初期方策π(s)が得られるという比較的厳しめな条件がある. 初期方策として,模倣学習によって得られた方策を用いれば,模倣学習のような問題設定においても活用できると考えられる.また,モデルベースの方策を初期方策として用いた場合であっても学習ができることが実験的に示されており,著者はこの手法がモデルベースとモデルフリーをつなぐ1つの手段となると主張している.

またRPLは既存の方策を調節するような手法であり,強化学習を応用できる可能性のある分野において, 既存手法から大きく異ならないような,より適切な方策を獲得するために用いることができると考えられる.