ICLR2019 GAILのinteraction効率を高めたDACの論文を要約 - アンドロイドと電気羊とそれから...

ICLR2019の模倣学習Discriminator Actor-Critic(DAC)の論文を読む

ICLR2019で強化学習といえばR2D2がもてはやされていますが．GAILの改良するアプローチの論文があったので読んだ際のメモとして書いてみる．

Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning | OpenReview

ざっくりした内容

模倣学習というとGANの敵対学習を応用したGAILやそれを逆強化学習の枠組みで考えたAIRLが有名ですが，これらは試行回数効率があまりよくないという問題と，とくにGAILでは得られる報酬にバイアスがかかっているという問題があります．この問題をoffpolicyの強化学習手法を用いることと,終端状態も含めた学習をすることによってそれぞれ解決するとのことです．

本文要約メモ

読んだ内容をメモとして残してみます．読みながらメモった内容なので間違いがありましたらコメントで指摘していただけるとありがたいです．

Abstract

GAILやAIRLといったGANのアイデアを使った深層模倣逆強化学習の環境とのインタラクション効率を改善するDiscriminator-Actor-Criticを提案する

１．イントロ

模倣学習としてGAILやAIRLが台頭しているがこれらには2つ問題がある

収束までに試行回数が多数必要
得られる報酬にバイアスがかかることと，終端状態の扱い方のせいで方策が悪くなっている

１についてはMuJoCoのロボアームではTRPOで2500万，PPOにしても1000万試行必要でありoff policyの強化学習によりこれを改善する．

また，報酬の設計法により方策のパフォーマンスは大きく変わるのでその知見も取り入れる

この論文では

得られる報酬のバイアスを改善する
試行回数の削減を行う
提案するDiscriminator-Actor-Critic(DAC)のパフォーマンスを示す．

2．関連研究

気になったものを抜粋するとスパースな報酬の強化学習に模倣学習を組み合わせ効率化するというものでDeepMindとスタンフォードの論文

https://arxiv.org/abs/1802.09564

またexpertの状態遷移のみ(行動の情報を使わない)で模倣を行うBCOの論文

https://arxiv.org/abs/1807.06158

これをベースにしているみたい

３．Background

3.1マルコフ決定過程

absorbing stateについて言及

3.2逆強化学習

GAILの解説

本来GAILは状態行動対(s,a)がサンプルされる必要がありoff-policyで行うにはなんから手を加える必要があった．

４．Discriminator-Actor-Critic

4.1報酬関数内のバイアス

既存手法で得られる報酬にはバイアスがかかっている

AIRLやGMMILのバイアスは終端状態を報酬0と決めつけている(生存意欲が減る）
GAILのlogDやlog(1-D)を報酬とする場合は報酬が正か負に定まってしまっているためにタスクによっては最適方策に収束しない

4.1.1上記のバイアスの詳細説明

この章ではGAILでは報酬の時間割引率γの設定によってはGAILではエキスパートの行動一つ一つをまねることで得られる報酬を求めた結果，全体としてはエキスパートの遷移でないものになることがあるということをfig4.1を用いて示している．

またAIRLはそのGAILの報酬が正(負)だけになることを改善している一方で終端状態の報酬が０であることから生存意欲が減ること，また学習初期ではDが強く報酬が負の方向にバイアスがかかってしまうことを指摘．

4.2バイアスのない報酬関数

ここからが上記の問題の解決策となっている．DACでは終端状態(absorbing states)の部分の報酬についても学習する．

GAILのDにabsorbing statesかどうかかを示す新たな次元を与えることでabsorbing statesを学習させる．具体的にはabsorbing stateのときに１，それ以外で0となるような次元を追加する．(あまりスマートではないような気がするが，，）

4.3　sample効率について

DACではGAILが行動軌跡を使っていたのに変わって，off-policyの訓練中に得られたリプレイバッファーを用いる．(現在とはことなる過去の方策での経験も含め学習する)

式(2)では今の方策に対して過去の方策を多く使用したリプレイデータとなっているため，本来は式(3)のように重要サンプリングとすべきだが収束が難しいためこれは使われていない．

またoff-policyでの最適化手法としてTD3というアルゴリズムを使っている．

５実験

実験環境，ハイパーパラメータ，gradient penaltiesの使用などについて言及

結果としてfig4を見るとわかるがサンプル効率がすさまじく改善されている．

5.2　報酬のバイパス

GAILについて学習初期ではエキスパートの1/3のパフォーマンスでも1000もの報酬を受け取るなどおかしな点を指摘．(？)

また無学習でもランダムに比べ性能が良かったりすることから報酬の設計だけでもRLの性能は大きく変わることをfig5で示す．

fig6ではkuka環境での性能，fig7ではAIRLでの報酬設計を用いた場合にabsorbing stateの学習を行うかで性能が大きく変わることを示している．

６．結論

まとめ

従来のGAILなどからの改良点としては

サンプル効率問題をoff-policyの強化学習手法をもちいてリプレイ学習(？)を行うことで解決
報酬にかかるバイアス(GAILだとすべて正(負)となっていること)の弊害をabsorbing　states(終端状態)をふくめて学習することで防いでいる．

と読み取れました．

結果のグラフを見るとなかなかすさまじいですが実際に実験して確かめてみたいですね．