Directed-info GAIL:階層型敵対模倣学習の論文を読む

以前GAILに潜在変数によるモードを考慮したinfo GAILの論文を読みました.

neuralnetandroid.hatenablog.com

この手法ではInfoGANのしくみをGAILに取り入れることで,複数の方策が混合されたデモンストレーションデータを それぞれの方策を区別して学習を行っていました.

今回読んだ論文はその仕組みを階層型強化学習的に用いたDirected-info GAILを提案しています.

[1810.01266] Directed-Info GAIL: Learning Hierarchical Policies from Unsegmented Demonstrations using Directed Information

本記事ではInfoGAILとの違いに焦点を当てた備忘録としたいと思います.

info GAILおさらい

Info GAILは異なる複数人によるデモンストレーションデータが与えられると想定し ています.このような複数の方策の混ざったデモンストレーションデータについて教師なし学習 的に潜在変数を学習し,模倣することを目的とします. 複数方策を獲得するために潜在変数c を導入し,方策関数を \pi(a|s,c) とする.この潜在変数を行動軌跡に 結び付けるためinfoGAN における考えを利用し,潜在変数c と行動軌跡τ との相互情報量 I(c;\tau) を最大 化するような項を更新則に設ける. 実際に相互情報量を直接求めることは困難なため相互情報量の変分下限を 最大化するように学習する.変分下限は


L_{I}(\pi, Q)=\mathbb{E}_{c \sim p(c), a \sim \pi(\cdot | s, c)}[\log Q(c | \tau)+H(c) \leq I(c ; \tau) ]

であり,確率密度関数Qはニューラルネットで近似し,方策と同様に学習を行う

目的関数は

f:id:keiforbusy:20191130140039p:plain

となり,D,Q,\pi,の順にGAILのように学習を行う.

Directed-info GAIL

InfoGAILではデモンストレーションの1つの軌跡に1つの同一のモードが存在するとしていました.Directetd-info GAILは,デモンストレーションを与えるエキスパートが 階層型強化学習のような,モードを決定する上位方策Q(c_t|s_t,c_{t-1})と,モードごとの下位方策\pi(a|s_t,c_t)を持つと仮定し,これを推定するように模倣する. 学習の枠組みとしてはInfoGAILと似ているが,Directed-infoGAILは上位方策Qの事前学習をVAEによって行う. これはInfoGAILは行動生成時に一様分布から潜在変数cを決定し,軌跡のサンプリングを行っていたが,Directed-Info GAILでは行動生成時に潜在変数の事前分布である上位方策Qが 必要となるからです.

また実際の学習時には事前学習したQは方策学習時には重みを固定し,方策とDiscriminatorのみを学習します. これは上位方策と下位方策を同時に学習すると学習が不安定でうまくいかないためだと考えられます.

この論文ではMujocoの2次元2足歩行環境に適応しています.

f:id:keiforbusy:20191130141710p:plain
https://arxiv.org/abs/1810.01266 より引用

この図から歩行時の右足左足,空中の3モードに教師なし的に分離できていることが確認できます. 一方で階層強化学習によく用いられるような複雑な環境には適応しておらず,そのあたりが気になるところです.

感想

模倣対象の方策に階層モデルを仮定し推定するという考えは非常に面白いと考えられます.特に上位方策というのは,模倣対象の大まかな行動戦略を表しているともいえるため, 行動系列データの解析などにも応用できないかと期待しています.しかしDirected-Info GAILでは,上位方策はVAEのみでの学習であり,これだけだと従来のEMアルゴリズムのような隠れマルコフモデルの推定手法と同じ程度の性能しか得られないと考えられます.