Directed-info GAIL：階層型敵対模倣学習の論文を読む

以前GAILに潜在変数によるモードを考慮したinfo GAILの論文を読みました． neuralnetandroid.hatenablog.com この手法ではInfoGANのしくみをGAILに取り入れることで，複数の方策が混合されたデモンストレーションデータをそれぞれの方策を区別して学習を行…

2019-06-21

初期方策から最適方策との差分を学ぶ強化学習　Residual Policy Learning

強化学習

Residual Policy Learningという，モデルフリー強化学習による初期方策の最適化を試みた非常にシンプルな手法を提案している論文があったのでまとめてみました．元の論文はこちら↓ https://arxiv.org/abs/1812.06298 概要この論文では，ヒューリスティック…

2019-04-30

ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む

T-REXというまたかわいい(?)名前の逆強化学習アルゴリズムが発表されたので読んでみました．ざっくり読んだ際のメモなので間違い等はご指摘ください．本文はこちらです↓↓． Extrapolating beyond suboptimal Demonstrations via Inverse Reinforcement Lear…

2018-10-31

複数の方策の混ざったexpertから複数方策を模倣学習するInfoGAIL論文の要約

強化学習-GAIL 強化学習

[1703.08840] InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations この論文のメインとしては深層模倣学習GAILの自動運転への応用であり状態をpixelデータで受け取ることデモンストレーションの方策が単一でなく複数のモードが混ざっ…

2018-10-29

【DQfD】デモンストレーションから事前学習するDQNの論文を読む

強化学習強化学習-Qlearning

スパースな報酬環境(たとえばMontezuma Revenge)での強化学習は学習が難しく，さまざまなアプローチがこころみられています．今回はデモンストレーションを用いることでこの問題に取り組んだ，論文(2017,Deepmind) [1704.03732] Deep Q-learning from Demons…

2018-10-20

ICLR2019 GAILのinteraction効率を高めたDACの論文を要約

強化学習強化学習-逆強化学習

ICLR2019の模倣学習Discriminator Actor-Critic(DAC)の論文を読む ICLR2019で強化学習といえばR2D2がもてはやされていますが．GAILの改良するアプローチの論文があったので読んだ際のメモとして書いてみる． Discriminator-Actor-Critic: Addressing Sample …

アンドロイドと電気羊とそれから...

Share the distilled Info

Directed-info GAIL：階層型敵対模倣学習の論文を読む

初期方策から最適方策との差分を学ぶ強化学習　Residual Policy Learning

ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む

複数の方策の混ざったexpertから複数方策を模倣学習するInfoGAIL論文の要約

【DQfD】デモンストレーションから事前学習するDQNの論文を読む

ICLR2019 GAILのinteraction効率を高めたDACの論文を要約

Directed-info GAIL：階層型敵対模倣学習の論文を読む

初期方策から最適方策との差分を学ぶ強化学習 Residual Policy Learning

ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む

複数の方策の混ざったexpertから複数方策を模倣学習するInfoGAIL論文の要約

【DQfD】デモンストレーションから事前学習するDQNの論文を読む

ICLR2019 GAILのinteraction効率を高めたDACの論文を要約

初期方策から最適方策との差分を学ぶ強化学習　Residual Policy Learning