以前GAILに潜在変数によるモードを考慮したinfo GAILの論文を読みました. neuralnetandroid.hatenablog.com この手法ではInfoGANのしくみをGAILに取り入れることで,複数の方策が混合されたデモンストレーションデータを それぞれの方策を区別して学習を行…
Residual Policy Learningという,モデルフリー強化学習による初期方策の最適化を試みた非常にシンプルな手法を提案している論文があったのでまとめてみました. 元の論文はこちら↓ https://arxiv.org/abs/1812.06298 概要 この論文では,ヒューリスティック…
T-REXというまたかわいい(?)名前の逆強化学習アルゴリズムが発表されたので読んでみました.ざっくり読んだ際のメモなので間違い等はご指摘ください. 本文はこちらです↓↓. Extrapolating beyond suboptimal Demonstrations via Inverse Reinforcement Lear…
[1703.08840] InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations この論文のメインとしては深層模倣学習GAILの自動運転への応用であり 状態をpixelデータで受け取ること デモンストレーションの方策が単一でなく複数のモードが混ざっ…
スパースな報酬環境(たとえばMontezuma Revenge)での強化学習は学習が難しく,さまざまなアプローチがこころみられています.今回はデモンストレーションを用いることでこの問題に取り組んだ,論文(2017,Deepmind) [1704.03732] Deep Q-learning from Demons…
ICLR2019の模倣学習Discriminator Actor-Critic(DAC)の論文を読む ICLR2019で強化学習といえばR2D2がもてはやされていますが.GAILの改良するアプローチの論文があったので読んだ際のメモとして書いてみる. Discriminator-Actor-Critic: Addressing Sample …