2019-01-01から1年間の記事一覧

Directed-info GAIL:階層型敵対模倣学習の論文を読む

以前GAILに潜在変数によるモードを考慮したinfo GAILの論文を読みました. neuralnetandroid.hatenablog.com この手法ではInfoGANのしくみをGAILに取り入れることで,複数の方策が混合されたデモンストレーションデータを それぞれの方策を区別して学習を行…

初期方策から最適方策との差分を学ぶ強化学習 Residual Policy Learning

Residual Policy Learningという,モデルフリー強化学習による初期方策の最適化を試みた非常にシンプルな手法を提案している論文があったのでまとめてみました. 元の論文はこちら↓ https://arxiv.org/abs/1812.06298 概要 この論文では,ヒューリスティック…

ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む

T-REXというまたかわいい(?)名前の逆強化学習アルゴリズムが発表されたので読んでみました.ざっくり読んだ際のメモなので間違い等はご指摘ください. 本文はこちらです↓↓. Extrapolating beyond suboptimal Demonstrations via Inverse Reinforcement Lear…