2019-06-21から1日間の記事一覧

初期方策から最適方策との差分を学ぶ強化学習　Residual Policy Learning

強化学習

Residual Policy Learningという，モデルフリー強化学習による初期方策の最適化を試みた非常にシンプルな手法を提案している論文があったのでまとめてみました．元の論文はこちら↓ https://arxiv.org/abs/1812.06298 概要この論文では，ヒューリスティック…