January 1, 2004

逆強化学習による徒弟学習

Key Points

Key points are not available for this paper at this time.

Abstract

報酬関数が明示的に与えられないマルコフ決定過程における学習を考えます。代わりに、学習したいタスクを実演する専門家の行動を観察することができます。この設定は、運転のタスクのように異なる要望をどのようにトレードオフするかを正確に指定する明示的な報酬関数を記述することが難しい応用に有用です。専門家は既知の特徴の線形結合として表現可能な報酬関数を最大化しようとしていると考え、専門家によって示されたタスクを学習するアルゴリズムを提案します。私たちのアルゴリズムは「逆強化学習」を用いて未知の報酬関数を推定しようとします。アルゴリズムが少数の反復で終了すること、専門家の報酬関数を正確に回復できなくとも、アルゴリズムによって得られる方策の性能は専門家の未知の報酬関数に関して専門家と近い性能を達成することを示します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Pieter Abbeel

Andrew Y. Ng

Actions

Institutions

Stanford University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

逆強化学習による徒弟学習

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider