Key points are not available for this paper at this time.
報酬関数が明示的に与えられないマルコフ決定過程における学習を考えます。代わりに、学習したいタスクを実演する専門家の行動を観察することができます。この設定は、運転のタスクのように異なる要望をどのようにトレードオフするかを正確に指定する明示的な報酬関数を記述することが難しい応用に有用です。専門家は既知の特徴の線形結合として表現可能な報酬関数を最大化しようとしていると考え、専門家によって示されたタスクを学習するアルゴリズムを提案します。私たちのアルゴリズムは「逆強化学習」を用いて未知の報酬関数を推定しようとします。アルゴリズムが少数の反復で終了すること、専門家の報酬関数を正確に回復できなくとも、アルゴリズムによって得られる方策の性能は専門家の未知の報酬関数に関して専門家と近い性能を達成することを示します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Pieter Abbeel
Andrew Y. Ng
Stanford University
Building similarity graph...
Analyzing shared references across papers
Loading...
Abbeelら(Thu,)はこの問題を研究しました。
www.synapsesocial.com/papers/6a08a7981e0fcf4a43e8e3e4 — DOI: https://doi.org/10.1145/1015330.1015430
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: