What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

デモンストレーション強化報酬、方策、世界モデル学習を伴うマルチステージ操作

Key Points

提案フレームワークは長期課題において40％のデータ効率向上を達成し、学習の大幅な進歩を示しています。
二相性トレーニングスキームは視覚入力からの探索と学習を強化し、本手法の有効性を支えています。
DEMO3は16の多様な課題でそのアプローチを検証し、ロボット操作の課題に対する汎用性を示しています。
特に難しい課題では70％の改善を示し、デモンストレーション強化学習の堅牢性を強調しています。

Abstract

ロボット操作における長期的な課題は、密な報酬関数の設計の難しさや広範な状態・行動空間の効果的な探索の困難さから、強化学習（RL）において大きな課題となっています。しかし、密な報酬が不足しているにもかかわらず、これらの課題はしばしばマルチステージ構造を持ち、この構造を利用して全体目標を管理可能なサブゴールに分解できます。本研究では、視覚的入力からの効率的な学習のためにこの構造を活用するフレームワークDEMO3を提案します。具体的には、本手法はマルチステージ密報酬学習、二相性トレーニングスキーム、世界モデル学習を慎重に設計されたデモンストレーション強化RLフレームワークに組み込み、長期的課題における探索の課題を強力に軽減します。評価により、本手法は最新のアプローチと比べて平均40％、特に難しい課題では70％のデータ効率向上を示しました。これは、5つのデモンストレーションのみを用いた困難なヒューマノイド視覚制御タスクを含む4つのドメインにまたがる16の希薄報酬課題で検証しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Adrià López Escoriza

Nicklas Hansen

Siqi Tao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

デモンストレーション強化報酬、方策、世界モデル学習を伴うマルチステージ操作

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider