What question did this study set out to answer?

本研究は、視覚言語モデルと制御フレームワークを統合することでヒューマノイドロボットの操作性を向上させることを目的としています。

May 9, 2026

ヒューマノイド全身操作のための視覚言語指導計画と制御

Key Points

本研究は、視覚言語モデルと制御フレームワークを統合することでヒューマノイドロボットの操作性を向上させることを目的としています。
視覚言語モデルと全身制御を組み合わせた階層型制御フレームワークを開発しました。
強化学習を用いてシミュレーション内で堅牢な操作行動を行うコントローラを訓練しました。
ドアの開放およびソケットの差し込みタスクでアプローチを検証しました。
堅牢な歩行方策により、操作タスクを安定的に遂行することに成功しました。
視覚言語モデルを用いて複雑な命令を実行可能なサブタスクに分解しました。
ヒューマノイドロボットにおけるデジタル知能と物理タスクの統合を強化しました。

Abstract

ヒューマノイドロボットは具現化された物理的知能の理想的なプラットフォームですが、移動操作の習得は依然として大きな課題です。Vision-Language Models（VLM）は高レベルの推論に優れていますが、複雑なロボットの動力学と統合することは困難です。本論文はこのギャップを埋める革新的な階層型制御フレームワークを提案します。我々のアプローチは、VLMを用いて曖昧な命令を実行可能なサブタスクのシーケンスに分解します。重要なのは、これらの計画を強化学習でシミュレーション訓練された全身コントローラが実行する点です。コントローラは上半身の乱れに強い堅牢な歩行方策を学習し、安定した操作行動の遂行を可能にします。我々は、困難なドア開放およびソケット差し込みタスクでフレームワークを検証し、VLMのデジタル知能とロボットの物理的知能を結びつける効果的な道筋を示します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ruixuan Jiao

Bo Zhou

Fang Fang

Journals

IET conference proceedings.

Actions

Institutions

Southeast University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ヒューマノイド全身操作のための視覚言語指導計画と制御

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider