What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

EmbRACE-3K: Verkörpertes Schlussfolgern und Handeln in komplexen Umgebungen

Key Points

Erfolgsraten für VLMs in Zero-Shot-Szenarien liegen unter 20 % und zeigen erhebliche Herausforderungen in interaktiven Umgebungen auf.
Über 3.000 sprachgeführte Aufgaben in vielfältigen Umgebungen wurden entwickelt, um verkörperte Schlussfolgerungsfähigkeiten zu testen.
Überwachtes Lernen und Verstärkungslernen an Qwen2.5-VL-7B führten zu beträchtlichen Verbesserungen bei Navigations- und Objektmanipulationsaufgaben.
Die Studie hebt die Einschränkungen aktueller Vision-Sprach-Modelle in komplexen, dynamischen Umgebungen hervor und zielt darauf ab, diese zu adressieren.

Abstract

Jüngste fortgeschrittene Vision-Sprach-Modelle (VLMs) haben starke Leistungen bei passiven, Offline-Bild- und Videoverstehensaufgaben gezeigt. Ihre Effektivität in verkörperten Situationen, die Online-Interaktion und aktives Szenenverständnis erfordern, ist jedoch begrenzt. In solchen Szenarien nimmt ein Agent die Umgebung aus der Ich-Perspektive wahr, wobei jede Handlung die darauffolgenden Wahrnehmungen dynamisch gestaltet. Selbst hochmoderne Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro haben Schwierigkeiten bei Interaktionen in offenen Umgebungen und zeigen deutliche Einschränkungen im räumlichen Denken und in der langfristigen Planung. Um diese Lücke zu schließen, stellen wir EmRACE-3K vor, ein Datensatz mit über 3.000 sprachgeführten Aufgaben in vielfältigen, fotorealistischen Umgebungen, die mit der Unreal Engine und dem UnrealCV-Zoo Framework erstellt wurden. Die Aufgaben umfassen ein breites Spektrum verkörperter Herausforderungen, darunter Navigation, Objektmanipulation und mehrstufige Zielerfüllung. Jede Aufgabe entfaltet sich als mehrschrittige Sequenz, die Ich-Perspektiven-Visualisierungen mit hochrangigen Anweisungen, verankerten Aktionen und natürlichsprachlichen Begründungen kombiniert, die die Absicht des Agenten in jedem Schritt ausdrücken. Mithilfe von EmRACE-3K etablieren wir eine Benchmark zur Bewertung der verkörperten Schlussfolgerungsfähigkeiten von VLMs in drei Schlüsselbereichen: Erkundung, dynamisch-räumlich-semantisches Denken und mehrstufige Zielerfüllung. In Zero-Shot-Szenarien erreichen alle Modelle Erfolgsraten unter 20 %, was die Herausforderung unserer Benchmark und die aktuellen Einschränkungen von VLMs in interaktiven Umgebungen unterstreicht. Um den Nutzen von EmRACE-3K zu demonstrieren, verfeinern wir weiter Qwen2.5-VL-7B durch überwachtes Lernen, gefolgt von Verstärkungslernen. Dieser Ansatz führt zu erheblichen Verbesserungen in allen drei Aufgabenbereichen und zeigt die Effektivität des Datensatzes bei der Entwicklung verkörperter Denkfähigkeiten.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Maohui Lin

Wei Huang

Yi Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

EmbRACE-3K: Verkörpertes Schlussfolgern und Handeln in komplexen Umgebungen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider