Jüngste fortgeschrittene Vision-Sprach-Modelle (VLMs) haben starke Leistungen bei passiven, Offline-Bild- und Videoverstehensaufgaben gezeigt. Ihre Effektivität in verkörperten Situationen, die Online-Interaktion und aktives Szenenverständnis erfordern, ist jedoch begrenzt. In solchen Szenarien nimmt ein Agent die Umgebung aus der Ich-Perspektive wahr, wobei jede Handlung die darauffolgenden Wahrnehmungen dynamisch gestaltet. Selbst hochmoderne Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro haben Schwierigkeiten bei Interaktionen in offenen Umgebungen und zeigen deutliche Einschränkungen im räumlichen Denken und in der langfristigen Planung. Um diese Lücke zu schließen, stellen wir EmRACE-3K vor, ein Datensatz mit über 3.000 sprachgeführten Aufgaben in vielfältigen, fotorealistischen Umgebungen, die mit der Unreal Engine und dem UnrealCV-Zoo Framework erstellt wurden. Die Aufgaben umfassen ein breites Spektrum verkörperter Herausforderungen, darunter Navigation, Objektmanipulation und mehrstufige Zielerfüllung. Jede Aufgabe entfaltet sich als mehrschrittige Sequenz, die Ich-Perspektiven-Visualisierungen mit hochrangigen Anweisungen, verankerten Aktionen und natürlichsprachlichen Begründungen kombiniert, die die Absicht des Agenten in jedem Schritt ausdrücken. Mithilfe von EmRACE-3K etablieren wir eine Benchmark zur Bewertung der verkörperten Schlussfolgerungsfähigkeiten von VLMs in drei Schlüsselbereichen: Erkundung, dynamisch-räumlich-semantisches Denken und mehrstufige Zielerfüllung. In Zero-Shot-Szenarien erreichen alle Modelle Erfolgsraten unter 20 %, was die Herausforderung unserer Benchmark und die aktuellen Einschränkungen von VLMs in interaktiven Umgebungen unterstreicht. Um den Nutzen von EmRACE-3K zu demonstrieren, verfeinern wir weiter Qwen2.5-VL-7B durch überwachtes Lernen, gefolgt von Verstärkungslernen. Dieser Ansatz führt zu erheblichen Verbesserungen in allen drei Aufgabenbereichen und zeigt die Effektivität des Datensatzes bei der Entwicklung verkörperter Denkfähigkeiten.
Building similarity graph...
Analyzing shared references across papers
Loading...
Maohui Lin
Wei Huang
Yi Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Lin et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e040eda99c246f578b3377 — DOI: https://doi.org/10.48550/arxiv.2507.10548
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: