Key points are not available for this paper at this time.
Multimodale Sprachmodelle (MLLMs) demonstrieren die aufkommenden Fähigkeiten von "Weltmodellen" – die Interpretation und das logische Denken über komplexe reale Dynamiken. Um diese Fähigkeiten zu bewerten, sehen wir Videos als das ideale Medium an, da sie reichhaltige Darstellungen realer Dynamiken und Kausalitäten umfassen. Zu diesem Zweck stellen wir MMWorld vor, einen neuen Benchmark für multidisziplinäres, facettenreiches multimodales Videoverstehen. MMWorld unterscheidet sich von bisherigen Benchmarks zum Videoverstehen durch zwei einzigartige Vorteile: (1) multidisziplinär, wobei verschiedene Disziplinen abgedeckt werden, die oft fachspezifisches Wissen für ein umfassendes Verständnis erfordern; (2) facettenreiches Denken, einschließlich Erklärung, kontrafaktischem Denken, Zukunftsvorhersage usw. MMWorld besteht aus einem menschlich annotierten Datensatz zur Bewertung von MLLMs mit Fragen zu kompletten Videos sowie einem synthetischen Datensatz zur Analyse von MLLMs innerhalb einer einzelnen Wahrnehmungsmodalität. Insgesamt umfasst MMWorld 1.910 Videos aus sieben breiten Disziplinen und 69 Unterdisziplinen, vollständig mit 6.627 Frage-Antwort-Paaren und zugehörigen Bildunterschriften. Die Bewertung umfasst 2 proprietäre und 10 Open-Source-MLLMs, die bei MMWorld Schwierigkeiten haben (z. B. erzielt GPT-4V mit nur 52,3 % Genauigkeit die beste Leistung), was großen Verbesserungsbedarf zeigt. Weitere Ablationsstudien enthüllen weitere interessante Erkenntnisse wie unterschiedliche Fähigkeitsprofile von Modellen im Vergleich zu Menschen. Wir hoffen, dass MMWorld einen wichtigen Schritt in Richtung Weltmodellbewertung in Videos darstellen kann.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xuehai He
Weixi Feng
Kaizhi Zheng
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Mittwoch,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e651cbb6db6435875e26ed — DOI: https://doi.org/10.48550/arxiv.2406.08407
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: