May 13, 2024Open Access

Plot2Code: Ein umfassendes Benchmark zur Bewertung multimodaler großer Sprachmodelle bei der Codegenerierung aus wissenschaftlichen Diagrammen

Key Points

Key points are not available for this paper at this time.

Abstract

Der bemerkenswerte Fortschritt multimodaler großer Sprachmodelle (MLLMs) hat wegen ihrer überlegenen Leistung in visuellen Kontexten große Aufmerksamkeit erregt. Ihre Fähigkeit, visuelle Grafiken in ausführbaren Code umzusetzen, wurde jedoch bisher nicht gründlich evaluiert. Um dem zu begegnen, stellen wir Plot2Code vor, ein umfassendes Benchmark für visuelles Codieren, das für eine faire und tiefgehende Bewertung von MLLMs konzipiert ist. Wir haben sorgfältig 132 manuell ausgewählte hochwertige matplotlib-Diagramme aus sechs Diagrammtypen aus öffentlichen matplotlib-Galerien gesammelt. Für jedes Diagramm stellen wir den Quellcode sowie eine von GPT-4 zusammengefasste beschreibende Anweisung bereit. Dieser Ansatz ermöglicht es Plot2Code, die Codefähigkeiten von MLLMs über verschiedene Eingabemodalitäten hinweg umfassend zu bewerten. Zudem schlagen wir drei automatische Bewertungsmetriken vor, darunter Code-Durchlaufquote, Textübereinstimmungsrate und die Gesamtbewertung von GPT-4V, für eine feingliedrige Bewertung des ausgegebenen Codes und der gerenderten Bilder. Anstatt nur bestanden oder nicht bestanden zu beurteilen, verwenden wir GPT-4V für eine Gesamtbewertung zwischen generierten und Referenzbildern, die sich als mit menschlicher Bewertung konsistent erwiesen hat. Die Bewertungsergebnisse, einschließlich Analysen von 14 MLLMs wie dem proprietären GPT-4V, Gemini-Pro und dem Open-Source Mini-Gemini, heben die erheblichen Herausforderungen hervor, die Plot2Code darstellt. Mit Plot2Code zeigen wir, dass die meisten bestehenden MLLMs bei visuellem Codieren von textdichten Diagrammen Schwierigkeiten haben und stark auf textuelle Anweisungen angewiesen sind. Wir hoffen, dass die Bewertungsergebnisse von Plot2Code zum visuellen Codieren die zukünftige Entwicklung von MLLMs leiten werden. Alle mit Plot2Code verbundenen Daten sind verfügbar unter https://huggingface.co/datasets/TencentARC/Plot2Code.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chengyue Wu

Yixiao Ge

Qiushan Guo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Plot2Code: Ein umfassendes Benchmark zur Bewertung multimodaler großer Sprachmodelle bei der Codegenerierung aus wissenschaftlichen Diagrammen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider