Key points are not available for this paper at this time.
Der bemerkenswerte Fortschritt multimodaler großer Sprachmodelle (MLLMs) hat wegen ihrer überlegenen Leistung in visuellen Kontexten große Aufmerksamkeit erregt. Ihre Fähigkeit, visuelle Grafiken in ausführbaren Code umzusetzen, wurde jedoch bisher nicht gründlich evaluiert. Um dem zu begegnen, stellen wir Plot2Code vor, ein umfassendes Benchmark für visuelles Codieren, das für eine faire und tiefgehende Bewertung von MLLMs konzipiert ist. Wir haben sorgfältig 132 manuell ausgewählte hochwertige matplotlib-Diagramme aus sechs Diagrammtypen aus öffentlichen matplotlib-Galerien gesammelt. Für jedes Diagramm stellen wir den Quellcode sowie eine von GPT-4 zusammengefasste beschreibende Anweisung bereit. Dieser Ansatz ermöglicht es Plot2Code, die Codefähigkeiten von MLLMs über verschiedene Eingabemodalitäten hinweg umfassend zu bewerten. Zudem schlagen wir drei automatische Bewertungsmetriken vor, darunter Code-Durchlaufquote, Textübereinstimmungsrate und die Gesamtbewertung von GPT-4V, für eine feingliedrige Bewertung des ausgegebenen Codes und der gerenderten Bilder. Anstatt nur bestanden oder nicht bestanden zu beurteilen, verwenden wir GPT-4V für eine Gesamtbewertung zwischen generierten und Referenzbildern, die sich als mit menschlicher Bewertung konsistent erwiesen hat. Die Bewertungsergebnisse, einschließlich Analysen von 14 MLLMs wie dem proprietären GPT-4V, Gemini-Pro und dem Open-Source Mini-Gemini, heben die erheblichen Herausforderungen hervor, die Plot2Code darstellt. Mit Plot2Code zeigen wir, dass die meisten bestehenden MLLMs bei visuellem Codieren von textdichten Diagrammen Schwierigkeiten haben und stark auf textuelle Anweisungen angewiesen sind. Wir hoffen, dass die Bewertungsergebnisse von Plot2Code zum visuellen Codieren die zukünftige Entwicklung von MLLMs leiten werden. Alle mit Plot2Code verbundenen Daten sind verfügbar unter https://huggingface.co/datasets/TencentARC/Plot2Code.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chengyue Wu
Yixiao Ge
Qiushan Guo
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e6a61fb6db6435876293fa — DOI: https://doi.org/10.48550/arxiv.2405.07990
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: