May 13, 2024Open Access

Plot2Code: Um Benchmark Abrangente para Avaliação de Modelos de Linguagem Grandes Multimodais na Geração de Código a partir de Gráficos Científicos

Key Points

Key points are not available for this paper at this time.

Abstract

O progresso notável dos Modelos de Linguagem Grandes Multimodais (MLLMs) tem atraído atenção significativa devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades em transformar uma figura visual em código executável não foram avaliadas de forma aprofundada. Para resolver isso, introduzimos o Plot2Code, um benchmark visual de codificação abrangente projetado para uma avaliação justa e detalhada dos MLLMs. Coletamos cuidadosamente 132 gráficos matplotlib de alta qualidade selecionados manualmente, abrangendo seis tipos de gráficos de galerias matplotlib publicamente disponíveis. Para cada gráfico, fornecemos cuidadosamente seu código-fonte e uma instrução descritiva resumida pelo GPT-4. Essa abordagem permite que o Plot2Code avalie extensivamente as capacidades de código dos MLLMs através de várias modalidades de entrada. Além disso, propomos três métricas automáticas de avaliação, incluindo taxa de passagem do código, taxa de correspondência de texto e avaliação geral GPT-4V, para uma avaliação detalhada do código gerado e das imagens renderizadas. Em vez de simplesmente julgar aprovação ou reprovação, empregamos o GPT-4V para fazer um julgamento geral entre as imagens geradas e de referência, o que mostrou ser consistente com a avaliação humana. Os resultados da avaliação, que incluem análises de 14 MLLMs como os proprietários GPT-4V, Gemini-Pro e o código aberto Mini-Gemini, destacam os desafios substanciais apresentados pelo Plot2Code. Com o Plot2Code, revelamos que a maioria dos MLLMs existentes enfrenta dificuldades com codificação visual para gráficos densos em texto, dependendo fortemente de instruções textuais. Esperamos que os resultados da avaliação do Plot2Code em codificação visual guiem o desenvolvimento futuro dos MLLMs. Todos os dados envolvidos com o Plot2Code estão disponíveis em https://huggingface.co/datasets/TencentARC/Plot2Code.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chengyue Wu

Yixiao Ge

Qiushan Guo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Plot2Code: Um Benchmark Abrangente para Avaliação de Modelos de Linguagem Grandes Multimodais na Geração de Código a partir de Gráficos Científicos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider