Key points are not available for this paper at this time.
O progresso notável dos Modelos de Linguagem Grandes Multimodais (MLLMs) tem atraído atenção significativa devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades em transformar uma figura visual em código executável não foram avaliadas de forma aprofundada. Para resolver isso, introduzimos o Plot2Code, um benchmark visual de codificação abrangente projetado para uma avaliação justa e detalhada dos MLLMs. Coletamos cuidadosamente 132 gráficos matplotlib de alta qualidade selecionados manualmente, abrangendo seis tipos de gráficos de galerias matplotlib publicamente disponíveis. Para cada gráfico, fornecemos cuidadosamente seu código-fonte e uma instrução descritiva resumida pelo GPT-4. Essa abordagem permite que o Plot2Code avalie extensivamente as capacidades de código dos MLLMs através de várias modalidades de entrada. Além disso, propomos três métricas automáticas de avaliação, incluindo taxa de passagem do código, taxa de correspondência de texto e avaliação geral GPT-4V, para uma avaliação detalhada do código gerado e das imagens renderizadas. Em vez de simplesmente julgar aprovação ou reprovação, empregamos o GPT-4V para fazer um julgamento geral entre as imagens geradas e de referência, o que mostrou ser consistente com a avaliação humana. Os resultados da avaliação, que incluem análises de 14 MLLMs como os proprietários GPT-4V, Gemini-Pro e o código aberto Mini-Gemini, destacam os desafios substanciais apresentados pelo Plot2Code. Com o Plot2Code, revelamos que a maioria dos MLLMs existentes enfrenta dificuldades com codificação visual para gráficos densos em texto, dependendo fortemente de instruções textuais. Esperamos que os resultados da avaliação do Plot2Code em codificação visual guiem o desenvolvimento futuro dos MLLMs. Todos os dados envolvidos com o Plot2Code estão disponíveis em https://huggingface.co/datasets/TencentARC/Plot2Code.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chengyue Wu
Yixiao Ge
Qiushan Guo
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68e6a61fb6db6435876293fa — DOI: https://doi.org/10.48550/arxiv.2405.07990
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: