Key points are not available for this paper at this time.
O rápido desenvolvimento dos Modelos de Linguagem Grandes Multimodais (MLLMs) tem promovido uma mudança de paradigma em visão computacional, avançando para modelos fundamentais versáteis. Contudo, avaliar MLLMs na percepção e compreensão visual de baixo nível ainda é um domínio pouco explorado. Para isso, projetamos configurações de benchmark para simular respostas em linguagem humana relacionadas à visão de baixo nível: a percepção visual de baixo nível (A1) por meio de perguntas visuais relacionadas a atributos de baixo nível (ex. clareza, iluminação); e a descrição visual de baixo nível (A2), avaliando MLLMs para descrições textuais de baixo nível. Além disso, dado que a comparação pareada pode evitar melhor ambiguidades nas respostas e é adotada por muitos experimentos humanos, ampliamos as avaliações de perguntas e descrições relacionadas à percepção de baixo nível dos MLLMs de imagens únicas para pares de imagens. Especificamente, para percepção (A1), realizamos o conjunto de dados LLVisionQA+, contendo 2.990 imagens únicas e 1.999 pares de imagens, cada um acompanhado de uma pergunta aberta sobre suas características de baixo nível; para descrição (A2), propomos o conjunto LLDescribe+, avaliando MLLMs para descrições de baixo nível em 499 imagens únicas e 450 pares. Adicionalmente, avaliamos a capacidade de avaliação (A3) dos MLLMs, ou seja, predição de pontuações, utilizando uma abordagem baseada em softmax que permite a todos os MLLMs gerar avaliações quantitativas de qualidade, testadas contra opiniões humanas em 7 conjuntos de avaliação de qualidade de imagem (IQA). Com 24 MLLMs avaliados, demonstramos que vários MLLMs apresentam competências visuais de baixo nível razoáveis em imagens únicas, mas somente o GPT-4V mostra maior acurácia em comparações pareadas do que em avaliações de imagem única (como humanos). Esperamos que nosso benchmark motive pesquisas futuras para descobrir e aprimorar essas capacidades emergentes dos MLLMs. Os conjuntos de dados estarão disponíveis em https://github.com/Q-Future/Q-Bench.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zicheng Zhang
Haoning Wu
Erli Zhang
IEEE Transactions on Pattern Analysis and Machine Intelligence
Nanyang Technological University
Shanghai Jiao Tong University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e5b746b6db64358754f95d — DOI: https://doi.org/10.1109/tpami.2024.3445770
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: