August 21, 2024Open Access

Q-BENCH: Um Benchmark para Modelos Fundamentais Multimodais em Visão de Baixo Nível de Imagens Únicas a Pares

Key Points

Key points are not available for this paper at this time.

Abstract

O rápido desenvolvimento dos Modelos de Linguagem Grandes Multimodais (MLLMs) tem promovido uma mudança de paradigma em visão computacional, avançando para modelos fundamentais versáteis. Contudo, avaliar MLLMs na percepção e compreensão visual de baixo nível ainda é um domínio pouco explorado. Para isso, projetamos configurações de benchmark para simular respostas em linguagem humana relacionadas à visão de baixo nível: a percepção visual de baixo nível (A1) por meio de perguntas visuais relacionadas a atributos de baixo nível (ex. clareza, iluminação); e a descrição visual de baixo nível (A2), avaliando MLLMs para descrições textuais de baixo nível. Além disso, dado que a comparação pareada pode evitar melhor ambiguidades nas respostas e é adotada por muitos experimentos humanos, ampliamos as avaliações de perguntas e descrições relacionadas à percepção de baixo nível dos MLLMs de imagens únicas para pares de imagens. Especificamente, para percepção (A1), realizamos o conjunto de dados LLVisionQA+, contendo 2.990 imagens únicas e 1.999 pares de imagens, cada um acompanhado de uma pergunta aberta sobre suas características de baixo nível; para descrição (A2), propomos o conjunto LLDescribe+, avaliando MLLMs para descrições de baixo nível em 499 imagens únicas e 450 pares. Adicionalmente, avaliamos a capacidade de avaliação (A3) dos MLLMs, ou seja, predição de pontuações, utilizando uma abordagem baseada em softmax que permite a todos os MLLMs gerar avaliações quantitativas de qualidade, testadas contra opiniões humanas em 7 conjuntos de avaliação de qualidade de imagem (IQA). Com 24 MLLMs avaliados, demonstramos que vários MLLMs apresentam competências visuais de baixo nível razoáveis em imagens únicas, mas somente o GPT-4V mostra maior acurácia em comparações pareadas do que em avaliações de imagem única (como humanos). Esperamos que nosso benchmark motive pesquisas futuras para descobrir e aprimorar essas capacidades emergentes dos MLLMs. Os conjuntos de dados estarão disponíveis em https://github.com/Q-Future/Q-Bench.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zicheng Zhang

Haoning Wu

Erli Zhang

Journals

IEEE Transactions on Pattern Analysis and Machine Intelligence

Actions

Institutions

Nanyang Technological University

Shanghai Jiao Tong University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Q-BENCH: Um Benchmark para Modelos Fundamentais Multimodais em Visão de Baixo Nível de Imagens Únicas a Pares

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider