May 23, 2024Open Access

LOVA3: Aprendizado para Resposta, Formulação e Avaliação de Perguntas Visuais

Key Points

Key points are not available for this paper at this time.

Abstract

Responder, formular e avaliar perguntas são três características humanas inatas cruciais para entender o mundo e adquirir conhecimento. Ao aprimorar essas capacidades, os humanos podem utilizar os dados de forma mais eficaz, levando a uma melhor compreensão e resultados de aprendizagem. No entanto, os atuais Modelos de Linguagem Multimodal de Grande Porte (MLLMs) focam principalmente em responder perguntas, frequentemente negligenciando o potencial completo das habilidades de questionamento e avaliação. Neste estudo, apresentamos o LOVA3, uma estrutura inovadora denominada ``Learning tO Visual Question Answering, Asking and Assessment'', projetada para equipar os MLLMs com essas capacidades adicionais. Nossa abordagem envolve a criação de duas tarefas suplementares de treinamento, GenQA e EvalQA, visando fomentar as habilidades de formular e avaliar perguntas no contexto de imagens. Para desenvolver a capacidade de questionamento, compilamos um conjunto abrangente de tarefas fundamentais multimodais. Para avaliação, introduzimos um novo benchmark chamado EvalQABench, que compreende 64.000 amostras de treinamento (divididas igualmente entre amostras positivas e negativas) e 5.000 amostras de teste. Propomos que aprimorar os MLLMs com as capacidades de responder, perguntar e avaliar perguntas melhorará sua compreensão multimodal e levará a um desempenho superior. Validamos nossa hipótese treinando um MLLM usando a estrutura LOVA3 e testando-o em 10 benchmarks multimodais. Os resultados demonstram melhorias consistentes de desempenho, confirmando a eficácia de nossa abordagem.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Henry Hengyuan Zhao

Pan Zhou

Difei Gao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LOVA3: Aprendizado para Resposta, Formulação e Avaliação de Perguntas Visuais

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study