Key points are not available for this paper at this time.
Responder, formular e avaliar perguntas são três características humanas inatas cruciais para entender o mundo e adquirir conhecimento. Ao aprimorar essas capacidades, os humanos podem utilizar os dados de forma mais eficaz, levando a uma melhor compreensão e resultados de aprendizagem. No entanto, os atuais Modelos de Linguagem Multimodal de Grande Porte (MLLMs) focam principalmente em responder perguntas, frequentemente negligenciando o potencial completo das habilidades de questionamento e avaliação. Neste estudo, apresentamos o LOVA3, uma estrutura inovadora denominada ``Learning tO Visual Question Answering, Asking and Assessment'', projetada para equipar os MLLMs com essas capacidades adicionais. Nossa abordagem envolve a criação de duas tarefas suplementares de treinamento, GenQA e EvalQA, visando fomentar as habilidades de formular e avaliar perguntas no contexto de imagens. Para desenvolver a capacidade de questionamento, compilamos um conjunto abrangente de tarefas fundamentais multimodais. Para avaliação, introduzimos um novo benchmark chamado EvalQABench, que compreende 64.000 amostras de treinamento (divididas igualmente entre amostras positivas e negativas) e 5.000 amostras de teste. Propomos que aprimorar os MLLMs com as capacidades de responder, perguntar e avaliar perguntas melhorará sua compreensão multimodal e levará a um desempenho superior. Validamos nossa hipótese treinando um MLLM usando a estrutura LOVA3 e testando-o em 10 benchmarks multimodais. Os resultados demonstram melhorias consistentes de desempenho, confirmando a eficácia de nossa abordagem.
Building similarity graph...
Analyzing shared references across papers
Loading...
Henry Hengyuan Zhao
Pan Zhou
Difei Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Qui,) estudaram esta questão.
www.synapsesocial.com/papers/68e68d03b6db643587614ea2 — DOI: https://doi.org/10.48550/arxiv.2405.14974