March 27, 2024Open Access

Mini-Gemini：挖掘多模态视觉语言模型的潜力

Key Points

Key points are not available for this paper at this time.

Abstract

在本工作中，我们介绍了Mini-Gemini，一种简单且有效的多模态视觉语言模型（VLM）增强框架。尽管VLM在促进基础视觉对话和推理方面取得了进展，但与GPT-4和Gemini等先进模型相比，性能仍存在差距。我们尝试通过从三个方面挖掘VLM的潜力，提升性能并实现任意到任意的工作流，即高分辨率视觉标记、高质量数据和VLM引导生成。为了增强视觉标记，我们提出利用附加的视觉编码器进行高分辨率细化，而不增加视觉标记数量。我们还构建了一个高质量数据集，促进精确的图像理解和基于推理的生成，扩大了当前VLM的操作范围。总体而言，Mini-Gemini进一步挖掘了VLM的潜力，使当前框架同时具备图像理解、推理和生成能力。Mini-Gemini支持从2B到34B的一系列密集型和MoE大型语言模型（LLMs）。实验证明其在多个零样本基准测试中达到领先性能，甚至超越了开发中的私有模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yanwei Li

Yuechen Zhang

Chengyao Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mini-Gemini：挖掘多模态视觉语言模型的潜力

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider