Key points are not available for this paper at this time.
在本工作中,我们介绍了Mini-Gemini,一种简单且有效的多模态视觉语言模型(VLM)增强框架。尽管VLM在促进基础视觉对话和推理方面取得了进展,但与GPT-4和Gemini等先进模型相比,性能仍存在差距。我们尝试通过从三个方面挖掘VLM的潜力,提升性能并实现任意到任意的工作流,即高分辨率视觉标记、高质量数据和VLM引导生成。为了增强视觉标记,我们提出利用附加的视觉编码器进行高分辨率细化,而不增加视觉标记数量。我们还构建了一个高质量数据集,促进精确的图像理解和基于推理的生成,扩大了当前VLM的操作范围。总体而言,Mini-Gemini进一步挖掘了VLM的潜力,使当前框架同时具备图像理解、推理和生成能力。Mini-Gemini支持从2B到34B的一系列密集型和MoE大型语言模型(LLMs)。实验证明其在多个零样本基准测试中达到领先性能,甚至超越了开发中的私有模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yanwei Li
Yuechen Zhang
Chengyao Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li等人(周三)研究了这一问题。
www.synapsesocial.com/papers/68e720ddb6db64358769b12a — DOI: https://doi.org/10.48550/arxiv.2403.18814
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: