Key points are not available for this paper at this time.
우리는 시각 인식, 이해 및 생성을 하나의 프레임워크 내에서 통합하는 종단 간 범용 멀티모달 대형 모델(MLLM)인 VisionLLM v2를 소개합니다. 텍스트 출력에 제한된 전통적인 MLLM과 달리, VisionLLM v2는 적용 범위를 크게 확장합니다. 이 모델은 기존의 시각 질문 응답(VQA)뿐만 아니라 객체 위치 추정, 자세 추정, 이미지 생성 및 편집과 같은 개방형 교차 도메인 비전 작업에서도 뛰어납니다. 이를 위해 MLLM과 작업별 디코더를 연결하는 매개체로서 '슈퍼 링크(super link)'라는 새로운 정보 전달 메커니즘을 제안합니다. 이 메커니즘은 MLLM과 여러 후속 디코더 사이의 작업 정보 및 그래디언트 피드백의 유연한 전달을 가능하게 할 뿐만 아니라 다중 작업 환경에서의 학습 충돌을 효과적으로 해결합니다. 또한 다양한 작업을 지원하기 위해 수백 개의 공개 비전 및 비전-언어 작업에서 신중하게 학습 데이터를 수집하고 정리하였습니다. 이를 통해 우리 모델은 수백 개의 비전 언어 작업에서 종단 간 공동 학습이 가능하며, 서로 다른 사용자 프롬프트를 통해 공유 파라미터 집합을 사용하여 이러한 작업에 일반화할 수 있어 작업별 모델과 견줄 만한 성능을 달성합니다. 우리는 VisionLLM v2가 MLLM의 일반화에 대해 새로운 관점을 제공할 것이라 믿습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiannan Wu
Muyan Zhong
Sen Xing
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu 외(Wed,)가 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e650a0b6db6435875e0ca6 — DOI: https://doi.org/10.48550/arxiv.2406.08394
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: