Key points are not available for this paper at this time.
멀티모달 대형 언어 모델(MLLM)은 다양한 멀티모달 작업에서 인상적인 성과를 보여주고 있습니다. 하지만 기존의 대부분 MLLM은 세밀한 이미지 인식과 정보 압축이 요구되는 문서 중심 작업에는 적합하지 않습니다. 본 논문에서는 문서 중심 작업을 위해 특별히 설계된 MLLM인 TextHawk를 소개하며, 동시에 MLLM의 일반적인 능력도 유지합니다. TextHawk는 네 가지 전용 구성 요소를 설계하여 효율적인 세밀 인식을 탐구합니다. 먼저, 문서 텍스트의 중복을 줄이고 MLLM의 계산 비용을 낮추기 위해 ReSampling and ReArrangement (ReSA) 모듈을 제안합니다. 다양한 이미지 크기의 확장성을 보존할 수 있는 Scalable Positional Embeddings (SPEs)를 통해 각 로컬 특징의 위치 인코딩을 탐구합니다. 이어서 Query Proposal Network (QPN)를 채택하여 서로 다른 하위 이미지들 간에 쿼리를 동적으로 초기화합니다. MLLM의 세밀한 시각 인식 능력을 더욱 향상시키기 위해 문서 이미지의 계층 구조 및 의미 관계를 포착하는 Multi-Level Cross-Attention (MLCA) 메커니즘을 설계했습니다. 또한 Gemini Pro로 멀티모달 문서 데이터를 풍부하게 하여 문서 중심 작업을 위한 새로운 지시-튜닝 데이터셋을 생성했습니다. 일반 및 문서 중심 MLLM 벤치마크에서 광범위한 실험을 수행한 결과, TextHawk가 최첨단 방법들을 능가하여 세밀한 문서 인식 및 일반 능력에서의 효과성과 우수성을 입증했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yaqi Yu
Minghui Liao
Jihao Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Yu 등(Sun,)은 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e6f3b7b6db64358766eabb — DOI: https://doi.org/10.48550/arxiv.2404.09204
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: