Key points are not available for this paper at this time.
멀티모달 대형 언어 모델(MLLM)은 이미지, 비디오, 오디오 등 다양한 모달리티에서 여러 이해 및 생성 과제에 걸쳐 인상적인 성과를 보여왔습니다. 하지만 현재의 MLLM은 웹페이지 스크린샷을 이해하고 이에 대응하는 HTML 코드를 생성하는 데 예상외로 낮은 성능을 보입니다. 이 문제를 해결하기 위해, 우리는 MLLM의 웹페이지 이해 및 HTML 코드 변환 능력을 평가할 수 있는 새로운 대규모 웹페이지-코드 데이터셋과 평가 프레임워크로 구성된 벤치마크 Web2Code를 제안합니다. 데이터셋 구축을 위해, 우리는 사전학습된 LLM을 활용하여 기존의 웹페이지-코드 데이터셋을 개선하고 이미지로 렌더링된 다양한 새로운 웹페이지 풀을 생성합니다. 구체적으로 입력은 웹페이지 이미지와 지시문이며, 응답은 웹페이지의 HTML 코드입니다. 또한, 웹 콘텐츠를 보다 포괄적으로 이해할 수 있도록 응답에 웹페이지 내용에 관한 다양한 자연어 QA 쌍을 포함합니다. 모델 성능 평가를 위해 웹페이지 이해 및 웹-코드 생성 능력을 테스트하는 평가 프레임워크를 개발하였습니다. 광범위한 실험 결과, 제안된 데이터셋은 제안된 과제뿐 아니라 일반적인 시각 도메인에서도 유용하며, 기존 데이터셋은 오히려 성능 저하를 초래함을 보여줍니다. 본 연구가 웹 기반 콘텐츠 생성 및 작업 자동화에 적합한 일반 MLLM 개발에 기여하기를 기대합니다. 데이터와 코드는 https://github.com/MBZUAI-LLM/web2code 에서 제공될 예정입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sukmin Yun
Haokun Lin
Rusiru Thushara
Building similarity graph...
Analyzing shared references across papers
Loading...
Yun 외(금요일,)가 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68e62e92b6db6435875c05ec — DOI: https://doi.org/10.48550/arxiv.2406.20098
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: