June 28, 2024Open Access

Web2Code: 멀티모달 LLM을 위한 대규모 웹페이지-코드 데이터셋 및 평가 프레임워크

Key Points

Key points are not available for this paper at this time.

Abstract

멀티모달 대형 언어 모델(MLLM)은 이미지, 비디오, 오디오 등 다양한 모달리티에서 여러 이해 및 생성 과제에 걸쳐 인상적인 성과를 보여왔습니다. 하지만 현재의 MLLM은 웹페이지 스크린샷을 이해하고 이에 대응하는 HTML 코드를 생성하는 데 예상외로 낮은 성능을 보입니다. 이 문제를 해결하기 위해, 우리는 MLLM의 웹페이지 이해 및 HTML 코드 변환 능력을 평가할 수 있는 새로운 대규모 웹페이지-코드 데이터셋과 평가 프레임워크로 구성된 벤치마크 Web2Code를 제안합니다. 데이터셋 구축을 위해, 우리는 사전학습된 LLM을 활용하여 기존의 웹페이지-코드 데이터셋을 개선하고 이미지로 렌더링된 다양한 새로운 웹페이지 풀을 생성합니다. 구체적으로 입력은 웹페이지 이미지와 지시문이며, 응답은 웹페이지의 HTML 코드입니다. 또한, 웹 콘텐츠를 보다 포괄적으로 이해할 수 있도록 응답에 웹페이지 내용에 관한 다양한 자연어 QA 쌍을 포함합니다. 모델 성능 평가를 위해 웹페이지 이해 및 웹-코드 생성 능력을 테스트하는 평가 프레임워크를 개발하였습니다. 광범위한 실험 결과, 제안된 데이터셋은 제안된 과제뿐 아니라 일반적인 시각 도메인에서도 유용하며, 기존 데이터셋은 오히려 성능 저하를 초래함을 보여줍니다. 본 연구가 웹 기반 콘텐츠 생성 및 작업 자동화에 적합한 일반 MLLM 개발에 기여하기를 기대합니다. 데이터와 코드는 https://github.com/MBZUAI-LLM/web2code 에서 제공될 예정입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sukmin Yun

Haokun Lin

Rusiru Thushara

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Web2Code: 멀티모달 LLM을 위한 대규모 웹페이지-코드 데이터셋 및 평가 프레임워크

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider