August 10, 2024Open Access

시각 언어 모델을 이용한 다중 에이전트 계획

Key Points

Key points are not available for this paper at this time.

Abstract

Large Language Models(LLMs) 및 Visual Language Models(VLMs)는 성능 향상과 다양한 영역 및 작업에서의 응용으로 인해 점점 더 큰 관심을 받고 있습니다. 그러나 문제 영역에 대한 깊은 이해가 요구될 때 LLM 및 VLM은 오류를 발생시키기 쉽습니다. 예를 들어, 계획 수립과 지각이 동시에 필요할 때, 이들 모델은 다중 모달 정보를 통합하는 데 어려움을 겪는 경우가 많습니다. 이를 해결하기 위해 보통 특수한 환경 데이터 구조를 사용하여 미세 조정된 모델이 활용됩니다. 하지만 이 방식은 처리를 위한 맥락을 지나치게 복잡하게 만들어 효과가 제한적입니다. 본 논문에서는 특정 데이터 구조 입력 없이 작동하는 화신된 작업 계획을 위한 다중 에이전트 아키텍처를 제안합니다. 대신 환경의 단일 이미지를 사용하며, 상식 지식을 활용하여 자유 형식 도메인을 처리합니다. 또한 계획의 질을 더 잘 평가하기 위해 PG2S라는 완전 자동 평가 절차를 새롭게 도입했습니다. 유명한 ALFRED 데이터셋을 사용해 본 접근법을 검증하였고, 생성된 계획의 질 평가를 위해 기존 KAS 지표와 PG2S를 비교하였습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Michele Brienza

Francesco Argenziano

Vincenzo Suriani

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

시각 언어 모델을 이용한 다중 에이전트 계획

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider