Key points are not available for this paper at this time.
Large Language Models(LLMs) 및 Visual Language Models(VLMs)는 성능 향상과 다양한 영역 및 작업에서의 응용으로 인해 점점 더 큰 관심을 받고 있습니다. 그러나 문제 영역에 대한 깊은 이해가 요구될 때 LLM 및 VLM은 오류를 발생시키기 쉽습니다. 예를 들어, 계획 수립과 지각이 동시에 필요할 때, 이들 모델은 다중 모달 정보를 통합하는 데 어려움을 겪는 경우가 많습니다. 이를 해결하기 위해 보통 특수한 환경 데이터 구조를 사용하여 미세 조정된 모델이 활용됩니다. 하지만 이 방식은 처리를 위한 맥락을 지나치게 복잡하게 만들어 효과가 제한적입니다. 본 논문에서는 특정 데이터 구조 입력 없이 작동하는 화신된 작업 계획을 위한 다중 에이전트 아키텍처를 제안합니다. 대신 환경의 단일 이미지를 사용하며, 상식 지식을 활용하여 자유 형식 도메인을 처리합니다. 또한 계획의 질을 더 잘 평가하기 위해 PG2S라는 완전 자동 평가 절차를 새롭게 도입했습니다. 유명한 ALFRED 데이터셋을 사용해 본 접근법을 검증하였고, 생성된 계획의 질 평가를 위해 기존 KAS 지표와 PG2S를 비교하였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Michele Brienza
Francesco Argenziano
Vincenzo Suriani
Building similarity graph...
Analyzing shared references across papers
Loading...
Brienza 등(Sat,)은 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5cc78b6db64358756346e — DOI: https://doi.org/10.48550/arxiv.2408.05478
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: