Key points are not available for this paper at this time.
경쟁적 토론은 복잡한 계산 논증 과제입니다. 대형 언어 모델(LLM)은 환각 현상을 겪고 이 분야에서 경쟁력이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 경쟁적 토론에서의 역량을 강화하기 위해 설계된 LLM 기반의 동적 다중 에이전트 프레임워크인 Agent4Debate를 소개합니다. 인간의 토론 준비 및 실행 행동에서 영감을 얻어, Agent4Debate는 Searcher, Analyzer, Writer, Reviewer의 네 가지 전문화된 에이전트가 동적으로 상호작용하고 협력하는 협업 아키텍처를 사용합니다. 이 에이전트들은 초기 연구와 주장 구성부터 반박 및 요약에 이르기까지 토론 과정 전반에 걸쳐 작동합니다. 프레임워크 성능을 포괄적으로 평가하기 위해, 신중하게 선별한 66개의 중국어 토론 주제로 구성된 Competitive Debate Arena를 구축했습니다. 10명의 경험 많은 인간 토론자를 모집하고, Agent4Debate, 기본 모델, 인간이 참여한 200건의 토론 기록을 수집했습니다. 평가는 Debatrix 자동 채점 시스템과 Debatrix-Elo 및 Human-Elo 랭킹을 기반으로 한 전문 인간 평가자를 사용합니다. 실험 결과 최첨단 Agent4Debate는 인간과 동등한 수준의 역량을 보여주었으며, 추가 연구에서는 에이전트 구조의 각 구성 요소의 효과가 입증되었습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yiqun Zhang
Xiaocui Yang
Feng Shi
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(Thu,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5d23bb6db643587567e57 — DOI: https://doi.org/10.48550/arxiv.2408.04472
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: