우리는 여덟 개의 공개적으로 접근 가능한 최첨단 언어 모델 배포판이 AI 지원 인간 인지 에이전시 저하 감지에 관한 공유 기술 모션을 독립적으로 분석한, 구조화된 3라운드 심의 집회를 보고한다. 심의를 모션 자체에 대한 합의 도달 메커니즘으로 간주하기보다는, 추론 아키텍처, 도구 통합 깊이, 불확실성 하의 인식적 정직성, 반증 가능성 약속, 신규 신호 생성 등 관찰 가능한 모델 능력을 이끌어내고 비교하는 도구로서 분석한다. 세 라운드와 한 차례 교차 수분기 과정을 통해 기존 벤치마크 기반 평가로 포착되지 않는 체계적인 능력 격차를 확인하였다. 우리는 모델들이 수렴 압력이 가해지기 전 독립적으로 응답하는 **구조화된 심의**를 오늘날 능력 매핑을 위한 벤치마크 세트의 보완적 방법론으로 제안한다. 주요 발견은 최첨단 모델 간 가장 진단적으로 정보 제공이 되는 차이는 사실 회상이나 작업 완수가 아니라, 각 모델이 서술에서 확약으로 전환하는 방식과 요구되지 않은 상황에서도 차단 우려로 독립적으로 선택하는 항목에서 나타난다는 것이다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Pack3t C0nc3pts
Building similarity graph...
Analyzing shared references across papers
Loading...
Pack3t C0nc3pts (Sat,)가 이 질문을 연구했다.
www.synapsesocial.com/papers/699ba07072792ae9fd87009e — DOI: https://doi.org/10.5281/zenodo.18723977
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: