대규모 언어 모델(LLM)의 성장과 함께, 인간의 인지 메커니즘과의 유추를 통해 이들의 행동을 해석하려는 요구가 증가하고 있습니다. 동시에, 과학 문헌은 이러한 시스템의 근본적인 한계를 지적하며, 이들을 의미적 내용에 실제로 접근하지 않고 표면적인 추론 시뮬레이션만 생성하는 모델(“확률적 앵무새” 또는 “추론의 환상”)으로 설명합니다. 본 논문은 사실적, 구문적, 논리적 세 가지 상호 보완적 언어 처리 차원을 통합한, LLM의 인지 능력을 평가하기 위한 혁신적이고 모듈식 벤치마크를 제안합니다. LLama 3.2, Mistral 7B, LLama 3:8B, Gemini 2.5 Flash, ChatGPT-3, ChatGPT-4o mini, ChatGPT-4, ChatGPT-5 등 8개 언어 모델을 동일 절차(상호 작용 후 문맥 초기화, 3점 점수 체계(0/0.5/1))로 테스트했습니다. 결과는 일반 지식 및 훈련에서 알려진 형식 변환 기반 과제에서 대규모 모델의 명확한 우위를 보여주었으나, 새로운 지역 전제만을 기반으로 한 결합 추론 과제에서는 모델 크기와 무관하게 효율성이 크게 감소했습니다. 중요한 점은 일부 모델에서 피드백 후 불안정하지만 측정 가능한 교정 능력이 관찰되어 반응 메커니즘의 존재 가능성을 시사하였으나, 이들이 인지적 자기반성을 할 수 있는 체계로 보기에 불충분하다는 것입니다. 종합 분석 결과 LLM들은 인식 가능한 형식 패턴에 해당하는 과제에서 구문 및 논리 규칙을 효과적으로 시뮬레이션하지만, 새로운 일관된 신념 사슬 및 상징적 추론을 구성해야 하는 상황에서는 실패하여 이들의 인지적 '이해'라는 주장을 약화시킵니다. 이 결과는 통계적 적합성과 체계적 다단계 형식 추론을 구분할 수 있는 보다 복잡하고 의미론적으로 제한된 평가 체계 개발의 필요성을 정당화합니다. 제안된 벤치마크는 "모델이 올바르게 응답하는가?"에서 "모델이 언제, 어떤 조건에서 추론할 수 있는가?"로 평가 초점을 전환하여 LLM 평가에서 보다 다차원적이고 진단적인 접근을 향한 한 걸음입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Piętka 외(Sat,)가 이 문제를 연구했습니다.
www.synapsesocial.com/papers/69926552eb1f82dc367a1282 — DOI: https://doi.org/10.3390/app16041918
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Kinga Piętka
Michał Bereta
Building similarity graph...
Analyzing shared references across papers
Loading...