What question did this study set out to answer?

언어 모델의 인지 추론을 평가하기 위한 벤치마크를 개발하고 이들의 한계를 평가합니다.

February 16, 2026Open Access

현대 언어 모델에서 인지 추론 평가를 위한 벤치마크

Key Points

언어 모델의 인지 추론을 평가하기 위한 벤치마크를 개발하고 이들의 한계를 평가합니다.
언어 모델의 인지 능력 평가를 위한 모듈식 벤치마크를 제안했습니다.
언어 처리의 세 가지 차원: 사실적, 구문적, 논리적 측면을 통합했습니다.
8개 언어 모델을 동일한 절차와 점수 체계로 테스트했습니다.
대형 언어 모델이 일반 지식 과제에서 더 우수하게 수행했으나 결합 추론에서 어려움을 겪었습니다.
피드백은 불안정하지만 측정 가능한 개선을 초래하여 반응 메커니즘을 시사했습니다.
모델들은 새로운 일관된 신념 사슬 구성에 실패하여 인지적 이해 주장에 의문을 제기했습니다.

Abstract

대규모 언어 모델(LLM)의 성장과 함께, 인간의 인지 메커니즘과의 유추를 통해 이들의 행동을 해석하려는 요구가 증가하고 있습니다. 동시에, 과학 문헌은 이러한 시스템의 근본적인 한계를 지적하며, 이들을 의미적 내용에 실제로 접근하지 않고 표면적인 추론 시뮬레이션만 생성하는 모델(“확률적 앵무새” 또는 “추론의 환상”)으로 설명합니다. 본 논문은 사실적, 구문적, 논리적 세 가지 상호 보완적 언어 처리 차원을 통합한, LLM의 인지 능력을 평가하기 위한 혁신적이고 모듈식 벤치마크를 제안합니다. LLama 3.2, Mistral 7B, LLama 3:8B, Gemini 2.5 Flash, ChatGPT-3, ChatGPT-4o mini, ChatGPT-4, ChatGPT-5 등 8개 언어 모델을 동일 절차(상호 작용 후 문맥 초기화, 3점 점수 체계(0/0.5/1))로 테스트했습니다. 결과는 일반 지식 및 훈련에서 알려진 형식 변환 기반 과제에서 대규모 모델의 명확한 우위를 보여주었으나, 새로운 지역 전제만을 기반으로 한 결합 추론 과제에서는 모델 크기와 무관하게 효율성이 크게 감소했습니다. 중요한 점은 일부 모델에서 피드백 후 불안정하지만 측정 가능한 교정 능력이 관찰되어 반응 메커니즘의 존재 가능성을 시사하였으나, 이들이 인지적 자기반성을 할 수 있는 체계로 보기에 불충분하다는 것입니다. 종합 분석 결과 LLM들은 인식 가능한 형식 패턴에 해당하는 과제에서 구문 및 논리 규칙을 효과적으로 시뮬레이션하지만, 새로운 일관된 신념 사슬 및 상징적 추론을 구성해야 하는 상황에서는 실패하여 이들의 인지적 '이해'라는 주장을 약화시킵니다. 이 결과는 통계적 적합성과 체계적 다단계 형식 추론을 구분할 수 있는 보다 복잡하고 의미론적으로 제한된 평가 체계 개발의 필요성을 정당화합니다. 제안된 벤치마크는 "모델이 올바르게 응답하는가?"에서 "모델이 언제, 어떤 조건에서 추론할 수 있는가?"로 평가 초점을 전환하여 LLM 평가에서 보다 다차원적이고 진단적인 접근을 향한 한 걸음입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Piętka 외(Sat,)가 이 문제를 연구했습니다.

www.synapsesocial.com/papers/69926552eb1f82dc367a1282 — DOI: https://doi.org/10.3390/app16041918

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Authors

Kinga Piętka

Michał Bereta

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

현대 언어 모델에서 인지 추론 평가를 위한 벤치마크

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion