최근 대규모 추론 모델(LRMs)의 부상은 다단계 추론 성능을 크게 향상시켰으나, 종종 지나치게 긴 추론 연쇄를 생성하는 비용을 수반합니다. 본 논문은 정보 이론적 관점에서 이러한 추론 과정의 효율성을 재고하며, 추론 길이와 의미적 효율성 간의 근본적 상충관계를 밝혀냅니다. 우리는 이상적인 추론 경로와의 편차 및 단계별 정보 기여도를 각각 정량화하기 위해 InfoBias와 InfoGain 두 가지 지표를 제안합니다. 실험 분석 결과, 긴 추론 연쇄는 특히 오답에 대해 정보 편향이 크고 정보 획득이 감소하는 경향이 나타났습니다. 이러한 발견에 기반하여, 우리는 신뢰도가 충분히 높아지면 동적으로 추론을 중단하는 엔트로피 기반 적응형 사고 전략을 도입하여 경쟁력 있는 정확도를 유지하면서 효율성을 향상시켰습니다. 기본 모드인 Vanilla Think 방식과 비교할 때, 우리의 전략은 QwQ-32B에서 6개 벤치마크 과제로 구성된 다양한 추론 유형과 난이도에 걸쳐 평균 정확도를 1.10% 향상시키고 토큰 사용량을 50.80% 감소시켜 뛰어난 효율성과 추론 성능을 입증했습니다. 이러한 결과는 대형 언어 모델 배치 시 정확도와 비용 효율성을 동시에 향상시킬 수 있는 엔트로피 기반 방법의 가능성을 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xixian Yong
Xiao Zhou
Yingying Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Yong 등(금요일,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68da58d8c1728099cfd10fee — DOI: https://doi.org/10.48550/arxiv.2505.18237
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: