What question did this study set out to answer?

이 노트의 목적은 소형 명령 조정 언어 모델이 유효한 지원 집합에서 올바른 참조 대상을 정확히 선택할 수 있는지 평가하는 것이다.

May 3, 2026Open Access

참조 결합 스트레스 테스트: 지원 조각이 소형 명령 조정 언어 모델에서 참조 적법성을 보장하지는 않는다

Key Points

이 노트의 목적은 소형 명령 조정 언어 모델이 유효한 지원 집합에서 올바른 참조 대상을 정확히 선택할 수 있는지 평가하는 것이다.
엔티티, 관계, 합성 결합 군으로 나뉜 60개의 쿼리의 합성 데이터셋을 활용하였다.
Atomic Support Score (ASS), Binding Legitimacy Score (BLS), Illegitimate Binding Rate (IBR)의 세 가지 지표를 사용하였다.
Qwen/Qwen2.5-1.5B-Instruct 및 HuggingFaceTB/SmolLM2-1.7B-Instruct 모델의 결과를 구체적으로 분석하였다.
모델들은 올바른 지원 집합에 접근하면서도 종종 잘못된 관계적 또는 합성 대상을 선택하였다.
지표들은 테스트된 모델에서 상당한 비적법 결합률을 나타냈다.

Abstract

이 기술 노트는 소형 명령 조정 언어 모델에서 참조 결합을 위한 최소한의 스트레스 테스트를 제시한다. 실험은 엔티티 결합, 관계 결합, 합성 결합의 세 균형 잡힌 군으로 나뉜 60개의 쿼리로 구성된 통제된 합성 데이터셋을 사용한다. 모든 경우에서 올바른 답변을 위해 필요한 정보는 명령어 내에 명시적으로 존재한다. 따라서 목표는 지식 검색을 테스트하는 것이 아니라, 모델이 유효한 지원 집합에서 올바른 참조 대상을 선택할 수 있는지 테스트하는 것이다. 세 가지 지표가 사용된다: Atomic Support Score (ASS), Binding Legitimacy Score (BLS), 및 Illegitimate Binding Rate (IBR). 결과는 모델이 유효한 지원 집합 내에 머무르면서도 잘못된 관계적 또는 합성 대상을 선택할 수 있음을 보여준다. 본 노트에서는 Qwen/Qwen2.5-1.5B-Instruct 및 HuggingFaceTB/SmolLM2-1.7B-Instruct에 대한 결과와 Qwen의 결정론적 반복 실행을 보고한다. 동봉된 패키지에는 결과 CSV 파일, 요약 표, 요구 사항, README, 재현성 스크립트가 포함된다. 이 기여는 좁은 진단용 스트레스 테스트를 의도로 하며, 일반적인 기반 이론이나 언어 모델을 위한 일반 벤치마크를 제안하지 않는다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Danilo Tavella

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

참조 결합 스트레스 테스트: 지원 조각이 소형 명령 조정 언어 모델에서 참조 적법성을 보장하지는 않는다

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider