이 기술 노트는 소형 명령 조정 언어 모델에서 참조 결합을 위한 최소한의 스트레스 테스트를 제시한다. 실험은 엔티티 결합, 관계 결합, 합성 결합의 세 균형 잡힌 군으로 나뉜 60개의 쿼리로 구성된 통제된 합성 데이터셋을 사용한다. 모든 경우에서 올바른 답변을 위해 필요한 정보는 명령어 내에 명시적으로 존재한다. 따라서 목표는 지식 검색을 테스트하는 것이 아니라, 모델이 유효한 지원 집합에서 올바른 참조 대상을 선택할 수 있는지 테스트하는 것이다. 세 가지 지표가 사용된다: Atomic Support Score (ASS), Binding Legitimacy Score (BLS), 및 Illegitimate Binding Rate (IBR). 결과는 모델이 유효한 지원 집합 내에 머무르면서도 잘못된 관계적 또는 합성 대상을 선택할 수 있음을 보여준다. 본 노트에서는 Qwen/Qwen2.5-1.5B-Instruct 및 HuggingFaceTB/SmolLM2-1.7B-Instruct에 대한 결과와 Qwen의 결정론적 반복 실행을 보고한다. 동봉된 패키지에는 결과 CSV 파일, 요약 표, 요구 사항, README, 재현성 스크립트가 포함된다. 이 기여는 좁은 진단용 스트레스 테스트를 의도로 하며, 일반적인 기반 이론이나 언어 모델을 위한 일반 벤치마크를 제안하지 않는다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Danilo Tavella
Building similarity graph...
Analyzing shared references across papers
Loading...
Danilo Tavella (금요일,)가 이 문제를 연구하였다.
www.synapsesocial.com/papers/69f6e5ac8071d4f1bdfc6540 — DOI: https://doi.org/10.5281/zenodo.19944707
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: