What question did this study set out to answer?

본 연구는 출판 후 과학 논문 평가에서 대형 언어 모델의 효과성을 평가하는 것을 목표로 합니다.

April 15, 2026Open Access

출판 후 연구 평가를 위한 대형 언어 모델: 전문가 추천과 인용 지표의 증거

Key Points

본 연구는 출판 후 과학 논문 평가에서 대형 언어 모델의 효과성을 평가하는 것을 목표로 합니다.
고품질 논문을 식별하는 평가 과제를 구성했습니다.
LLM 출력과 전문가 판단 및 인용 지표를 비교했습니다.
BERT 및 추론 지향 LLM 등 여러 모델 군을 평가했습니다.
Few-shot 및 지도 파인튜닝 등 다양한 학습 전략을 적용했습니다.
LLM은 고급 평가 과제에서 추천 논문 식별 정확도가 0.8 이상을 달성했습니다.
세부 평가 과제에서는 성능이 하락했습니다.
Few-shot 프롬프트가 zero-shot에 비해 성능을 개선했습니다.
지도 파인튜닝이 가장 우수하고 균형 잡힌 결과를 보였습니다.
모델 출력과 인용 지표 간의 전체 상관관계는 양성이지만 보통 수준이었습니다.

Abstract

과학 연구의 질 평가 는 학술 커뮤니케이션에 필수적이지만, 널리 사용되는 방법들은 확장성, 주관성 및 시간 지연 측면에서 한계를 가집니다. 최근 대형 언어 모델(LLM)의 발전은 텍스트 내용을 기반으로 한 자동화된 연구 평가에 새로운 기회를 제공합니다. 본 연구는 LLM이 출판 후 동료 평가 작업을 지원할 수 있는지 전문가 판단 및 인용 기반 지표와 비교하여 평가합니다. H1 Connect 플랫폼의 논문을 사용해 두 가지 평가 과제를 구성했습니다: 고품질 논문 식별과 세부 평가(논문 평가, 가치 분류, 전문가 스타일 코멘트 포함). BERT 모델, 범용 LLM, 추론 지향 LLM 등 여러 모델 군을 다양한 학습 전략 하에 평가했습니다. 결과는 LLM이 고급 평가 과제에서 0.8 이상의 정확도로 추천된 논문 식별에 우수한 성능을 보였음을 나타냅니다. 그러나 세부 평가 과제에서는 성능이 크게 하락했습니다. Few-shot 프롬프트가 zero-shot보다 성능을 개선했으며, 지도 학습 파인튜닝이 가장 강력하고 균형 잡힌 결과를 도출했습니다. 검색 보강 프롬프트는 일부 경우 분류 정확도를 높였지만 인용 지표와의 정렬을 일관되게 강화하지는 못했습니다. 모델 출력과 인용 지표 간의 전체 상관관계는 양성이나 보통 수준이었습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lutz Bornmann

Mengjia Wu

Robin Haunschild

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

출판 후 연구 평가를 위한 대형 언어 모델: 전문가 추천과 인용 지표의 증거

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider