과학 연구의 질 평가 는 학술 커뮤니케이션에 필수적이지만, 널리 사용되는 방법들은 확장성, 주관성 및 시간 지연 측면에서 한계를 가집니다. 최근 대형 언어 모델(LLM)의 발전은 텍스트 내용을 기반으로 한 자동화된 연구 평가에 새로운 기회를 제공합니다. 본 연구는 LLM이 출판 후 동료 평가 작업을 지원할 수 있는지 전문가 판단 및 인용 기반 지표와 비교하여 평가합니다. H1 Connect 플랫폼의 논문을 사용해 두 가지 평가 과제를 구성했습니다: 고품질 논문 식별과 세부 평가(논문 평가, 가치 분류, 전문가 스타일 코멘트 포함). BERT 모델, 범용 LLM, 추론 지향 LLM 등 여러 모델 군을 다양한 학습 전략 하에 평가했습니다. 결과는 LLM이 고급 평가 과제에서 0.8 이상의 정확도로 추천된 논문 식별에 우수한 성능을 보였음을 나타냅니다. 그러나 세부 평가 과제에서는 성능이 크게 하락했습니다. Few-shot 프롬프트가 zero-shot보다 성능을 개선했으며, 지도 학습 파인튜닝이 가장 강력하고 균형 잡힌 결과를 도출했습니다. 검색 보강 프롬프트는 일부 경우 분류 정확도를 높였지만 인용 지표와의 정렬을 일관되게 강화하지는 못했습니다. 모델 출력과 인용 지표 간의 전체 상관관계는 양성이나 보통 수준이었습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lutz Bornmann
Mengjia Wu
Robin Haunschild
Building similarity graph...
Analyzing shared references across papers
Loading...
Bornmann 등(Thu,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/69df2ae6e4eeef8a2a6afd17 — DOI: https://doi.org/10.17605/osf.io/8gtx6
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: