Key points are not available for this paper at this time.
대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 제로샷 성능으로 최근 큰 주목을 받고 있습니다. 그러나 LLM에 사용되는 사전 학습 데이터는 특정 말뭉치에 한정되는 경우가 많아 신선도와 시간적 범위의 한계가 내재되어 있습니다. 이에 따라 시간적 의도가 포함된 작업에 대한 LLM의 효과성에 대한 우려가 제기됩니다. 본 연구에서는 시간적 이해가 요구되는 작업에 일반 목적 LLM을 적용할 때의 근본적인 한계를 조사하는 것을 목표로 합니다. 특히 세 가지 인기 있는 시간 관련 QA 데이터셋을 통해 사실 기반 시간 지식을 다루는 데 집중하였습니다. 구체적으로, 과거에 관한 자세한 질문과 의외로 비교적 새로운 정보에 대해 낮은 성능을 관찰했습니다. 수동 및 자동 평가에서 여러 시간적 오류를 발견하였고, QA 성능이 저하되는 조건을 규명하였습니다. 우리의 분석은 LLM 한계 이해에 기여하며 시간 지향 작업 요구를 더 잘 충족할 수 있는 미래 모델 개발에 유용한 통찰을 제공합니다. 코드는 https://github.com/jwallat/temporalblindspots 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jonas Wallat
Adam Jatowt
Avishek Anand
Delft University of Technology
Universität Innsbruck
L3S Research Center
Building similarity graph...
Analyzing shared references across papers
Loading...
Wallat 등(월요일)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e75c9bb6db6435876d3ac8 — DOI: https://doi.org/10.1145/3616855.3635818
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: