Key points are not available for this paper at this time.
대형 언어 모델(LLM) 응답을 평가하고 제공된 지식과 관련된 불일치, 즉 환각을 탐지하는 방법은 LLM 응용에서 점점 더 중요해지고 있습니다. 현재의 평가 지표는 설명 가능한 결정을 제공하고 응답 내 모든 정보 조각을 체계적으로 검사하는 능력에서 부족하며, 실제로 사용하기에는 계산 비용이 너무 높은 경우가 많습니다. 우리는 정보가 지식 그래프(KG) 구조로 표현되는 환각 평가 프레임워크인 GraphEval을 제안합니다. 이 방법은 환각에 취약한 KG 내 특정 삼중항을 식별하여, 이전 방법보다 환각이 응답 내 어디에서 발생했는지를 더 명확히 파악할 수 있게 합니다. 또한, 최첨단 자연어 추론(NLI) 모델과 결합해 사용할 때, 원시 NLI 모델만 사용했을 때보다 다양한 환각 벤치마크에서 균형 정확도가 향상됨을 보였습니다. 마지막으로, KG 구조를 활용해 환각을 수정하는 GraphEval 기반 방법인 GraphCorrect를 탐색했으며, 대부분의 환각이 실제로 수정 가능함을 입증했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hannah Sansford
Nicholas Richardson
Hermina Petric Maretić
Building similarity graph...
Analyzing shared references across papers
Loading...
Sansford 등(월요일,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e6035db6db643587596f2f — DOI: https://doi.org/10.48550/arxiv.2407.10793
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: