Key points are not available for this paper at this time.
대형 언어 모델은 편향된 예측과 환각에 취약하여 모델 내부 추론 과정을 이해하는 것이 매우 중요함을 강조합니다. 그러나 블랙박스 트랜스포머 모델 전체에 대해 충실한 기여도를 달성하고 계산 효율성을 유지하는 것은 해결되지 않은 과제입니다. 저희는 계층별 관련성 전파 방법을 주의(attention) 계층에 적용함으로써 이러한 문제를 효과적으로 해결합니다. 일부 부분적 해결책이 있지만, 본 방법은 단일 역전파에 준하는 계산 효율성으로 입력뿐 아니라 트랜스포머 모델의 잠재 표현 전체에 충실하고 전체적으로 기여도를 부여하는 최초의 방법입니다. Llama 2, Flan-T5, Vision Transformer 구조에 대한 다양한 평가를 통해 제안된 방법이 충실도 면에서 기존 방법들을 능가하며 잠재 표현의 이해를 가능하게 하여 개념 기반 설명의 길을 열었음을 입증합니다. 오픈소스 구현은 GitHub https://github.com/rachtibat/LRP-for-Transformers 에서 제공됩니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Reduan Achtibat
Sayed Mohammad Vakilzadeh Hatefi
Maximilian Dreyer
Building similarity graph...
Analyzing shared references across papers
Loading...
Achtibat 등(목요일)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e7b3e7b6db64358770ddd5 — DOI: https://doi.org/10.48550/arxiv.2402.05602
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: