Key points are not available for this paper at this time.
음성 토큰을 텍스트 토큰과 동일한 특징 공간에 매핑하는 것은 디코더 전용 대형 언어 모델(LLM)에 음성 모달리티를 통합하는 패러다임이 되었다. 대안으로는 교차 주의를 통해 음성 특징을 포함하는 인코더-디코더 아키텍처를 사용하는 방법이 있다. 본 연구에서는 Whisper 인코더와 ChatGLM3를 연결하고, 중국어 자동 음성 인식(ASR) 및 명명된 개체 인식(NER) 작업을 통해 이 두 접근법을 심층 비교한다. F1 점수와 ASR-NER 오류의 세밀한 분류법을 사용해 성능을 평가하였다. 실험 결과, 문맥이 짧을 경우 인코더-디코더 모델이 디코더 전용 모델보다 우수한 반면, 디코더 전용 모델은 LLM의 모든 층을 완전히 활용하므로 긴 문맥에서 유리함을 확인하였다. 또한, 체인 오브 땡트 NER 방식을 이용해 AISHELL-NER 테스트 세트에서 0.805의 최첨단 F1 점수를 얻었는데, 이 방식은 먼저 긴 형태의 ASR 전사본을 추론하고 이어서 NER 라벨을 예측한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuang Li
Jiawei Yu
Min Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li 등(선,)이 이 문제를 연구하였다.
www.synapsesocial.com/papers/68e59d79b6db643587537935 — DOI: https://doi.org/10.21437/interspeech.2024-103