September 1, 2024Open Access

엔드 투 엔드 중국어 ASR 및 NER을 위한 대형 언어 모델 활용

Key Points

Key points are not available for this paper at this time.

Abstract

음성 토큰을 텍스트 토큰과 동일한 특징 공간에 매핑하는 것은 디코더 전용 대형 언어 모델(LLM)에 음성 모달리티를 통합하는 패러다임이 되었다. 대안으로는 교차 주의를 통해 음성 특징을 포함하는 인코더-디코더 아키텍처를 사용하는 방법이 있다. 본 연구에서는 Whisper 인코더와 ChatGLM3를 연결하고, 중국어 자동 음성 인식(ASR) 및 명명된 개체 인식(NER) 작업을 통해 이 두 접근법을 심층 비교한다. F1 점수와 ASR-NER 오류의 세밀한 분류법을 사용해 성능을 평가하였다. 실험 결과, 문맥이 짧을 경우 인코더-디코더 모델이 디코더 전용 모델보다 우수한 반면, 디코더 전용 모델은 LLM의 모든 층을 완전히 활용하므로 긴 문맥에서 유리함을 확인하였다. 또한, 체인 오브 땡트 NER 방식을 이용해 AISHELL-NER 테스트 세트에서 0.805의 최첨단 F1 점수를 얻었는데, 이 방식은 먼저 긴 형태의 ASR 전사본을 추론하고 이어서 NER 라벨을 예측한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuang Li

Jiawei Yu

Min Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

엔드 투 엔드 중국어 ASR 및 NER을 위한 대형 언어 모델 활용

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study