Key points are not available for this paper at this time.
NLP 및 음성 연구를 위한 다국어 기반 모델 구축에 대한 관심이 증가하고 있습니다. 한 언어의 작업별 데이터로 미세 조정된 모델이 다른 언어에서 성능 향상을 보이는 제로샷 교차 언어 전이가 다양한 NLP 작업에서 입증되었습니다. 본 연구에서는 음성 기반 모델이 동일한 전이 능력을 보이는지 탐구합니다. 다국어 음성 기반 모델의 예로 Whisper를 사용하여 음성 인코더가 생성한 발화 표현을 검토합니다. 오디오 임베딩에 일부 언어 민감 정보가 보존되어 있음에도 불구하고, 서로 다른 언어의 단어들이 유사한 의미 공간에 매핑됨이 음성-음성 검색 작업에서 높은 재현율로 입증됩니다. 이 공유된 임베딩 공간을 활용하여, 음성 번역에서 제로샷 교차 언어 전이를 시연했습니다. Whisper 모델을 영어-중국어 번역 데이터만으로 미세 조정했을 때, 다른 언어의 입력 발화에서도 성능 향상이 관찰되었습니다. 또한 저자원 언어에 대한 실험에서는 Whisper가 사전 학습 중 본 적 없는 언어의 발화에 대해서도 교차 언어 표현을 활용해 음성 번역을 수행할 수 있음을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rao Ma
Yassir Fathullah
Mengjie Qian
Building similarity graph...
Analyzing shared references across papers
Loading...
Ma 등(Mon,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e62289b6db6435875b44fa — DOI: https://doi.org/10.48550/arxiv.2407.01130
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: