What question did this study set out to answer?

소음 환경에서의 음성 품질 향상을 위한 퓨샷 전송 기법의 적용을 목표로 한다.

March 13, 2026Open Access

안정성 가드레일이 적용된 SEGAN을 이용한 음성 향상을 위한 퓨샷 전송

Key Points

소음 환경에서의 음성 품질 향상을 위한 퓨샷 전송 기법의 적용을 목표로 한다.
VoiceBank–DEMAND에서 사전학습된 생성기를 시작으로 SEGAN의 퓨샷 적응을 조사하였다.
MiniLibriMix에서 300쌍의 노이즈 및 클린 음성 데이터를 사용하였다.
EMA 가중치 평균화, L2-SP 가중치 고정, 교사-학생 일관성 손실을 포함하는 SAFE 전략을 도입하였다.
PESQ 약 1.84, STOI 약 90%의 VoiceBank 성능을 유지하였다.
MiniLibriMix에서 PESQ 1.11에서 1.26으로, STOI는 71.5%에서 81.5%로 유의한 향상을 이루었다.
소거 연구에서 EMA가 가장 강력한 안정화 효과를 제공하고, L2-SP와 일관성 정규화가 추가적인 이점을 제공함을 확인하였다.

Abstract

고품질 음성 통신은 종종 배경 소음에 의해 손상되어 명료도와 인지된 품질이 저하된다. 본 연구에서는 음성 향상 생성적 적대 신경망(SEGAN)의 데이터 효율적인 퓨샷 전송을 새로운 소음 도메인에 대해 조사한다. VoiceBank–DEMAND에서 사전학습된 생성기를 시작으로, MiniLibriMix에 대해 300쌍의 노이즈-클린 예제만 사용하여 모델을 적응시킨다. 과적합 및 치명적 망각을 방지하기 위해, (i) 지수이동평균(EMA) 가중치 평균화, (ii) 출처 도메인 매개변수에 대한 L2-SP 가중치 고정, (iii) 교사-학생 일관성 손실을 포함하는 3중 안정화 전략인 SAFE(Stable Adversarial Few-shot Enhancement)를 도입한다. SAFE는 VoiceBank 성능(PESQ ≈ 1.84; STOI ≈ 90 %)을 유지하며, 선택적 지각적 미세조정 단계(MR-STFT + 적대적) 이후 MiniLibriMix에서 상당한 목표 도메인 개선을 달성한다(PESQ 1.11 → 1.26, STOI 71.5 % → 81.5 %), 출처 도메인에서는 STOI의 경미한 절충만 있다. 소거실험 결과 EMA가 가장 강한 안정화 효과를 제공하고, L2‑SP와 일관성 정규화가 보완적 이점을 제공함을 보여준다. 이 결과는 안정적인 퓨샷 적응이 경량 시계열 음성 향상기기의 새로운 음향 환경에서의 빠른 배치를 현실적으로 가능하게 할 수 있음을 시사한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rubi Sharma

Firos A.

Journals

SHILAP Revista de lepidopterología

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

안정성 가드레일이 적용된 SEGAN을 이용한 음성 향상을 위한 퓨샷 전송

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider