고품질 음성 통신은 종종 배경 소음에 의해 손상되어 명료도와 인지된 품질이 저하된다. 본 연구에서는 음성 향상 생성적 적대 신경망(SEGAN)의 데이터 효율적인 퓨샷 전송을 새로운 소음 도메인에 대해 조사한다. VoiceBank–DEMAND에서 사전학습된 생성기를 시작으로, MiniLibriMix에 대해 300쌍의 노이즈-클린 예제만 사용하여 모델을 적응시킨다. 과적합 및 치명적 망각을 방지하기 위해, (i) 지수이동평균(EMA) 가중치 평균화, (ii) 출처 도메인 매개변수에 대한 L2-SP 가중치 고정, (iii) 교사-학생 일관성 손실을 포함하는 3중 안정화 전략인 SAFE(Stable Adversarial Few-shot Enhancement)를 도입한다. SAFE는 VoiceBank 성능(PESQ ≈ 1.84; STOI ≈ 90 %)을 유지하며, 선택적 지각적 미세조정 단계(MR-STFT + 적대적) 이후 MiniLibriMix에서 상당한 목표 도메인 개선을 달성한다(PESQ 1.11 → 1.26, STOI 71.5 % → 81.5 %), 출처 도메인에서는 STOI의 경미한 절충만 있다. 소거실험 결과 EMA가 가장 강한 안정화 효과를 제공하고, L2‑SP와 일관성 정규화가 보완적 이점을 제공함을 보여준다. 이 결과는 안정적인 퓨샷 적응이 경량 시계열 음성 향상기기의 새로운 음향 환경에서의 빠른 배치를 현실적으로 가능하게 할 수 있음을 시사한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rubi Sharma
Firos A.
SHILAP Revista de lepidopterología
Building similarity graph...
Analyzing shared references across papers
Loading...
Sharma 등(화,)이 이 문제를 연구하였다.
www.synapsesocial.com/papers/69b3aaa802a1e69014ccb7cd — DOI: https://doi.org/10.24423/archacoust.2026.4315
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: