April 17, 2024Open Access

뉴런 특성화: 본질적인 작업 모듈성을 활용한 다국어 기계 번역

Key Points

Key points are not available for this paper at this time.

Abstract

통합된 다국어 모델을 훈련하면 지식 전이가 촉진되지만 불가피하게 부정적 간섭이 발생합니다. 언어별 모델링 방법은 간섭 감소에 유망한 결과를 보입니다. 그러나 이 방법들은 종종 용량 분배에 휴리스틱에 의존하며 고립된 모듈을 통해 교차 언어 전이를 촉진하는 데 어려움을 겪습니다. 본 논문에서는 다국어 네트워크 내 본질적 작업 모듈성을 탐구하고, 이러한 관찰을 활용하여 다국어 번역 시 간섭을 회피하는 방법을 제안합니다. 피드포워드 계층의 뉴런들이 언어별 방식으로 활성화되는 경향이 있음을 보였습니다. 동시에, 이러한 특성화된 뉴런들은 언어 근접성을 반영하는 구조적 중첩을 보이며, 이는 계층을 거치며 발전합니다. 이러한 발견을 바탕으로, 피드포워드 계층을 모듈화하고 희소 네트워크를 통해 지속적으로 업데이트하는 특성화된 뉴런을 식별하는 접근법인 Neuron Specialization을 제안합니다. 광범위한 실험 결과, 우리 접근법은 강력한 기준선 대비 일관된 성능 향상을 달성했으며, 추가 분석을 통해 간섭 감소와 지식 전이 증가를 입증하였습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shaomu Tan

Di Wu

Christof Monz

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

뉴런 특성화: 본질적인 작업 모듈성을 활용한 다국어 기계 번역

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider