January 1, 2020Open Access

BERT-of-Theseus: Compactação do BERT por Substituição Progressiva de Módulos

Key Points

Key points are not available for this paper at this time.

Abstract

Neste artigo, propomos uma nova abordagem de compressão de modelo para comprimir efetivamente o BERT por meio da substituição progressiva de módulos. Nossa abordagem primeiro divide o BERT original em vários módulos e constrói seus substitutos compactos. Em seguida, substituímos aleatoriamente os módulos originais por seus substitutos para treinar os módulos compactos a imitarem o comportamento dos módulos originais. Progressivamente aumentamos a probabilidade de substituição durante o treinamento. Dessa forma, nossa abordagem promove um nível mais profundo de interação entre os modelos original e compacto. Comparada às abordagens anteriores de destilação de conhecimento para compressão do BERT, nossa abordagem não introduz nenhuma função de perda adicional. Nossa abordagem supera as abordagens existentes de destilação de conhecimento no benchmark GLUE, mostrando uma nova perspectiva de compressão de modelos. 1

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Canwen Xu

Wangchunshu Zhou

Tao Ge

Actions

Institutions

University of California, San Diego

Beihang University

Microsoft Research Asia (China)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

BERT-of-Theseus: Compactação do BERT por Substituição Progressiva de Módulos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider