Key points are not available for this paper at this time.
Neste artigo, propomos uma nova abordagem de compressão de modelo para comprimir efetivamente o BERT por meio da substituição progressiva de módulos. Nossa abordagem primeiro divide o BERT original em vários módulos e constrói seus substitutos compactos. Em seguida, substituímos aleatoriamente os módulos originais por seus substitutos para treinar os módulos compactos a imitarem o comportamento dos módulos originais. Progressivamente aumentamos a probabilidade de substituição durante o treinamento. Dessa forma, nossa abordagem promove um nível mais profundo de interação entre os modelos original e compacto. Comparada às abordagens anteriores de destilação de conhecimento para compressão do BERT, nossa abordagem não introduz nenhuma função de perda adicional. Nossa abordagem supera as abordagens existentes de destilação de conhecimento no benchmark GLUE, mostrando uma nova perspectiva de compressão de modelos. 1
Building similarity graph...
Analyzing shared references across papers
Loading...
Canwen Xu
Wangchunshu Zhou
Tao Ge
University of California, San Diego
Beihang University
Microsoft Research Asia (China)
Building similarity graph...
Analyzing shared references across papers
Loading...
Xu et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/6a08cd525686deba6901f26a — DOI: https://doi.org/10.18653/v1/2020.emnlp-main.633
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: