January 1, 2020Open Access

DeeBERT : Sortie anticipée dynamique pour accélérer l'inférence de BERT

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles de langage pré-entraînés à grande échelle tels que BERT ont apporté des améliorations significatives aux applications de PNL. Cependant, ils sont également connus pour leur lenteur lors de l'inférence, ce qui rend leur déploiement difficile dans les applications en temps réel. Nous proposons une méthode simple mais efficace, DeeBERT, pour accélérer l'inférence de BERT. Notre approche permet aux échantillons de sortir plus tôt sans passer par l'intégralité du modèle. Les expériences montrent que DeeBERT peut économiser jusqu'à 40 % du temps d'inférence avec une dégradation minimale de la qualité du modèle. Des analyses supplémentaires révèlent différents comportements dans les couches transformeurs de BERT et mettent également en évidence leur redondance. Notre travail apporte de nouvelles idées pour appliquer efficacement les modèles profonds basés sur les transformeurs aux tâches en aval.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ji Xin

Raphael Tang

Jaejun Lee

Actions

Institutions

University of Waterloo

Vector Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DeeBERT : Sortie anticipée dynamique pour accélérer l'inférence de BERT

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider