Key points are not available for this paper at this time.
Les modèles de langage pré-entraînés à grande échelle tels que BERT ont apporté des améliorations significatives aux applications de PNL. Cependant, ils sont également connus pour leur lenteur lors de l'inférence, ce qui rend leur déploiement difficile dans les applications en temps réel. Nous proposons une méthode simple mais efficace, DeeBERT, pour accélérer l'inférence de BERT. Notre approche permet aux échantillons de sortir plus tôt sans passer par l'intégralité du modèle. Les expériences montrent que DeeBERT peut économiser jusqu'à 40 % du temps d'inférence avec une dégradation minimale de la qualité du modèle. Des analyses supplémentaires révèlent différents comportements dans les couches transformeurs de BERT et mettent également en évidence leur redondance. Notre travail apporte de nouvelles idées pour appliquer efficacement les modèles profonds basés sur les transformeurs aux tâches en aval.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji Xin
Raphael Tang
Jaejun Lee
University of Waterloo
Vector Institute
Building similarity graph...
Analyzing shared references across papers
Loading...
Xin et al. (Mer, ) ont étudié cette question.
www.synapsesocial.com/papers/69dd605d80eea7d3f699c3eb — DOI: https://doi.org/10.18653/v1/2020.acl-main.204
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: