Los puntos clave no están disponibles para este artículo en este momento.
El preentrenamiento contrastivo lenguaje-imagen (CLIP) ha demostrado mejorar las capacidades de generalización en cero disparos de modelos de lenguaje y visión. En este artículo, extendemos CLIP para una destilación de conocimiento eficiente, utilizando embeddings como profesores. Los marcos típicos de destilación de conocimiento requieren ejecutar pasadas hacia adelante a través de un modelo profesor, lo cual suele ser prohibitivo en el caso de profesores con miles de millones o trillones de parámetros. En estos casos, usar solo los embeddings de los modelos profesores para guiar la destilación puede generar ahorros computacionales significativos. Nuestros hallazgos preliminares muestran que la destilación de conocimiento basada en CLIP con embeddings puede superar a la destilación de conocimiento a escala completa usando 9 veces menos memoria y 8 veces menos tiempo de entrenamiento. Código disponible en: https: //github. com/lnairGT/CLIP-Distillation/
Building similarity graph...
Analyzing shared references across papers
Loading...
Lakshmi S. Nair
Building similarity graph...
Analyzing shared references across papers
Loading...
Lakshmi S. Nair (martes) estudió esta cuestión.
www.synapsesocial.com/papers/68e6febab6db643587678ecf — DOI: https://doi.org/10.48550/arxiv.2404.06170
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: