Los puntos clave no están disponibles para este artículo en este momento.
En esta investigación, proponemos un método innovador para aumentar la eficiencia de la Destilación de Conocimiento sin la necesidad de modelos maestros que consuman muchos recursos. La Destilación de Conocimiento entrena un modelo "estudiante" más pequeño con la guía de un modelo "maestro" más grande, lo cual es costoso en términos computacionales. Sin embargo, el principal beneficio proviene de las etiquetas suaves proporcionadas por el maestro, que ayudan al estudiante a captar similitudes matizadas entre clases. En nuestro trabajo, proponemos un método eficiente para generar estas etiquetas suaves, eliminando así la necesidad de un modelo maestro grande. Empleamos un autoencoder compacto para extraer características esenciales y calcular puntuaciones de similitud entre diferentes clases. Posteriormente, aplicamos la función softmax a estas puntuaciones de similitud para obtener un vector de probabilidades suaves. Este vector sirve como guía valiosa durante el entrenamiento del modelo estudiante. Nuestros extensos experimentos en varios conjuntos de datos, incluyendo CIFAR-100, Tiny Imagenet y Fashion MNIST, demuestran la superior eficiencia en recursos de nuestro enfoque comparado con métodos tradicionales de destilación de conocimiento que dependen de modelos maestros grandes. De manera importante, nuestro método consistentemente logra un rendimiento similar o incluso superior en términos de precisión del modelo. También realizamos un estudio comparativo con varias técnicas recientemente desarrolladas para la destilación de conocimiento, mostrando que nuestro enfoque alcanza un rendimiento competitivo usando significativamente menos recursos. Además, demostramos que nuestro enfoque puede integrarse fácilmente a cualquier método de destilación de conocimiento basado en logits. Esta investigación contribuye a hacer la destilación de conocimiento más accesible y rentable para aplicaciones prácticas, constituyendo una vía prometedora para mejorar la eficiencia del entrenamiento de modelos. El código de este trabajo está disponible en https://github.com/JEKimLab/ReffAKD.
Building similarity graph...
Analyzing shared references across papers
Loading...
Divyang Doshi
Jungeun Kim
Building similarity graph...
Analyzing shared references across papers
Loading...
Doshi et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6f2aeb6db64358766db41 — DOI: https://doi.org/10.48550/arxiv.2404.09886
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: