March 3, 2026Open Access

Entrenamiento de baja precisión para aceleradores de aprendizaje profundo

Puntos clave

Métodos de entrenamiento eficientes mejoran las redes neuronales profundas utilizando técnicas de baja precisión, aumentando la eficiencia computacional.
MPTorch-FPGA genera modelos personalizados, optimizando tanto el rendimiento como el consumo de recursos para el entrenamiento de redes neuronales.
Un algoritmo de emparejamiento fuera de línea selecciona configuraciones FPGA basadas en un modelo de rendimiento, minimizando la latencia en la ejecución.
La aritmética personalizada reduce el consumo de energía y el área, mientras preserva la precisión del modelo en comparación con implementaciones convencionales.

Resumen

El entrenamiento de redes neuronales profundas (DNN) es muy exigente en recursos de cálculo, de ahí el interés en la aritmética de baja precisión para mejorar la eficiencia. Esta tesis explora nuevos enfoques para permitir un entrenamiento efectivo en baja precisión para aceleradores de aprendizaje profundo. Primero, presentamos MPTorch-FPGA, una extensión del entorno MPTorch diseñada para facilitar el entrenamiento de DNN de baja precisión para entornos CPU, GPU y FPGA. MPTorch-FPGA puede generar un acelerador específico para el modelo para el entrenamiento de DNN, con tamaños e implementaciones aritméticas personalizables, ofreciendo una precisión a nivel de bit en comparación con el entrenamiento DNN emulado en GPU o CPU. Un algoritmo de emparejamiento fuera de línea selecciona una de las configuraciones FPGA pre-generadas (estáticas) utilizando un modelo de rendimiento para estimar la latencia. En segundo lugar, proponemos una unidad de multiplicación-acumulación (MAC) optimizada, basada en redondeos estocásticos y adaptada al aprendizaje de baja precisión. Nuestro diseño utiliza un multiplicador FP8 con una acumulación FP12 y se basa en una nueva implementación del redondeo estocástico en sumadores de punto flotante, reduciendo significativamente la superficie, el consumo de energía y el retardo en comparación con implementaciones convencionales. En conjunto, estas contribuciones destacan el potencial de la aritmética personalizada y del entrenamiento en precisión mixta para mejorar el rendimiento de los aceleradores de aprendizaje profundo, al tiempo que se preserva la precisión del modelo.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo