El entrenamiento de redes neuronales profundas (DNN) es muy exigente en recursos de cálculo, de ahí el interés en la aritmética de baja precisión para mejorar la eficiencia. Esta tesis explora nuevos enfoques para permitir un entrenamiento efectivo en baja precisión para aceleradores de aprendizaje profundo. Primero, presentamos MPTorch-FPGA, una extensión del entorno MPTorch diseñada para facilitar el entrenamiento de DNN de baja precisión para entornos CPU, GPU y FPGA. MPTorch-FPGA puede generar un acelerador específico para el modelo para el entrenamiento de DNN, con tamaños e implementaciones aritméticas personalizables, ofreciendo una precisión a nivel de bit en comparación con el entrenamiento DNN emulado en GPU o CPU. Un algoritmo de emparejamiento fuera de línea selecciona una de las configuraciones FPGA pre-generadas (estáticas) utilizando un modelo de rendimiento para estimar la latencia. En segundo lugar, proponemos una unidad de multiplicación-acumulación (MAC) optimizada, basada en redondeos estocásticos y adaptada al aprendizaje de baja precisión. Nuestro diseño utiliza un multiplicador FP8 con una acumulación FP12 y se basa en una nueva implementación del redondeo estocástico en sumadores de punto flotante, reduciendo significativamente la superficie, el consumo de energía y el retardo en comparación con implementaciones convencionales. En conjunto, estas contribuciones destacan el potencial de la aritmética personalizada y del entrenamiento en precisión mixta para mejorar el rendimiento de los aceleradores de aprendizaje profundo, al tiempo que se preserva la precisión del modelo.
Sami Ben Ali (Mié,) estudió esta cuestión.