May 1, 2021

Olvido en Máquina

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Una vez que los usuarios han compartido sus datos en línea, generalmente les resulta difícil revocar el acceso y pedir que los datos sean eliminados. El aprendizaje automático (ML) agrava este problema porque cualquier modelo entrenado con dichos datos puede haberlos memorizado, poniendo a los usuarios en riesgo de un ataque de privacidad exitoso que exponga su información. Sin embargo, lograr que los modelos olviden es notoriamente difícil. Introducimos el entrenamiento SISA, un marco que acelera el proceso de olvido limitando estratégicamente la influencia de un punto de datos en el procedimiento de entrenamiento. Aunque nuestro marco es aplicable a cualquier algoritmo de aprendizaje, está diseñado para lograr las mayores mejoras en algoritmos con estado, como el descenso de gradiente estocástico para redes neuronales profundas. El entrenamiento SISA reduce la carga computacional asociada con el olvido, incluso en el peor escenario donde las solicitudes de olvido se hacen uniformemente a través del conjunto de entrenamiento. En algunos casos, el proveedor de servicios puede tener una distribución previa sobre las solicitudes de olvido que harán los usuarios. Podemos tener en cuenta esta distribución para particionar y ordenar los datos en consecuencia, y así disminuir aún más la carga del olvido. Nuestra evaluación abarca varios conjuntos de datos de diferentes dominios, con motivaciones correspondientes para el olvido. Sin suposiciones distribucionales, para tareas de aprendizaje simples, observamos que el entrenamiento SISA mejora el tiempo para olvidar puntos del conjunto Purchase en 4.63×, y 2.45× para el conjunto SVHN, en comparación con el reentrenamiento desde cero. El entrenamiento SISA también proporciona una aceleración de 1.36× en el reentrenamiento para tareas de aprendizaje complejas como la clasificación de ImageNet; ayudado por aprendizaje por transferencia, esto resulta en una pequeña degradación en la precisión. Nuestro trabajo contribuye a la gobernanza práctica de datos en el olvido en máquina.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lucas Bourtoule

Varun Chandrasekaran

Christopher A. Choquette-Choo

Actions

Institutions

University of Toronto

University of Wisconsin–Madison

Vector Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Olvido en Máquina

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider