March 3, 2026Open Access

Aprendizaje por refuerzo con conmutación inducido por agrupamiento difuso y recocido determinista

Puntos clave

El modelo propuesto logra un Q-learning más eficiente aprovechando técnicas de agrupamiento difuso con múltiples agentes.
Se utiliza Fuzzy c-Means para calcular las membresías, mejorando las actualizaciones de valores Q para el aprendizaje paralelo en distintos entornos.
Al incorporar el recocido determinista, el modelo mejora la robustez y maximiza las ganancias de los agentes durante el aprendizaje.
Este enfoque puede permitir una mejor adaptabilidad de los agentes a las diversas complejidades ambientales, optimizando los resultados del aprendizaje por refuerzo.

Resumen

Como un método de aprendizaje eficiente para el aprendizaje por refuerzo (Q-learning), se ha propuesto un enfoque donde múltiples agentes intentan simultáneamente y de manera paralela actualizar la tabla Q de forma colaborativa. En este estudio, proponemos un modelo de aprendizaje por refuerzo con conmutación al analizar simultáneamente el agrupamiento de agentes y el aprendizaje Q por clúster, asumiendo que cada agente no sabe en qué ambiente está resolviendo el problema. Calculamos la membresía difusa siguiendo el método de Fuzzy c-Means (FCM) basada en las ganancias adquiridas según las políticas de cada clúster, y actualizamos los valores Q con peso en la membresía, permitiendo que la tabla Q de cada ambiente se aprenda de manera paralela. Además, al introducir el recocido determinista de la difusividad de la división, conseguimos combinar una estimación de modelo robusta con la maximización de las ganancias adquiridas.

Me gusta

Guardar

Ver artículo completo