Como un método de aprendizaje eficiente para el aprendizaje por refuerzo (Q-learning), se ha propuesto un enfoque donde múltiples agentes intentan simultáneamente y de manera paralela actualizar la tabla Q de forma colaborativa. En este estudio, proponemos un modelo de aprendizaje por refuerzo con conmutación al analizar simultáneamente el agrupamiento de agentes y el aprendizaje Q por clúster, asumiendo que cada agente no sabe en qué ambiente está resolviendo el problema. Calculamos la membresía difusa siguiendo el método de Fuzzy c-Means (FCM) basada en las ganancias adquiridas según las políticas de cada clúster, y actualizamos los valores Q con peso en la membresía, permitiendo que la tabla Q de cada ambiente se aprenda de manera paralela. Además, al introducir el recocido determinista de la difusividad de la división, conseguimos combinar una estimación de modelo robusta con la maximización de las ganancias adquiridas.
Honda et al. (Sat,) estudiaron esta cuestión.