Superando a Superotimização de Recompensas via Otimização Adversarial de Políticas com Estimativa Leve de Incerteza | Synapse