What question did this study set out to answer?

O estudo objetiva aprimorar a adaptabilidade de robôs humanoides em ambientes complexos usando aprendizado por reforço.

March 3, 2026Open Access

Controle Adaptativo de Movimento Baseado em Aprendizado por Reforço para Robôs Humanoides em Multi-Terrenos

Key Points

O estudo objetiva aprimorar a adaptabilidade de robôs humanoides em ambientes complexos usando aprendizado por reforço.
Utilizou o robô humanoide G1 como plataforma de pesquisa.
Treinou modelo de caminhada em terreno plano e verificou-o por transferência e implantação em máquina real.
Aplicou controle por lógica fuzzy com treinamento em fases para subida/descida de escadas e travessia de rampas.
Variou sistematicamente a altura dos degraus e o gradiente das rampas para treinamento e análise.
Realizou análise cinemática qualitativa para validar a estabilidade dinâmica.
O valor da recompensa inicialmente aumenta com a dificuldade do terreno, mas converge lentamente.
As taxas de sucesso para terrenos com escadas e rampas atingiram mais de 86% e 92%, respectivamente.

Abstract

Nos últimos anos, muitos países aumentaram seu investimento na área de robôs humanoides, promovendo um desenvolvimento tecnológico significativo. Este estudo tem como objetivo permitir que robôs humanoides se adaptem melhor a diversos ambientes complexos, aumentando a robustez de seus sistemas de movimento e a capacidade de generalização de suas estratégias de movimento. Utilizando algoritmos de aprendizado por reforço, o treinamento em terrenos variados é um fator crítico para o desenvolvimento de robôs humanoides adaptáveis. Este artigo utiliza o robô humanoide G1 como plataforma de pesquisa. Primeiramente, realiza o treinamento, a verificação por transferência e a implantação em máquina real de um modelo de caminhada em terreno plano. Em seguida, utilizando controle por lógica fuzzy e uma estratégia de treinamento em fases, são treinados modelos de caminhada para subir/descer escadas e atravessar rampas. Variando sistematicamente a altura dos degraus e o gradiente das rampas, analisam-se a convergência da função de recompensa e a taxa de sucesso na realização das tarefas. Ademais, a estabilidade dinâmica do robô em terrenos complexos é validada por meio de análise cinemática qualitativa. A pesquisa conclui que, conforme a altura do passo e o gradiente da rampa aumentam, o valor da recompensa inicialmente cresce com mais iterações, mas converge mais lentamente e num valor final menor. Análises estatísticas mostram que as taxas de sucesso do treinamento em fases para terrenos com escadas e rampas são superiores a 86% e 92%, respectivamente.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Wen et al. (Sat,) estudaram esta questão.

www.synapsesocial.com/papers/69a67f06f353c071a6f0adb4 — DOI: https://doi.org/10.3390/app16052371

Authors

Xin Wen

Luxuan Wang

Yongting Tao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Controle Adaptativo de Movimento Baseado em Aprendizado por Reforço para Robôs Humanoides em Multi-Terrenos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion