February 27, 2024Open Access

모방 학습에서 언어 조건부 기술 발견을 위한 상호 정보 재고

Key Points

Key points are not available for this paper at this time.

Abstract

언어 조건부 로봇 행동은 인간의 명령이나 지시를 지각과 행동에 연결하여 복잡한 작업을 수행하는 데 중요한 역할을 합니다. 제약 없는 언어 지시에 기반한 장기 작업 구성을 위해서는 다양한 범용 기술의 습득이 필요합니다. 그러나 외부 보상이나 인간 감독 없이 결합되고 장기적인 환경에서 내재된 원시 기술을 획득하는 것은 큰 어려움을 야기합니다. 본 논문에서는 언어 조건부 정책 학습 프레임워크 내에서 두 가지 형태의 상호 정보를 사용하여 기술과 언어 지시 간의 관계를 수학적으로 평가합니다. 언어와 기술 간의 상호 정보를 비지도 방식으로 극대화하기 위해, 우리는 Language Conditioned Skill Discovery (LCSD)라는 종단 간 모방 학습 방법을 제안합니다. 구체적으로, 우리는 벡터 양자화를 활용하여 이산 잠재 기술을 학습하고, 궤적의 기술 시퀀스를 이용해 고차원 의미 있는 지시를 재구성합니다. BabyAI, LORel, CALVIN을 포함한 언어 조건부 로봇 내비게이션 및 조작 작업에 대한 광범위한 실험을 통해 본 방법이 기존 연구보다 우수함을 입증합니다. 우리의 접근법은 보지 못한 작업에 대한 일반화 능력 향상, 기술 해석력 개선, 그리고 작업 완료 성공률의 현저한 증가를 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhaoxun Ju

Yang Chao

Hongbo Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

모방 학습에서 언어 조건부 기술 발견을 위한 상호 정보 재고

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider