What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

PoseDiff: 로봇 자세 추정과 비디오-액션 제어를 연결하는 통합 확산 모델

Key Points

PoseDiff는 DREAM 데이터셋에서 자세 추정에 있어 최첨단 정확도를 달성하여 견고한 성능을 입증합니다.
희소한 비디오 키프레임을 조건으로 하여 모델은 장기적이고 부드러운 액션 시퀀스를 생성하여 성능을 향상시킵니다.
이 통합 모델은 시각 관찰을 구조화된 로봇 상태로 매핑하는 과정을 단순화하여 다단계 처리 과정을 제거합니다.
역학 역전 과제에서의 향상은 구현된 AI 제어에서 PoseDiff의 실시간 적용 가능성을 강조합니다.

Abstract

우리는 로봇 상태 추정과 제어를 단일 프레임워크 내에서 통합하는 조건부 확산 모델인 PoseDiff를 소개합니다. PoseDiff의 핵심은 단일 RGB 이미지에서 3D 키포인트 또는 관절 각도와 같은 구조화된 로봇 상태로 원시 시각 관찰을 매핑하여 다단계 파이프라인이나 보조 모달리티가 필요 없도록 하는 것입니다. 이 기반 위에 PoseDiff는 비디오-액션 역학으로 자연스럽게 확장됩니다. 세계 모델이 생성한 희소한 비디오 키프레임을 조건으로 하여 오버랩-평균화 전략을 통해 부드럽고 연속적인 장기간의 액션 시퀀스를 생성합니다. 이 통합된 설계는 인식과 제어의 확장 가능하고 효율적인 통합을 가능하게 합니다. DREAM 데이터셋에서 PoseDiff는 자세 추정에 대해 최첨단 정확도와 실시간 성능을 달성합니다. Libero-Object 조작 과제에서 기존의 역학 모듈에 비해 엄격한 오프라인 환경에서도 성공률을 크게 향상시킵니다. 이러한 결과들은 PoseDiff가 구현된 AI에서 인식, 계획 및 제어 간에 확장 가능하고 정확하며 효율적인 다리를 제공함을 보여줍니다. 비디오 시각화 결과는 프로젝트 페이지에서 확인할 수 있습니다: https://haozhuo-zhang.github.io/PoseDiff-project-page/.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haozhuo Zhang

Michele Caprio

Jing Shao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

PoseDiff: 로봇 자세 추정과 비디오-액션 제어를 연결하는 통합 확산 모델

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider