우리는 로봇 상태 추정과 제어를 단일 프레임워크 내에서 통합하는 조건부 확산 모델인 PoseDiff를 소개합니다. PoseDiff의 핵심은 단일 RGB 이미지에서 3D 키포인트 또는 관절 각도와 같은 구조화된 로봇 상태로 원시 시각 관찰을 매핑하여 다단계 파이프라인이나 보조 모달리티가 필요 없도록 하는 것입니다. 이 기반 위에 PoseDiff는 비디오-액션 역학으로 자연스럽게 확장됩니다. 세계 모델이 생성한 희소한 비디오 키프레임을 조건으로 하여 오버랩-평균화 전략을 통해 부드럽고 연속적인 장기간의 액션 시퀀스를 생성합니다. 이 통합된 설계는 인식과 제어의 확장 가능하고 효율적인 통합을 가능하게 합니다. DREAM 데이터셋에서 PoseDiff는 자세 추정에 대해 최첨단 정확도와 실시간 성능을 달성합니다. Libero-Object 조작 과제에서 기존의 역학 모듈에 비해 엄격한 오프라인 환경에서도 성공률을 크게 향상시킵니다. 이러한 결과들은 PoseDiff가 구현된 AI에서 인식, 계획 및 제어 간에 확장 가능하고 정확하며 효율적인 다리를 제공함을 보여줍니다. 비디오 시각화 결과는 프로젝트 페이지에서 확인할 수 있습니다: https://haozhuo-zhang.github.io/PoseDiff-project-page/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haozhuo Zhang
Michele Caprio
Jing Shao
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등은 이 질문을 연구했습니다(Mon,).
www.synapsesocial.com/papers/68f5fcce8d54a28a75cf1c9d — DOI: https://doi.org/10.48550/arxiv.2509.24591
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: