What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer

Puntos clave

Tenma achieves a remarkable 88.95% success rate under strict conditions, far surpassing the 18.12% rate of baseline policies.
The methodology involved training with heterogeneous, multimodal robot data, enabling robust manipulation in diverse settings.
A cross-embodiment normalizer was critical in mapping state/action spaces into a shared latent space, enhancing performance.
Tenma demonstrates significant potential for advancing transformer-based imitation learning within robotic systems.

Resumen

Scaling Transformer policies and diffusion models has advanced robotic manipulation, yet combining these techniques in lightweight, cross-embodiment learning settings remains challenging. We study design choices that most affect stability and performance for diffusion-transformer policies trained on heterogeneous, multimodal robot data, and introduce Tenma, a lightweight diffusion-transformer for bi-manual arm control. Tenma integrates multiview RGB, proprioception, and language via a cross-embodiment normalizer that maps disparate state/action spaces into a shared latent space; a Joint State-Time encoder for temporally aligned observation learning with inference speed boosts; and a diffusion action decoder optimized for training stability and learning capacity. Across benchmarks and under matched compute, Tenma achieves an average success rate of 88.95% in-distribution and maintains strong performance under object and scene shifts, substantially exceeding baseline policies whose best in-distribution average is 18.12%. Despite using moderate data scale, Tenma delivers robust manipulation and generalization, indicating the great potential for multimodal and cross-embodiment learning strategies for further augmenting the capacity of transformer-based imitation learning policies.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Davies et al. (Mon,) studied this question.

www.synapsesocial.com/papers/68ecfebf950606aabec09661 — DOI: https://doi.org/10.48550/arxiv.2509.11865

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals· 2024 · 1 citations
H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation· 2025
Body Transformer: Leveraging Robot Embodiment for Policy Learning· 2024 · 1 citations
Cross-Embodiment Robot Manipulation Skill Transfer using Latent Space Alignment· 2024 · 1 citations
Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Authors

T. Claire Davies

Yiqi Huang

Yunxin Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion