Los modelos de Acción con Lenguaje Visual (VLA) representan un cambio transformador en robótica, con el objetivo de unificar la percepción visual, la comprensión del lenguaje natural y el control incorporado dentro de un único marco de aprendizaje. Esta revisión presenta una síntesis integral y prospectiva del paradigma VLA, con un énfasis particular en la manipulación robótica y la autonomía guiada por instrucciones. Analizamos en profundidad 102 modelos VLA, 26 conjuntos de datos fundamentales y 12 plataformas de simulación que, en conjunto, configuran el desarrollo y la evaluación de los modelos VLA. Estos modelos se categorizan en paradigmas arquitectónicos clave, cada uno reflejando distintas estrategias para integrar visión, lenguaje y control en sistemas robóticos. Los conjuntos de datos fundamentales se evalúan usando un criterio novedoso basado en la complejidad de la tarea, variedad de modalidades y escala del conjunto de datos, permitiendo un análisis comparativo de su idoneidad para el aprendizaje de políticas generalistas. Introducimos un marco de caracterización bidimensional que organiza estos conjuntos de datos según la riqueza semántica y la alineación multimodal, mostrando regiones poco exploradas en el panorama actual de datos. Los entornos de simulación se evalúan por su efectividad en generar datos a gran escala, así como por su capacidad para facilitar la transferencia desde la simulación a entornos reales y la variedad de tareas soportadas. Usando contribuciones tanto académicas como industriales, reconocemos desafíos actuales y delineamos direcciones estratégicas tales como protocolos escalables de preentrenamiento, diseño modular de arquitecturas y estrategias robustas de alineación multimodal. Esta revisión sirve tanto como referencia técnica como hoja de ruta conceptual para avanzar en la incorporación y el control robótico, ofreciendo perspectivas que abarcan desde la generación de datos hasta el despliegue en el mundo real de agentes robóticos generalistas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Muhayy Din
Waseem Akram
Lyes Saad Saoud
Building similarity graph...
Analyzing shared references across papers
Loading...
Din et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e8439a9989581a2fd4e300 — DOI: https://doi.org/10.48550/arxiv.2507.10672
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: