March 7, 2024Open Access

Comprensión Corporizada de Escenarios de Conducción

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La comprensión corporizada de escenas sirve como la piedra angular para que los agentes autónomos perciban, interpreten y respondan a escenarios de conducción abiertos. Dicha comprensión se basa típicamente en Modelos de Visión y Lenguaje (VLMs). Sin embargo, los VLMs existentes están restringidos al dominio 2D, careciendo de conciencia espacial y habilidades de extrapolación a largo plazo. Revisamos los aspectos clave de la conducción autónoma y formulamos rúbricas apropiadas. Por ello, presentamos el Modelo de Lenguaje Corporizado (ELM), un marco integral adaptado para la comprensión de escenas de conducción por parte de agentes con amplios alcances espaciales y temporales. ELM incorpora un preentrenamiento consciente del espacio para dotar al agente de capacidades robustas de localización espacial. Además, el modelo emplea selección de tokens consciente del tiempo para consultar con precisión indicios temporales. Instanciamos ELM en el referente multifacético reformulado, y supera a los enfoques previos de última generación en todos los aspectos. Todo el código, datos y modelos serán compartidos públicamente.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhou Yun-song

Linyan Huang

Qingwen Bu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Comprensión Corporizada de Escenarios de Conducción

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider