Los puntos clave no están disponibles para este artículo en este momento.
La comprensión corporizada de escenas sirve como la piedra angular para que los agentes autónomos perciban, interpreten y respondan a escenarios de conducción abiertos. Dicha comprensión se basa típicamente en Modelos de Visión y Lenguaje (VLMs). Sin embargo, los VLMs existentes están restringidos al dominio 2D, careciendo de conciencia espacial y habilidades de extrapolación a largo plazo. Revisamos los aspectos clave de la conducción autónoma y formulamos rúbricas apropiadas. Por ello, presentamos el Modelo de Lenguaje Corporizado (ELM), un marco integral adaptado para la comprensión de escenas de conducción por parte de agentes con amplios alcances espaciales y temporales. ELM incorpora un preentrenamiento consciente del espacio para dotar al agente de capacidades robustas de localización espacial. Además, el modelo emplea selección de tokens consciente del tiempo para consultar con precisión indicios temporales. Instanciamos ELM en el referente multifacético reformulado, y supera a los enfoques previos de última generación en todos los aspectos. Todo el código, datos y modelos serán compartidos públicamente.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou Yun-song
Linyan Huang
Qingwen Bu
Building similarity graph...
Analyzing shared references across papers
Loading...
Yun-song et al. (Jue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e7567db6db6435876cddfa — DOI: https://doi.org/10.48550/arxiv.2403.04593
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: