Los puntos clave no están disponibles para este artículo en este momento.
Los modelos generativos a gran escala de lenguaje y lenguaje-visión (LLMs y VLMs) destacan en el aprendizaje contextual de pocos ejemplos para la toma de decisiones y el seguimiento de instrucciones. Sin embargo, requieren demostraciones ejemplares de alta calidad para ser incluidas en su ventana de contexto. En este trabajo, preguntamos: ¿Pueden los LLMs y VLMs generar sus propios ejemplos de prompt a partir de demostraciones genéricas y subóptimas? Proponemos el Aprendizaje de Abstracción en Contexto (ICAL), un método que construye una memoria de perspectivas de experiencia multimodal a partir de demostraciones subóptimas y retroalimentación humana. Dada una demostración ruidosa en un nuevo dominio, los VLMs abstraen la trayectoria en un programa general corrigiendo acciones ineficientes y anotando abstracciones cognitivas: relaciones de tareas, cambios en el estado de objetos, subobjetivos temporales y construcciones de tareas. Estas abstracciones se refinan y adaptan interactivamente mediante retroalimentación humana mientras el agente intenta ejecutar la trayectoria en un entorno similar. Las abstracciones resultantes, cuando se usan como ejemplares en el prompt, mejoran significativamente la toma de decisiones en agentes LLM y VLM con recuperación aumentada. Nuestro agente ICAL supera el estado del arte en seguimiento de instrucciones basado en diálogo en TEACh, agentes web multimodales en VisualWebArena y anticipación de acciones en Ego4D. En TEACh, logramos una mejora del 12.6% en éxito bajo condición de objetivo. En VisualWebArena, nuestra tasa de éxito en tareas mejora desde el SOTA del 14.3% hasta 22.7%. En pronóstico de acciones Ego4D, mejoramos respecto a GPT-4V de pocos ejemplos y seguimos siendo competitivos con modelos supervisados. Demostramos que el ajuste fino de nuestro agente contextual con recuperación ofrece mejoras adicionales. Nuestro enfoque reduce significativamente la dependencia de ejemplos elaborados por expertos y supera consistentemente el aprendizaje contextual a partir de planes de acción que carecen de tales perspectivas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gabriel Sarch
Lawrence Jang
Michael J. Tarr
Building similarity graph...
Analyzing shared references across papers
Loading...
Sarch et al. (jue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e64050b6db6435875d22c3 — DOI: https://doi.org/10.48550/arxiv.2406.14596