La integración del modelo de lenguaje grande (LLM) y la gestión de datos (DATA) está redefiniendo rápidamente ambos dominios. En esta encuesta, revisamos exhaustivamente las relaciones bidireccionales. Por un lado, DATA4LLM, que abarca el procesamiento, almacenamiento y servicio de datos a gran escala, alimenta a los LLM con datos de alta calidad, diversidad y actualidad requeridos para etapas como el preentrenamiento, postentrenamiento, generación aumentada por recuperación y flujos de trabajo agenticos: (i) El procesamiento de datos para LLM incluye adquisición escalable, deduplicación, filtrado, selección, mezcla de dominios y aumento sintético; (ii) El almacenamiento de datos para LLM se centra en formatos eficientes de datos y modelos, jerarquías de almacenamiento distribuidas y heterogéneas, gestión de caché KV y puntos de control tolerantes a fallos; (iii) El servicio de datos para LLM aborda retos en RAG (por ejemplo, posprocesamiento del conocimiento), inferencia de LLM (por ejemplo, compresión de prompts, procedencia de datos) y estrategias de entrenamiento (por ejemplo, empaquetado y mezcla de datos). Por otro lado, en LLM4DATA, los LLM están surgiendo como motores de propósito general para la gestión de datos. Revisamos avances recientes en (i) manipulación de datos, incluyendo limpieza automática, integración, descubrimiento; (ii) análisis de datos, cubriendo razonamiento sobre datos estructurados, semiestructurados y no estructurados, y (iii) optimización del sistema (por ejemplo, ajuste de configuración, reescritura de consultas, diagnóstico de anomalías), impulsados por técnicas LLM como prompting aumentado con recuperación, afinación especializada para tareas y colaboración multiagente.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaoyan Zhou
Junxuan He
Wei Zhou
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68da58d8c1728099cfd110bc — DOI: https://doi.org/10.48550/arxiv.2505.18458