May 1, 2024Open Access

ArcheType: Un nuevo marco para la anotación de tipos de columna de código abierto usando grandes modelos de lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los enfoques existentes de aprendizaje profundo para la anotación semántica de tipos de columna (CTA) presentan importantes limitaciones: dependen de tipos semánticos que están fijados en el momento del entrenamiento; requieren un gran número de muestras de entrenamiento por tipo; implican altos costos computacionales en la inferencia; y su rendimiento puede degradarse cuando se evalúan en conjuntos de datos nuevos, incluso cuando los tipos permanecen constantes. Los grandes modelos de lenguaje han demostrado un fuerte desempeño de clasificación cero-shot en una amplia variedad de tareas y en este documento exploramos su uso para CTA. Presentamos ArcheType, un método simple y práctico para el muestreo de contexto, la serialización de indicaciones, la consulta a modelos y la reasignación de etiquetas, que permite a los grandes modelos de lenguaje resolver problemas de CTA de manera completamente cero-shot. Analizamos cada componente de nuestro método por separado y establecemos que las mejoras en el muestreo de contexto y la reasignación de etiquetas proporcionan las ganancias más consistentes. ArcheType establece un nuevo estado del arte en desempeño en benchmarks de CTA cero-shot (incluyendo tres nuevos benchmarks específicos de dominio que liberamos junto con este artículo), y cuando se usa junto con técnicas clásicas de CTA, supera a un modelo DoDuo SOTA en el benchmark SOTAB afinado.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Benjamin Feuer

Yurong Liu

Chinmay Hegde

Journals

Proceedings of the VLDB Endowment

Actions

Institutions

New York University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ArcheType: Un nuevo marco para la anotación de tipos de columna de código abierto usando grandes modelos de lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider