Los puntos clave no están disponibles para este artículo en este momento.
Los enfoques existentes de aprendizaje profundo para la anotación semántica de tipos de columna (CTA) presentan importantes limitaciones: dependen de tipos semánticos que están fijados en el momento del entrenamiento; requieren un gran número de muestras de entrenamiento por tipo; implican altos costos computacionales en la inferencia; y su rendimiento puede degradarse cuando se evalúan en conjuntos de datos nuevos, incluso cuando los tipos permanecen constantes. Los grandes modelos de lenguaje han demostrado un fuerte desempeño de clasificación cero-shot en una amplia variedad de tareas y en este documento exploramos su uso para CTA. Presentamos ArcheType, un método simple y práctico para el muestreo de contexto, la serialización de indicaciones, la consulta a modelos y la reasignación de etiquetas, que permite a los grandes modelos de lenguaje resolver problemas de CTA de manera completamente cero-shot. Analizamos cada componente de nuestro método por separado y establecemos que las mejoras en el muestreo de contexto y la reasignación de etiquetas proporcionan las ganancias más consistentes. ArcheType establece un nuevo estado del arte en desempeño en benchmarks de CTA cero-shot (incluyendo tres nuevos benchmarks específicos de dominio que liberamos junto con este artículo), y cuando se usa junto con técnicas clásicas de CTA, supera a un modelo DoDuo SOTA en el benchmark SOTAB afinado.
Building similarity graph...
Analyzing shared references across papers
Loading...
Benjamin Feuer
Yurong Liu
Chinmay Hegde
Proceedings of the VLDB Endowment
New York University
Building similarity graph...
Analyzing shared references across papers
Loading...
Feuer et al. (miércoles) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6c033b6db64358763f80e — DOI: https://doi.org/10.14778/3665844.3665857
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: