What question did this study set out to answer?

Mejorar el embedding del modelo a través de una fragmentación eficiente y una comprensión semántica en un gran corpus.

April 12, 2026Open Access

Fragmentación Noken

Puntos clave

Mejorar el embedding del modelo a través de una fragmentación eficiente y una comprensión semántica en un gran corpus.
Dividir un gran corpus en fragmentos manejables
Utilizar modelos implícitos Noken para embeddings de consulta-clave-valor
Evaluar embeddings utilizando la entropía promedio Renyi α
Aplicar ordenamiento burbuja para organizar embeddings
La fragmentación Noken captura eficazmente la semántica entre fragmentos de entrenamiento
El rendimiento del embedding mejora para la atención del transformador en todo el corpus

Resumen

Primero, un gran corpus se divide en fragmentos que son manejables computacionalmente, luego se utilizan modelos implícitos Noken para aprender conjuntamente embeddings de consulta-clave-valor en cada fragmento. Para comparar un par de embeddings, usamos su capacidad para capturar la semántica en el fragmento de entrenamiento del otro, medida por la entropía promedio Renyi α. Después de un ordenamiento burbuja, el embedding de tokens Q-K-V resultante se usa en todo el corpus con el propósito de la atención del transformador.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo