Primero, un gran corpus se divide en fragmentos que son manejables computacionalmente, luego se utilizan modelos implícitos Noken para aprender conjuntamente embeddings de consulta-clave-valor en cada fragmento. Para comparar un par de embeddings, usamos su capacidad para capturar la semántica en el fragmento de entrenamiento del otro, medida por la entropía promedio Renyi α. Después de un ordenamiento burbuja, el embedding de tokens Q-K-V resultante se usa en todo el corpus con el propósito de la atención del transformador.
Gary Nan Tie (Thu,) estudió esta cuestión.