Key points are not available for this paper at this time.
Cet article révèle d'abord la relation entre la fréquence inverse de document (IDF), un schéma global de pondération des termes, et la distance d'information, une métrique universelle définie par la complexité de Kolmogorov. Nous donnons concrètement une explication théorique selon laquelle l'IDF d'un terme est égale à la distance entre le terme et la chaîne vide dans l'espace de distance d'information où la complexité de Kolmogorov est approchée à l'aide de documents Web et du codage Shannon-Fano. Sur la base de nos résultats, nous proposons l'IDF N-gramme, une extension théorique de l'IDF pour traiter les mots et expressions de toute longueur. En comparant les poids parmi les N-grammes pour tout N, l'IDF N-gramme nous permet de déterminer les N-grammes dominants parmi ceux qui se chevauchent et d'extraire des termes clés de toute longueur à partir de textes sans utiliser de techniques de traitement automatique du langage naturel. Pour calculer efficacement le poids de tous les N-grammes possibles, nous adoptons deux techniques de traitement de chaînes, à savoir l'extraction de sous-chaînes maximales à l'aide d'un tableau suffixe amélioré et le listing de documents à l'aide d'un arbre de wavelet. Nous avons mené des expériences sur l'extraction de termes clés et la segmentation des requêtes de recherche Web, et avons constaté que l'IDF N-gramme était compétitif avec les méthodes de pointe conçues pour chaque application en utilisant des ressources et efforts supplémentaires. Les résultats ont illustré le potentiel de l'IDF N-gramme.
Building similarity graph...
Analyzing shared references across papers
Loading...
Masumi Shirakawa
Takahiro Hara
Shojiro Nishio
The University of Osaka
Building similarity graph...
Analyzing shared references across papers
Loading...
Shirakawa et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/6a07fe84dbca27ccccfe07f0 — DOI: https://doi.org/10.1145/2736277.2741628