May 18, 2015

IDF N-gramme

Key Points

Key points are not available for this paper at this time.

Abstract

Cet article révèle d'abord la relation entre la fréquence inverse de document (IDF), un schéma global de pondération des termes, et la distance d'information, une métrique universelle définie par la complexité de Kolmogorov. Nous donnons concrètement une explication théorique selon laquelle l'IDF d'un terme est égale à la distance entre le terme et la chaîne vide dans l'espace de distance d'information où la complexité de Kolmogorov est approchée à l'aide de documents Web et du codage Shannon-Fano. Sur la base de nos résultats, nous proposons l'IDF N-gramme, une extension théorique de l'IDF pour traiter les mots et expressions de toute longueur. En comparant les poids parmi les N-grammes pour tout N, l'IDF N-gramme nous permet de déterminer les N-grammes dominants parmi ceux qui se chevauchent et d'extraire des termes clés de toute longueur à partir de textes sans utiliser de techniques de traitement automatique du langage naturel. Pour calculer efficacement le poids de tous les N-grammes possibles, nous adoptons deux techniques de traitement de chaînes, à savoir l'extraction de sous-chaînes maximales à l'aide d'un tableau suffixe amélioré et le listing de documents à l'aide d'un arbre de wavelet. Nous avons mené des expériences sur l'extraction de termes clés et la segmentation des requêtes de recherche Web, et avons constaté que l'IDF N-gramme était compétitif avec les méthodes de pointe conçues pour chaque application en utilisant des ressources et efforts supplémentaires. Les résultats ont illustré le potentiel de l'IDF N-gramme.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Masumi Shirakawa

Takahiro Hara

Shojiro Nishio

Actions

Institutions

The University of Osaka

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

IDF N-gramme

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study