June 23, 2014Open Access

Extraction de texte des informations liées au cancer : Revue de l'état actuel et perspectives futures

Key Points

Key points are not available for this paper at this time.

Abstract

OBJECTIF : Cet article passe en revue la littérature de recherche sur l'extraction de texte (TM) dans le but de déterminer (1) quels domaines du cancer ont fait l'objet d'efforts en TM, (2) quelles ressources de connaissances peuvent soutenir le TM des informations relatives au cancer et (3) dans quelle mesure les systèmes basés sur les connaissances et les méthodes computationnelles peuvent convertir les données textuelles en informations cliniques utiles. Ces questions ont été utilisées pour déterminer l'état actuel de l'art dans ce domaine spécifique du TM et suggérer des directions futures pour le développement du TM au soutien de la recherche sur le cancer. MÉTHODES : Une revue de la recherche sur le TM des informations liées au cancer a été réalisée. Une recherche documentaire a été effectuée dans la base de données Medline ainsi que dans les bibliothèques numériques IEEE Xplore et ACM afin de couvrir la nature interdisciplinaire de cette recherche. Les résultats de la recherche ont été complétés par la littérature identifiée via Google Scholar. RÉSULTATS : Diverses études ont démontré la faisabilité du TM pour extraire des informations structurées à partir de récits cliniques tels que ceux trouvés dans les rapports de pathologie ou de radiologie. Dans cet article, nous proposons un aperçu critique de l'état actuel de l'art du TM lié au cancer. La revue a mis en évidence un fort biais vers les méthodes symboliques, par exemple la reconnaissance d'entités nommées (NER) basée sur la consultation de dictionnaires et l'extraction d'information (IE) reposant sur la correspondance de motifs. La mesure F de la NER varie entre 80 % et 90 %, tandis que celle de l'IE pour des tâches simples est dans les hauts 90 %. Pour améliorer encore la performance, les approches de TM doivent gérer efficacement les particularités du sous-langage clinique telles que les abréviations non standard ainsi qu'un fort taux d'erreurs orthographiques et grammaticales. Cela nécessite un passage des méthodes basées sur des règles à l'apprentissage automatique, suivant le succès de tendances similaires dans les applications biologiques du TM. Les approches d'apprentissage automatique nécessitent de grands ensembles de données d'entraînement, mais les récits cliniques ne sont pas facilement accessibles pour la recherche en TM en raison des préoccupations de confidentialité et de vie privée. Ce problème reste le principal goulot d'étranglement pour les progrès dans ce domaine. En outre, il est nécessaire de disposer d'une ontologie complète du cancer qui permettrait une représentation sémantique des informations textuelles contenues dans les rapports narratifs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

‪

‪Irena Spasić

Jacqueline E. Livsey

John Keane

Journals

International Journal of Medical Informatics

Actions

Institutions

University of Manchester

Cardiff University

Manchester Academic Health Science Centre

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Extraction de texte des informations liées au cancer : Revue de l'état actuel et perspectives futures

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider