Key points are not available for this paper at this time.
OBJECTIF : Cet article passe en revue la littérature de recherche sur l'extraction de texte (TM) dans le but de déterminer (1) quels domaines du cancer ont fait l'objet d'efforts en TM, (2) quelles ressources de connaissances peuvent soutenir le TM des informations relatives au cancer et (3) dans quelle mesure les systèmes basés sur les connaissances et les méthodes computationnelles peuvent convertir les données textuelles en informations cliniques utiles. Ces questions ont été utilisées pour déterminer l'état actuel de l'art dans ce domaine spécifique du TM et suggérer des directions futures pour le développement du TM au soutien de la recherche sur le cancer. MÉTHODES : Une revue de la recherche sur le TM des informations liées au cancer a été réalisée. Une recherche documentaire a été effectuée dans la base de données Medline ainsi que dans les bibliothèques numériques IEEE Xplore et ACM afin de couvrir la nature interdisciplinaire de cette recherche. Les résultats de la recherche ont été complétés par la littérature identifiée via Google Scholar. RÉSULTATS : Diverses études ont démontré la faisabilité du TM pour extraire des informations structurées à partir de récits cliniques tels que ceux trouvés dans les rapports de pathologie ou de radiologie. Dans cet article, nous proposons un aperçu critique de l'état actuel de l'art du TM lié au cancer. La revue a mis en évidence un fort biais vers les méthodes symboliques, par exemple la reconnaissance d'entités nommées (NER) basée sur la consultation de dictionnaires et l'extraction d'information (IE) reposant sur la correspondance de motifs. La mesure F de la NER varie entre 80 % et 90 %, tandis que celle de l'IE pour des tâches simples est dans les hauts 90 %. Pour améliorer encore la performance, les approches de TM doivent gérer efficacement les particularités du sous-langage clinique telles que les abréviations non standard ainsi qu'un fort taux d'erreurs orthographiques et grammaticales. Cela nécessite un passage des méthodes basées sur des règles à l'apprentissage automatique, suivant le succès de tendances similaires dans les applications biologiques du TM. Les approches d'apprentissage automatique nécessitent de grands ensembles de données d'entraînement, mais les récits cliniques ne sont pas facilement accessibles pour la recherche en TM en raison des préoccupations de confidentialité et de vie privée. Ce problème reste le principal goulot d'étranglement pour les progrès dans ce domaine. En outre, il est nécessaire de disposer d'une ontologie complète du cancer qui permettrait une représentation sémantique des informations textuelles contenues dans les rapports narratifs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Irena Spasić
Jacqueline E. Livsey
John Keane
International Journal of Medical Informatics
University of Manchester
Cardiff University
Manchester Academic Health Science Centre
Building similarity graph...
Analyzing shared references across papers
Loading...
Spasić et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/6a016fd4843c444ef25c94bf — DOI: https://doi.org/10.1016/j.ijmedinf.2014.06.009
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: