June 23, 2014Open Access

癌症相关信息的文本挖掘：现状回顾与未来方向

Key Points

Key points are not available for this paper at this time.

Abstract

目的：本文回顾了文本挖掘（TM）领域的研究文献，旨在探讨（1）哪些癌症领域已成为TM努力的对象，（2）哪些知识资源可以支持癌症相关信息的TM，以及（3）依赖知识和计算方法的系统在多大程度上能够将文本数据转化为有用的临床信息。通过这些问题确定了TM这一特定方向的现状，并提出了支持癌症研究的TM未来发展方向。方法：开展了针对癌症相关信息的TM研究综述。文献检索在Medline数据库以及IEEE Xplore和ACM数字图书馆中进行，以涵盖该研究的跨学科性质，并结合了Google Scholar检索到的文献。结果：多项研究已证明TM能够从临床叙述中提取结构化信息，如病理或影像学报告。本文对癌症相关TM的最新进展进行了批判性概述。综述显示TM方法强烈依赖符号方法，例如基于词典查找的命名实体识别（NER）和依赖模式匹配的信息提取（IE）。NER的F测量值介于80%至90%之间，而简单任务的IE则接近90%以上。为进一步提升性能，TM方法需有效处理临床子语言的特殊性，如非标准缩略词以及大量拼写和语法错误。这要求从基于规则的方法转向机器学习，借鉴生物学领域TM成功的类似趋势。机器学习方法需大量训练数据，但临床叙述由于隐私和保密性问题难以获得，这一问题仍是该领域进展的主要瓶颈。此外，亟需建立全面的癌症本体，以实现对叙述报告文本信息的语义表示。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

‪

‪Irena Spasić

Jacqueline E. Livsey

John Keane

Journals

International Journal of Medical Informatics

Actions

Institutions

University of Manchester

Cardiff University

Manchester Academic Health Science Centre

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

癌症相关信息的文本挖掘：现状回顾与未来方向

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider