September 5, 2019Open Access

BioBERT：一种用于生物医学文本挖掘的预训练生物医学语言表示模型

Key Points

Key points are not available for this paper at this time.

Abstract

随着生物医学文献数量的迅速增长，生物医学文本挖掘变得日益重要。随着自然语言处理（NLP）的进步，从生物医学文献中提取有价值信息在研究人员中越来越受欢迎，深度学习推动了高效生物医学文本挖掘模型的发展。然而，因一般领域语料库与生物医学语料库之间词汇分布的差异，直接将NLP的最新进展应用于生物医学文本挖掘常常产生不理想的效果。本文探讨了如何将新近提出的预训练语言模型BERT适用于生物医学语料库。我们提出了BioBERT（基于Transformer的双向编码器表示，用于生物医学文本挖掘），这是一种在大规模生物医学语料库上预训练的领域特定语言表示模型。BioBERT在各任务中架构几乎相同，且在预训练于生物医学语料库后，在多种生物医学文本挖掘任务中大幅超越了BERT及以前的最先进模型。虽然BERT的性能已与以往最先进模型相当，BioBERT在以下三个典型生物医学文本挖掘任务中显著优于它们：生物医学命名实体识别（F1分数提升0.62%）、生物医学关系抽取（F1分数提升2.80%）及生物医学问答（MRR提升12.24%）。我们的分析结果表明，在生物医学语料库上预训练BERT有助于其理解复杂的生物医学文本。我们已在https://github.com/naver/biobert-pretrained免费发布BioBERT的预训练权重，并在https://github.com/dmis-lab/biobert公开了BioBERT微调的源代码。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jinhyuk Lee

Wonjin Yoon

Sungdong Kim

Journals

Bioinformatics

Actions

Institutions

Korea University

Naver (South Korea)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

BioBERT：一种用于生物医学文本挖掘的预训练生物医学语言表示模型

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider