September 5, 2019Open Access

BioBERT: ein vortrainiertes biomedizinisches Sprachrepräsentationsmodell für die biomedizinische Textanalyse

Key Points

Key points are not available for this paper at this time.

Abstract

Die biomedizinische Textanalyse gewinnt zunehmend an Bedeutung, da die Anzahl biomedizinischer Dokumente schnell wächst. Mit den Fortschritten in der Verarbeitung natürlicher Sprache (NLP) hat das Extrahieren wertvoller Informationen aus biomedizinischer Literatur unter Forschern an Popularität gewonnen, und Deep Learning hat die Entwicklung effektiver Modelle für die biomedizinische Textanalyse vorangetrieben. Allerdings liefert die direkte Anwendung der NLP-Fortschritte auf die biomedizinische Textanalyse oft unbefriedigende Ergebnisse aufgrund einer Verschiebung der Wortverteilung von allgemeinen Domänenkorpora zu biomedizinischen Korpora. In diesem Artikel untersuchen wir, wie das kürzlich eingeführte vortrainierte Sprachmodell BERT für biomedizinische Korpora adaptiert werden kann. Wir stellen BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining) vor, ein domänenspezifisches Sprachrepräsentationsmodell, das auf groß angelegten biomedizinischen Korpora vortrainiert wurde. Mit nahezu gleicher Architektur über Aufgaben hinweg übertrifft BioBERT BERT und frühere Modelle des Standes der Technik in einer Vielzahl biomedizinischer Textanalyseaufgaben deutlich, wenn es auf biomedizinischen Korpora vortrainiert wurde. Während BERT eine Leistung erzielt, die mit früheren Modellen des Standes der Technik vergleichbar ist, übertrifft BioBERT diese signifikant bei den folgenden drei repräsentativen biomedizinischen Textanalyseaufgaben: biomedizinische benannte Entitätenerkennung (0,62% F1-Score-Verbesserung), biomedizinische Relationsextraktion (2,80% F1-Score-Verbesserung) und biomedizinische Fragenbeantwortung (12,24% MRR-Verbesserung). Unsere Analyse zeigt, dass das Vortrainieren von BERT auf biomedizinischen Korpora ihm hilft, komplexe biomedizinische Fachtexte besser zu verstehen. Wir stellen die vortrainierten Gewichte von BioBERT kostenfrei unter https://github.com/naver/biobert-pretrained sowie den Quellcode zum Fine-Tuning von BioBERT unter https://github.com/dmis-lab/biobert zur Verfügung.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jinhyuk Lee

Wonjin Yoon

Sungdong Kim

Journals

Bioinformatics

Actions

Institutions

Korea University

Naver (South Korea)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

BioBERT: ein vortrainiertes biomedizinisches Sprachrepräsentationsmodell für die biomedizinische Textanalyse

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider