September 5, 2019Open Access

BioBERT: نموذج تمثيل لغة مدرب مسبقًا في المجال الطبي الحيوي لتعدين النصوص الطبية الحيوية

Key Points

Key points are not available for this paper at this time.

Abstract

يُصبح تعدين النصوص الطبية الحيوية أكثر أهمية مع الزيادة السريعة في عدد الوثائق الطبية الحيوية. مع تقدم معالجة اللغة الطبيعية (NLP)، أصبح استخراج المعلومات القيمة من الأدبيات الطبية الحيوية شائعًا بين الباحثين، وقد عزز التعلم العميق تطوير نماذج فعالة لتعدين النصوص الطبية الحيوية. ومع ذلك، غالبًا ما تؤدي تطبيقات تقدمات معالجة اللغة الطبيعية مباشرة على تعدين النصوص الطبية الحيوية إلى نتائج غير مرضية نتيجة لتحول توزيع الكلمات من مجاميع البيانات العامة إلى مجاميع البيانات الطبية الحيوية. في هذه المقالة، ندرس كيفية تكييف نموذج اللغة المدرب مسبقًا BERT للمجالات الطبية الحيوية. نُقدم BioBERT (تمثيلات المشفر ثنائي الاتجاه من المحولات لتعدين النصوص الطبية الحيوية)، وهو نموذج تمثيل لغة محدد المجال تم تدريبه مسبقًا على مجاميع بيانات طبية حيوية واسعة النطاق. مع بنية متقاربة عبر المهام، يتفوق BioBERT بشكل كبير على BERT والنماذج الحديثة السابقة في مجموعة متنوعة من مهام تعدين النصوص الطبية الحيوية عند تدريبه مسبقًا على بيانات طبية حيوية. بينما يحقق BERT أداءً مشابهًا للنماذج الحديثة السابقة، يتفوق BioBERT عليهم بشكل ملحوظ في ثلاثة مهام تمثيلية لتعدين النصوص الطبية الحيوية: التعرف على الكيانات المسماة الطبية الحيوية (تحسن بنسبة 0.62% في درجة F1)، استخراج العلاقات الطبية الحيوية (تحسن بنسبة 2.80% في درجة F1) والإجابة عن الأسئلة الطبية الحيوية (تحسن بنسبة 12.24% في MRR). تُظهر نتائج تحليلنا أن تدريب BERT مسبقًا على مجاميع طبية حيوية يساعده على فهم النصوص الطبية الحيوية المعقدة. نُوفر أوزان BioBERT المدربة مسبقًا متاحة مجانًا على https://github.com/naver/biobert-pretrained، والكود المصدري لتدقيق BioBERT متاح على https://github.com/dmis-lab/biobert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

درس لي وآخرون (Thu,) هذا السؤال.

www.synapsesocial.com/papers/6902266e82e6c353f8456c94 — DOI: https://doi.org/10.1093/bioinformatics/btz682

Also consider

Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context:

Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation· 2016 · 5,660 citations
An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition· 2015 · 570 citations
Deep learning with word embeddings improves biomedical named entity recognition· 2017 · 563 citations
Transfer learning for biomedical named entity recognition with neural networks· 2018 · 10 citations

Authors

Jinhyuk Lee

Wonjin Yoon

Sungdong Kim

Journals

Bioinformatics

Actions

Institutions

Korea University

Naver (South Korea)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

BioBERT: نموذج تمثيل لغة مدرب مسبقًا في المجال الطبي الحيوي لتعدين النصوص الطبية الحيوية

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion