March 3, 2026Open Access

HDI Corpus: A Dataset for Named Entity Recognition for In-Context Herb-Drug Interactions

Key Points

The dataset includes annotated sentences from around a hundred PubMed articles, enhancing the recognition of herb-drug interactions.
Fifteen entities are covered including herbs, drugs, and pathologies, with rich contextual information for better model training.
A classical named entity recognition pipeline was employed alongside innovative generative AI methodologies for dataset testing.
This corpus may facilitate diversity in pharmacological named entity recognition tasks, improving machine learning applications overall.

Abstract

Introduction This article proposes a new dataset for Named Entity Recognition based on PubMed articles and aiming to address the problem of Herb-Drug Interactions. It aims to offer a new dataset for recognizing herb-drug interaction entities, including contextual information. Background Machine learning and Deep learning provide users with powerful tools for task automation, but require large quantities of data to perform well. In the field of Natural Language Processing, training Deep Learning models requires the annotation of large corpora of text. While some corpora exist in medical literature, each specific task requires an adapted corpus. Methods The dataset was tested using a classical Named Entity Recognition pipeline, as well as new possibilities offered by generative AI. Results The dataset proposes annotated sentences of around a hundred articles and covers 15 entities, including herbs, drugs, and pathologies, as well as contextual information, such as cohort composition, patient information, or pharmacological clues. Discussion The study demonstrates that this dataset performs comparably to the DDI (Drug-Drug Interaction) corpus — a standard dataset in the drug Named Entity Recognition — for drug recognition, and performs well on most of the entities. Conclusion : We believe this corpus could help diversify pharmacological Named Entity Recognition.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Anthony Cnudde

Patrick Watrin

Charlotte Nachtegael

Journals

The Open Bioinformatics Journal

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HDI Corpus: A Dataset for Named Entity Recognition for In-Context Herb-Drug Interactions

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study