March 3, 2026Open Access

Feature-based classification of cancer drug target genes using machine learning approaches

Key Points

Combining various biological features with machine learning models yields accurate predictions of cancer drug targets.
The classifiers achieved 70% accuracy and 0.70 AUC in predicting target genes from a dataset of 336 genes.
Analysis utilized random forest and support vector machine techniques with cross-validation for stability in results.
Feature importance evaluation highlighted key predictors, indicating their utility in oncology drug discovery.

Abstract

The identification of anticancer drug targets. that converge on genes regulating cancer cell survival, essentiality, and resistance to apoptosis, remains a central challenge in oncology. We constructed a dataset comprising 336 approved cancer drug target genes and 554 non-target genes. For each gene, we extracted functional, and protein/gene structural features, including oncogene/tumor suppressor status (OncoKB), protein–protein interaction counts (STRING), gene essentiality (DepMap CERES scores), pathway involvement (Reactome), curated drug associations (CMap), protein domain counts, isoform number, and coding sequence length. Two classifiers, Random Forest (RF) and Support Vector Machine (SVM), were trained using a 70/30 train–test split and 10-fold cross-validation. Model performance was assessed using accuracy and Area Under the ROC curve (AUC). Feature relevance was evaluated through univariate and pairwise feature analyses, permutation feature importance (PFI), and SHapley Additive exPlanations (SHAP). RF and SVM achieved comparable performance in the held-out test set (accuracy = 70%, AUC = 0.70). Cross-validation confirmed stable results (RF: mean accuracy 66%, AUC 0.67; SVM: mean accuracy 67%, AUC 0.68). Univariate and pairwise analyses identified the number of protein–protein interactions and oncogene status as consistently informative. PFI and SHAP highlighted overlapping core features (interactions, CDS length, CERES score) alongside model-specific drivers (oncogene/tumor suppressor status for SVM; pathway and isoform counts for RF), indicating complementary perspectives from tree- and margin-based models. Our results demonstrate that combining diverse biological features with complementary machine learning models yields robust predictions of cancer drug targets. The integration of model-agnostic interpretability methods confirms the stability and biological plausibility of key predictors, supporting their potential utility in guiding target prioritization for oncology drug discovery.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Claudia Cava

Joshua D. Stephany

Actions

Institutions

University of Milano-Bicocca

Istituto Universitario di Studi Superiori di Pavia

Centro Diagnostico Italiano

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Feature-based classification of cancer drug target genes using machine learning approaches

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study