What question did this study set out to answer?

Ziel dieser Forschung ist es, das Gradient Boosting durch die Einführung von Zufälligkeit bei der Auswahl von Basislernern zu verbessern.

February 27, 2026Open Access

RandomMachine: Zufällige Auswahl von Basis-Lernern für Newton Gradient Boosting Ensembles

Key Points

Ziel dieser Forschung ist es, das Gradient Boosting durch die Einführung von Zufälligkeit bei der Auswahl von Basislernern zu verbessern.
Entwicklung einer Open-Source-Python-Bibliothek namens RandomMachine.
Zufällige Auswahl von Basislernern aus einem benutzerdefinierten Pool in jeder Boosting-Iteration.
Nutzung mehrerer Lernfamilien, einschließlich LightGBM, CatBoost und XGBoost.
Getestet an synthetischen Regressions- und Klassifikationsaufgaben.
Erzielte eine Verbesserung von 1,55 % im R2 bei Regressionsaufgaben.
Zeigte einen Anstieg von 2,03 % in der Genauigkeit bei binären Klassifikationsaufgaben.
Verbesserte die Leistung im Vergleich zu drei festen Familien-Baselines bei ähnlichen Hyperparameterbudgets.

Abstract

Wir präsentieren RandomMachine, eine Open-Source-Python-Bibliothek, die das klassische Gradient Boosting zweiter Ordnung (Newton) erweitert, indem sie bei jeder Boosting-Iteration zufällig den nächsten Basislerner aus einem benutzerdefinierten Pool auswählt. Im Gegensatz zu standardmäßigen gradienten-boosted Bäumen, bei denen jede Iteration eine frische Kopie eines einzelnen festgelegten Modelltyps hinzufügt, mischt RandomMachine stochastisch mehrere Lernfamilien – LightGBM, CatBoost, XGBoost und beliebige sklearn-kompatible Schätzer – gemäß den pro Modell definierten Sampling-Wahrscheinlichkeiten. Diese zufällige Auswahl erhöht die Diversität des Ensembles, wirkt als impliziter Regularisierer und ermöglicht es dem Benutzer, komplementäre induktive Verzerrungen verschiedener Algorithmen innerhalb eines einzigen kohärenten Boosting-Verfahrens zu nutzen. Wir beschreiben den Algorithmus, seine theoretische Motivation und das Softwaredesign und berichten über empirische Ergebnisse zu synthetischen Regressions- und Klassifikationsaufgaben, die Verbesserungen von 1,55 % im R2 bei der Regression und 2,03 % in der Genauigkeit bei der binären Klassifikation im Vergleich zu drei festen Familien-Baselines bei vergleichbaren Hyperparameterbudgets zeigen.

Bookmark

View Full Paper

Bookmark

View Full Paper

RandomMachine: Zufällige Auswahl von Basis-Lernern für Newton Gradient Boosting Ensembles

Key Points

Abstract

Cite This Study