October 1, 1998

Annähernde statistische Tests zum Vergleich überwachter Klassifikationslernverfahren

Key Points

Key points are not available for this paper at this time.

Abstract

Dieser Artikel untersucht fünf annähernde statistische Tests, um festzustellen, ob ein Lernalgorithmus bei einer bestimmten Lernaufgabe einen anderen übertrifft. Diese Tests werden experimentell verglichen, um ihre Wahrscheinlichkeit für einen Fehler 1. Art (fälschliche Erkennung eines Unterschieds, wenn keiner existiert) zu bestimmen. Zwei weit verbreitete statistische Tests zeigen in bestimmten Situationen eine hohe Fehlerwahrscheinlichkeit 1. Art und sollten niemals verwendet werden: ein Test zur Differenz von zwei Anteilen und ein gepaarter Differenzen-t-Test, basierend auf mehreren zufälligen Trainings-Test-Aufteilungen. Ein dritter Test, ein gepaarter Differenzen-t-Test basierend auf 10-facher Kreuzvalidierung, zeigt eine etwas erhöhte Fehlerwahrscheinlichkeit 1. Art. Ein vierter Test, der McNemar-Test, hat eine geringe Fehlerwahrscheinlichkeit 1. Art. Der fünfte Test ist ein neuer Test, 5 x 2 cv, basierend auf fünf Iterationen der zweifachen Kreuzvalidierung. Experimente zeigen, dass auch dieser Test eine akzeptable Fehlerwahrscheinlichkeit 1. Art aufweist. Der Artikel misst außerdem die Power (Fähigkeit, algorithmische Unterschiede zu erkennen, wenn sie existieren) dieser Tests. Der kreuzvalidierte t-Test ist am leistungsfähigsten. Der 5 x 2 cv-Test ist etwas leistungsfähiger als der McNemar-Test. Die Wahl des besten Tests richtet sich nach den Rechenkosten der Ausführung des Lernalgorithmus. Für Algorithmen, die nur einmal ausgeführt werden können, ist der McNemar-Test der einzige Test mit akzeptabler Fehlerwahrscheinlichkeit 1. Art. Für Algorithmen, die zehnmal ausgeführt werden können, wird der 5 x 2 cv-Test empfohlen, da er etwas leistungsfähiger ist und direkt die Variation aufgrund der Trainingsmengenauswahl misst.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Thomas G. Dietterich

Journals

Neural Computation

Actions

Institutions

Oregon State University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Annähernde statistische Tests zum Vergleich überwachter Klassifikationslernverfahren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider