Key points are not available for this paper at this time.
Dieser Artikel untersucht fünf annähernde statistische Tests, um festzustellen, ob ein Lernalgorithmus bei einer bestimmten Lernaufgabe einen anderen übertrifft. Diese Tests werden experimentell verglichen, um ihre Wahrscheinlichkeit für einen Fehler 1. Art (fälschliche Erkennung eines Unterschieds, wenn keiner existiert) zu bestimmen. Zwei weit verbreitete statistische Tests zeigen in bestimmten Situationen eine hohe Fehlerwahrscheinlichkeit 1. Art und sollten niemals verwendet werden: ein Test zur Differenz von zwei Anteilen und ein gepaarter Differenzen-t-Test, basierend auf mehreren zufälligen Trainings-Test-Aufteilungen. Ein dritter Test, ein gepaarter Differenzen-t-Test basierend auf 10-facher Kreuzvalidierung, zeigt eine etwas erhöhte Fehlerwahrscheinlichkeit 1. Art. Ein vierter Test, der McNemar-Test, hat eine geringe Fehlerwahrscheinlichkeit 1. Art. Der fünfte Test ist ein neuer Test, 5 x 2 cv, basierend auf fünf Iterationen der zweifachen Kreuzvalidierung. Experimente zeigen, dass auch dieser Test eine akzeptable Fehlerwahrscheinlichkeit 1. Art aufweist. Der Artikel misst außerdem die Power (Fähigkeit, algorithmische Unterschiede zu erkennen, wenn sie existieren) dieser Tests. Der kreuzvalidierte t-Test ist am leistungsfähigsten. Der 5 x 2 cv-Test ist etwas leistungsfähiger als der McNemar-Test. Die Wahl des besten Tests richtet sich nach den Rechenkosten der Ausführung des Lernalgorithmus. Für Algorithmen, die nur einmal ausgeführt werden können, ist der McNemar-Test der einzige Test mit akzeptabler Fehlerwahrscheinlichkeit 1. Art. Für Algorithmen, die zehnmal ausgeführt werden können, wird der 5 x 2 cv-Test empfohlen, da er etwas leistungsfähiger ist und direkt die Variation aufgrund der Trainingsmengenauswahl misst.
Building similarity graph...
Analyzing shared references across papers
Loading...
Thomas G. Dietterich
Neural Computation
Oregon State University
Building similarity graph...
Analyzing shared references across papers
Loading...
Thomas G. Dietterich (Do,) untersuchte diese Fragestellung.
www.synapsesocial.com/papers/6907c20c400a54822bc4834d — DOI: https://doi.org/10.1162/089976698300017197
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: