March 3, 2026Open Access

Kontrafaktische Bedauernsminderung im U-Boot-Krieg

Key Points

MCCFR konvergierte bei allen getesteten Graphgrößen am schnellsten und übertraf sowohl Vanilla CFR als auch Deep CFR signifikant.
Die Leistung wurde anhand der Konvergenzgeschwindigkeit zu einem Ziel-Exploitability-Level in Metriken der Rechenzeit gemessen.
Die Analyse verwendete das OpenSpiel-Framework, um ASW-Szenarien als Nullsummenspiel auf diskreten Graphen zu modellieren.
Die langsamere Konvergenz von Deep CFR hebt den Rechenaufwand innerhalb komplexer Spielrahmen hervor.

Abstract

Der U-Boot-Krieg (ASW) stellt komplexe taktische Entscheidungsherausforderungen dar, die Stealth und Unsicherheit beinhalten. Dieses Projekt untersucht die Anwendung der kontrafaktischen Bedauernsminderung (CFR), einer Klasse von Algorithmen, die in großen imperfect-information Spielen erfolgreich sind, auf ASW-Szenarien. Wir modellieren die Interaktion zwischen einem U-Boot und einer ASW-Truppe als ein Nullsummenspiel, das sequenziell auf diskreten Graphen mit imperfect information basiert und Bewegungseinschränkungen, Kosten und probabilistische Erkennung umfasst. Mithilfe des OpenSpiel-Frameworks bewerten wir die Leistung von drei CFR-Varianten: Vanilla CFR, Monte Carlo CFR (MCCFR) und Deep CFR, indem wir deren Konvergenzgeschwindigkeit, gemessen in Echtzeit, zu einem Ziel-Exploitability-Level vergleichen. Experimente, die an Graphen unterschiedlicher Größen durchgeführt wurden, zeigten, dass MCCFR bei allen Graphgrößen am schnellsten konvergierte, während Vanilla CFR etwas langsamer war; beide übertrafen Deep CFR signifikant. Deep CFR, trotz seiner theoretischen Skalierbarkeit, zeigte eine signifikant langsamere Konvergenz, die möglicherweise auf den Rechenaufwand und die Hyperparameterempfindlichkeit innerhalb des getesteten Komplexitätsbereichs des Spiels zurückzuführen ist. Diese Ergebnisse könnten darauf hindeuten, dass für moderat große strategische Simulationen wie das hier modellierte ASW-Spiel einfachere CFR-Methoden rechnerisch effizienter sein können als Deep-Learning-Ansätze.

Kontrafaktische Bedauernsminderung im U-Boot-Krieg

Key Points

Abstract

Cite This Study