Der U-Boot-Krieg (ASW) stellt komplexe taktische Entscheidungsherausforderungen dar, die Stealth und Unsicherheit beinhalten. Dieses Projekt untersucht die Anwendung der kontrafaktischen Bedauernsminderung (CFR), einer Klasse von Algorithmen, die in großen imperfect-information Spielen erfolgreich sind, auf ASW-Szenarien. Wir modellieren die Interaktion zwischen einem U-Boot und einer ASW-Truppe als ein Nullsummenspiel, das sequenziell auf diskreten Graphen mit imperfect information basiert und Bewegungseinschränkungen, Kosten und probabilistische Erkennung umfasst. Mithilfe des OpenSpiel-Frameworks bewerten wir die Leistung von drei CFR-Varianten: Vanilla CFR, Monte Carlo CFR (MCCFR) und Deep CFR, indem wir deren Konvergenzgeschwindigkeit, gemessen in Echtzeit, zu einem Ziel-Exploitability-Level vergleichen. Experimente, die an Graphen unterschiedlicher Größen durchgeführt wurden, zeigten, dass MCCFR bei allen Graphgrößen am schnellsten konvergierte, während Vanilla CFR etwas langsamer war; beide übertrafen Deep CFR signifikant. Deep CFR, trotz seiner theoretischen Skalierbarkeit, zeigte eine signifikant langsamere Konvergenz, die möglicherweise auf den Rechenaufwand und die Hyperparameterempfindlichkeit innerhalb des getesteten Komplexitätsbereichs des Spiels zurückzuführen ist. Diese Ergebnisse könnten darauf hindeuten, dass für moderat große strategische Simulationen wie das hier modellierte ASW-Spiel einfachere CFR-Methoden rechnerisch effizienter sein können als Deep-Learning-Ansätze.
Klasa et al. (Wed,) untersuchten diese Frage.