What question did this study set out to answer?

Diese Studie zielt darauf ab, architektonische Fehler in multimodalen KI-Systemen im Zusammenhang mit physischer Verankerung zu adressieren und schlägt einen Trainingsrahmen zur Behebung dieser Probleme vor.

May 3, 2026Open Access

Das Spatial Reasoning Gym: Ein Trainingsrahmen zur Behebung von Fehlern in World Model Klassen bei multimodaler KI

Key Points

Diese Studie zielt darauf ab, architektonische Fehler in multimodalen KI-Systemen im Zusammenhang mit physischer Verankerung zu adressieren und schlägt einen Trainingsrahmen zur Behebung dieser Probleme vor.
Vorgeschlagen wurde das Spatial Reasoning Gym zum Training von KI in einer prozeduralen 3D-Physikumgebung.
Ein More Knowledgeable Other (MKO) wurde eingebunden, um Reinforcement Learning from Physical Feedback (RLPF) zu ermöglichen.
Ein dreiphasiger Lehrplan wurde skizziert, um das Modelllernen in physischer Verankerung aufzubauen.
Ein architektonischer Fehler namens Inversion Error wurde identifiziert, der führende multimodale Systeme mit einem Diagnosescore von 4 von 30 betrifft.
Modifikationen des Aufmerksamkeitsmechanismus wurden vorgeschlagen, um die physische Verankerung basierend auf strukturierter Architektur zu verbessern.
Risiken von Überanpassung und institutionelle Kooperationsanforderungen für eine effektive Implementierung wurden umrissen.

Abstract

Aktuelle multimodale KI-Systeme zeigen einen reproduzierbaren architektonischen Fehler im Bereich der physischen Verankerung: eine strukturelle Bedingung, bei der die symbolische Spitze der Kognition ohne die enaktive Basis und das ikonische Mittel konstruiert wurde, die symbolische Ausgaben physisch kohärent machen. Diese als Inversion Error 1 bezeichnete Bedingung manifestiert sich in drei formal spezifizierten Fehlermodi: Kontinuität, Gravitation und Umkehrbarkeit und liefert einen aggregierten Diagnosescore von 4 von 30 über drei führende multimodale Systeme, die unter dem Spaghetti Table Protocol 1,2 getestet wurden. Das erste Papier dieser Reihe stellt die architektonische Diagnose auf und schlägt das Parametric AGI Framework vor: drei formal spezifizierte Modifikationen des Aufmerksamkeitsmechanismus, deren Randbedingungen die mathematischen Anforderungen an die physische Verankerung auf Ebene der Trainingsarchitektur definieren. Das zweite Papier schlägt die governance-basierte Antwort auf Schnittstellenebene vor: eine Chaos Monkey Stresstest-Methodik, die menschliche verkörperte Kognition als verteiltes Diagnoseinstrument positioniert. Das vorliegende Papier schlägt die Trainingsumgebung, das Spatial Reasoning Gym, vor, das das RLPF-Signal erzeugt, das die Motoren des Parametric AGI Frameworks zum Lernen benötigen. Das Gym ist eine prozedural generierte, hochentropische dreidimensionale Physikumgebung, in der ein menschlicher Designer, der als More Knowledgeable Other (MKO) im Sinne Vygotskys fungiert 3, Reinforcement Learning from Physical Feedback (RLPF) 1 anwendet, um den Erwerb physischer Verankerung durch das Modell über einen dreiphasigen Lehrplan mit steigender Komplexität zu unterstützen. Der MKO ist kein Präferenzbewerter wie bei Reinforcement Learning from Human Feedback (RLHF)-Pipelines. Vielmehr agiert der MKO als Somatic Compiler 1: ein strukturell notwendiger Teilnehmer im Trainingsprozess, der die physische Ground Truth, räumliche Constraint-Korrekturen und zeitliche Umkehrbarkeitsanleitungen liefert, die das Modell nicht aus seiner eigenen Architektur heraus selbst erzeugen kann. Die Fitnesslandschaft, die das Training zur physischen Verankerung steuert, ist im Sinne von Kauffmans NK robust 4: hohe Interdependenz zwischen räumlichen, gravitativen und temporalen Constraints schafft mehrere lokale Optima, aus denen ein Gradient Descent ohne globale Landschaftssteuerung nicht zuverlässig entkommen kann. Diese Einschränkung gilt selbst für moderne adaptive Optimierer, wenn die Interdependenzstruktur der Fitnesslandschaft ausreichend dicht ist. Der MKO navigiert durch diese Landschaft in Richtung globaler physischer Kohärenz. Dieses Papier spezifiziert die Gestaltung der Gym-Umgebung, die operative Rolle des MKO, den RLPF-Mechanismus und seine Beziehung zur Proximal Policy Optimization (PPO), den dreiphasigen Lehrplan des Spatial Reasoning Gym, zwei Hauptüberanpassungsrisiken (sozial und umweltbedingt) sowie die institutionellen Kooperationsanforderungen für die Ausführung. Das Gym ist vollständig spezifiziert, aber noch nicht umgesetzt. Es wird hier als programmatischer Vorschlag und Kooperationsangebot an Foundation-Model-Labore, XR-Forschungszentren und mathematische Kollaborateure mit Expertise zur Formalisierung der RLPF-Belohnungsfunktion präsentiert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Peter Zakrzewski (Freitag,) untersuchte diese Fragestellung.

www.synapsesocial.com/papers/69f6e6478071d4f1bdfc6ed6 — DOI: https://doi.org/10.5281/zenodo.19960135

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Das Spatial Reasoning Gym: Ein Trainingsrahmen zur Behebung von Fehlern in World Model Klassen bei multimodaler KI

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion