Aktuelle multimodale KI-Systeme zeigen einen reproduzierbaren architektonischen Fehler im Bereich der physischen Verankerung: eine strukturelle Bedingung, bei der die symbolische Spitze der Kognition ohne die enaktive Basis und das ikonische Mittel konstruiert wurde, die symbolische Ausgaben physisch kohärent machen. Diese als Inversion Error 1 bezeichnete Bedingung manifestiert sich in drei formal spezifizierten Fehlermodi: Kontinuität, Gravitation und Umkehrbarkeit und liefert einen aggregierten Diagnosescore von 4 von 30 über drei führende multimodale Systeme, die unter dem Spaghetti Table Protocol 1,2 getestet wurden. Das erste Papier dieser Reihe stellt die architektonische Diagnose auf und schlägt das Parametric AGI Framework vor: drei formal spezifizierte Modifikationen des Aufmerksamkeitsmechanismus, deren Randbedingungen die mathematischen Anforderungen an die physische Verankerung auf Ebene der Trainingsarchitektur definieren. Das zweite Papier schlägt die governance-basierte Antwort auf Schnittstellenebene vor: eine Chaos Monkey Stresstest-Methodik, die menschliche verkörperte Kognition als verteiltes Diagnoseinstrument positioniert. Das vorliegende Papier schlägt die Trainingsumgebung, das Spatial Reasoning Gym, vor, das das RLPF-Signal erzeugt, das die Motoren des Parametric AGI Frameworks zum Lernen benötigen. Das Gym ist eine prozedural generierte, hochentropische dreidimensionale Physikumgebung, in der ein menschlicher Designer, der als More Knowledgeable Other (MKO) im Sinne Vygotskys fungiert 3, Reinforcement Learning from Physical Feedback (RLPF) 1 anwendet, um den Erwerb physischer Verankerung durch das Modell über einen dreiphasigen Lehrplan mit steigender Komplexität zu unterstützen. Der MKO ist kein Präferenzbewerter wie bei Reinforcement Learning from Human Feedback (RLHF)-Pipelines. Vielmehr agiert der MKO als Somatic Compiler 1: ein strukturell notwendiger Teilnehmer im Trainingsprozess, der die physische Ground Truth, räumliche Constraint-Korrekturen und zeitliche Umkehrbarkeitsanleitungen liefert, die das Modell nicht aus seiner eigenen Architektur heraus selbst erzeugen kann. Die Fitnesslandschaft, die das Training zur physischen Verankerung steuert, ist im Sinne von Kauffmans NK robust 4: hohe Interdependenz zwischen räumlichen, gravitativen und temporalen Constraints schafft mehrere lokale Optima, aus denen ein Gradient Descent ohne globale Landschaftssteuerung nicht zuverlässig entkommen kann. Diese Einschränkung gilt selbst für moderne adaptive Optimierer, wenn die Interdependenzstruktur der Fitnesslandschaft ausreichend dicht ist. Der MKO navigiert durch diese Landschaft in Richtung globaler physischer Kohärenz. Dieses Papier spezifiziert die Gestaltung der Gym-Umgebung, die operative Rolle des MKO, den RLPF-Mechanismus und seine Beziehung zur Proximal Policy Optimization (PPO), den dreiphasigen Lehrplan des Spatial Reasoning Gym, zwei Hauptüberanpassungsrisiken (sozial und umweltbedingt) sowie die institutionellen Kooperationsanforderungen für die Ausführung. Das Gym ist vollständig spezifiziert, aber noch nicht umgesetzt. Es wird hier als programmatischer Vorschlag und Kooperationsangebot an Foundation-Model-Labore, XR-Forschungszentren und mathematische Kollaborateure mit Expertise zur Formalisierung der RLPF-Belohnungsfunktion präsentiert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Peter Zakrzewski (Freitag,) untersuchte diese Fragestellung.
www.synapsesocial.com/papers/69f6e6478071d4f1bdfc6ed6 — DOI: https://doi.org/10.5281/zenodo.19960135
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Peter Zakrzewski
Building similarity graph...
Analyzing shared references across papers
Loading...