What question did this study set out to answer?

The study aims to quantify Structural Admissibility in AI models, assessing their decision-making under uncertainty.

April 15, 2026Open Access

EUT-AGI: Measuring Structural Admissibility Under Uncertainty in Frontier Models

Key Points

The study aims to quantify Structural Admissibility in AI models, assessing their decision-making under uncertainty.
Introduced a benchmark assessing four metacognitive behaviors in frontier AI models.
Evaluated 7 frontier models against 150 benchmark items across 5 task families.
Included human baseline data from 42 graduate-level participants for comparison.
The best model, Claude 3.5 Sonnet, achieved a cognitive ability score of 0.843, close to the human baseline of 0.887.
Highlighting the capacity to evaluate uncertainty, models exhibited varying levels of structural admissibility.

Abstract

A benchmark for the failure mode nobody measures: confident AI action taken before the evidence justifies it. We introduce Structural Admissibility as a measurable cognitive property — the capacity to determine whether the current epistemic state justifies committing to an action. Grounded in the Expanding Uncertainty Threshold (EUT) framework, this benchmark evaluates four metacognitive behaviors in frontier language models: instability detection, false resolution resistance, clarification quality, and action gating. Evaluation of 7 frontier models (Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Claude 3 Haiku, Gemini 2.0 Flash, Llama 3.1 70B, Mistral Large 2) across 150 benchmark items spanning 5 task families. Human baseline: 42 graduate-level participants. Best model (Claude 3.5 Sonnet) CAS: 0.843 vs human baseline 0.887. Submitted to: Kaggle — Measuring Progress Toward AGI — Cognitive Abilities Hackathon (Metacognition track), March 2026.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ivan Andrescov

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

EUT-AGI: Measuring Structural Admissibility Under Uncertainty in Frontier Models

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study