Breakpoint: Skalierbare Bewertung des systemweiten Denkens in LLM-Codeagenten | Synapse