Klar sehen, falsch antworten: Ein multimodales Robustheits-Benchmark zur Bewertung von MLLMs bei Suggestivfragen | Synapse