Phantomgrenzen sind historische Grenzen, die auch lange nach ihrer formellen Aufhebung weiterhin zu lokalen Unterschieden beitragen. Während die traditionelle Raumanalyse davon ausgeht, dass Nähe Ähnlichkeit bedingt, führen diese Grenzen zu starken Diskontinuitäten bei demografischen, wirtschaftlichen oder politischen Indikatoren. Obwohl Zensus-Daten solche Trennlinien leicht erfassen, bleiben die subtilen, kontextabhängigen und kulturellen Unterschiede, die durch diese Grenzen verursacht werden, in der lokalen Sprache verborgen und darin, wie Menschen über Orte, Ereignisse und alltägliche Themen sprechen. Dies macht es schwierig, sie zu erkennen. Gleichzeitig werden large language models (LLMs) zunehmend für räumliche Aufgaben und Forschungsanwendungen eingesetzt. Es stellt sich die Frage, wie Systeme der künstlichen Intelligenz (KI) geografische Phänomene wie Phantomgrenzen kodieren und interpretieren. Die Untersuchung dieser Frage ist besonders wichtig, da LLMs auf großen Korpora von menschlich generierten Texten trainiert werden, die implizit historische, kulturelle und geografische Biases enthalten können. Dies führt zu der Forschungslücke, ob und zu welcher Stärke diese latenten geografischen und kulturellen Signale in der Sprache eingebettet sind und ob LLMs sie erkennen und gleichzeitig in ihren Schlussfolgerungen und Erklärungen widerspiegeln können. Die Arbeit befasst sich mit dieser Forschungslücke und zielt darauf ab, diese latenten sprachlichen Spuren aufzudecken, um festzustellen, ob Phantomgrenzen im Alltagsdiskurs und in der lokalen Sprache sichtbar werden können. Als Fallstudie konzentriert sich die Arbeit auf die historische Teilung zwischen Ost- und Westdeutschland nach dem Zweiten Weltkrieg. Auch wenn die politische Grenze verschwunden ist, bestehen die Unterschiede zwischen Ost- und Westdeutschland in vielfältigen Parametern fort. Um zu untersuchen, ob ähnliche Spuren in der lokalen Sprache existieren und durch LLMs erkannt werden können, wird ein Datensatz mit 11.856 geolokalisierten Zeitungsartikeln aus Ost- und Westdeutschland erstellt. Alle expliziten geografischen Verweise werden mithilfe einer LLM-basierten Vorverarbeitung aus den Texten entfernt, um reine semantische Hinweise zu isolieren. GPT-5.1 wird verwendet, um die geografische Herkunft dieser Artikel vorherzusagen und Begründungen zu liefern. Ein Embedding-Modell analysiert sprachliche Hinweise ohne zusätzliche Schlussfolgerungsebenen. Die Ergebnisse zeigen, dass LLMs die geografische Herkunft mit einer Genauigkeit von 72% vorhersagen können, während die Begründungen jedoch mehrdeutig bleiben. Die Analyse der Embeddings deckt zudem semantische Unterschiede zwischen sprachlichen Mustern auf, die mit der ehemaligen deutschen demokratischen Republik und der Bundesrepublik Deutschland assoziiert werden. Insbesondere neigt das Modell dazu, standardmäßig Westdeutschland vorherzusagen, wenn die sprachlichen Hinweise auf Ostdeutschland schwach sind. Diese Ergebnisse unterstreichen das Potenzial von LLMs für komplexe räumliche Analysen sowie die entscheidenden Herausforderungen hinsichtlich der Verzerrung von Trainingsdaten und der Ausrichtung der KI.
Annika Franziska Süß (Thu,) studied this question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: