What question did this study set out to answer?

The research aims to uncover hidden linguistic traces of phantom borders in local language as captured by large language models.

June 3, 2026Open Access

Detecting latent linguistic traces of phantom borders in large language models

Key Points

The research aims to uncover hidden linguistic traces of phantom borders in local language as captured by large language models.
Created a dataset of 11,856 geolocalized newspaper articles from East and West Germany.
Removed explicit geographical references to isolate semantic hints using an LLM-based preprocessing approach.
Employed GPT-5.1 to predict the geographical origin of articles and analyze linguistic indicators through an embedding model.
LLMs predicted geographical origin with an accuracy of 72%.
The model often defaults to predicting West Germany when linguistic indications for East Germany are weak.
Semantic differences in linguistic patterns linked to former East and West Germany were identified.

Abstract

Phantomgrenzen sind historische Grenzen, die auch lange nach ihrer formellen Aufhebung weiterhin zu lokalen Unterschieden beitragen. Während die traditionelle Raumanalyse davon ausgeht, dass Nähe Ähnlichkeit bedingt, führen diese Grenzen zu starken Diskontinuitäten bei demografischen, wirtschaftlichen oder politischen Indikatoren. Obwohl Zensus-Daten solche Trennlinien leicht erfassen, bleiben die subtilen, kontextabhängigen und kulturellen Unterschiede, die durch diese Grenzen verursacht werden, in der lokalen Sprache verborgen und darin, wie Menschen über Orte, Ereignisse und alltägliche Themen sprechen. Dies macht es schwierig, sie zu erkennen. Gleichzeitig werden large language models (LLMs) zunehmend für räumliche Aufgaben und Forschungsanwendungen eingesetzt. Es stellt sich die Frage, wie Systeme der künstlichen Intelligenz (KI) geografische Phänomene wie Phantomgrenzen kodieren und interpretieren. Die Untersuchung dieser Frage ist besonders wichtig, da LLMs auf großen Korpora von menschlich generierten Texten trainiert werden, die implizit historische, kulturelle und geografische Biases enthalten können. Dies führt zu der Forschungslücke, ob und zu welcher Stärke diese latenten geografischen und kulturellen Signale in der Sprache eingebettet sind und ob LLMs sie erkennen und gleichzeitig in ihren Schlussfolgerungen und Erklärungen widerspiegeln können. Die Arbeit befasst sich mit dieser Forschungslücke und zielt darauf ab, diese latenten sprachlichen Spuren aufzudecken, um festzustellen, ob Phantomgrenzen im Alltagsdiskurs und in der lokalen Sprache sichtbar werden können. Als Fallstudie konzentriert sich die Arbeit auf die historische Teilung zwischen Ost- und Westdeutschland nach dem Zweiten Weltkrieg. Auch wenn die politische Grenze verschwunden ist, bestehen die Unterschiede zwischen Ost- und Westdeutschland in vielfältigen Parametern fort. Um zu untersuchen, ob ähnliche Spuren in der lokalen Sprache existieren und durch LLMs erkannt werden können, wird ein Datensatz mit 11.856 geolokalisierten Zeitungsartikeln aus Ost- und Westdeutschland erstellt. Alle expliziten geografischen Verweise werden mithilfe einer LLM-basierten Vorverarbeitung aus den Texten entfernt, um reine semantische Hinweise zu isolieren. GPT-5.1 wird verwendet, um die geografische Herkunft dieser Artikel vorherzusagen und Begründungen zu liefern. Ein Embedding-Modell analysiert sprachliche Hinweise ohne zusätzliche Schlussfolgerungsebenen. Die Ergebnisse zeigen, dass LLMs die geografische Herkunft mit einer Genauigkeit von 72% vorhersagen können, während die Begründungen jedoch mehrdeutig bleiben. Die Analyse der Embeddings deckt zudem semantische Unterschiede zwischen sprachlichen Mustern auf, die mit der ehemaligen deutschen demokratischen Republik und der Bundesrepublik Deutschland assoziiert werden. Insbesondere neigt das Modell dazu, standardmäßig Westdeutschland vorherzusagen, wenn die sprachlichen Hinweise auf Ostdeutschland schwach sind. Diese Ergebnisse unterstreichen das Potenzial von LLMs für komplexe räumliche Analysen sowie die entscheidenden Herausforderungen hinsichtlich der Verzerrung von Trainingsdaten und der Ausrichtung der KI.

Bookmark

View Full Paper