March 3, 2026

Language Models for Low-Resource and Agglutinative Morphology Languages. The case of Quechua

Key Points

Language models struggle with agglutinative languages due to data scarcity.
A minimum data amount is critical for achieving quality representations.
Innovative tokenization strategies can significantly enhance representation quality.
The Token Embedding Mapping Algorithm bridges data gaps in language model training.

Abstract

El processament del llenguatge natural (PLN) ha evolucionat significativament amb la introducció de l'arquitectura transformers, especialment des de l'aparició de BERT l'any 2018. No obstant això, els avenços aconseguits amb aquests models de llenguatge han beneficiat principalment les llengües amb abundants recursos (LARs), com l'anglès, deixant de banda la majoria de llengües del món, particularment aquelles amb pocs recursos i estructures morfològiques complexes, com les llengües aglutinants. Aquesta tesi aborda aquesta problemàtica des d'un enfocament centrat en les dades, analitzant com l'escassetat de dades, la mida del vocabulari i el desequilibri en la freqüència dels tokens afecten la qualitat de les representacions generades pels models de llenguatge en llengües de pocs recursos (LPRs) i aglutinants. En lloc de centrar-se en l'arquitectura del model, aquest treball proposa estratègies per optimitzar l'ús de les dades disponibles. S'analitza la quantitat mínima de dades necessàries per assolir representacions de qualitat i es demostra com els tokenitzadors canònics poden millorar significativament la qualitat de les representacions en llengües morfològicament complexes. A més, es proposa un algoritme de balanceig de freqüència de tokens dissenyat per mitigar la concentració de tokens freqüents, millorant sistemàticament la representació de tokens menys comuns. Així mateix, s'introdueix TEMA (Token Embedding Mapping Algorithm), un mètode innovador que permet projectar les representacions d'un model de llenguatge entrenat amb grans volums de dades (L1) cap a un model entrenat amb poques dades (L2), enriquint-ne les representacions sense necessitat de dades addicionals. Finalment, s'evidencia que els models basats en transformers presenten una alta dependència de la quantitat de dades d'entrenament per construir representacions de qualitat, perpetuant així la bretxa entre LARs i LPRs. Aquesta tesi no només ofereix solucions específiques per millorar les representacions en models de llengües de pocs recursos i aglutinants, sinó que també proposa un marc conceptual més ampli sobre com abordar l'escassetat de dades en el desenvolupament de models de llenguatge basats en transformers.

Bookmark

Language Models for Low-Resource and Agglutinative Morphology Languages. The case of Quechua

Key Points

Abstract

Cite This Study