What question did this study set out to answer?

Ziel ist es, das koreanische Part-of-Speech-Tagging durch ein neuartiges auf Transformer basierendes Modell zu verbessern, das Wort-Einbettungen integriert.

April 17, 2026Open Access

Wort-Einbettungsnetzwerk und auf Transformer basierendes Part-of-Speech-Tagging für Koreanisch

Key Points

Ziel ist es, das koreanische Part-of-Speech-Tagging durch ein neuartiges auf Transformer basierendes Modell zu verbessern, das Wort-Einbettungen integriert.
Entwicklung eines auf Transformer basierenden POS-Tagging-Modells.
Gestaltung einer Sequenz von Paaren aus Morphemen und deren POS-Tags für den Output.
Training eines Konvolutions- und Highway-Netzwerks für Zeichenebene-Wortrepräsentationen.
Integration der Wortrepräsentation mit dem Transformer-Encoder-Ausgang zur besseren semantischen Information.
Erzielte eine POS-Tagging-Genauigkeit von 96,1 % auf koreanischem Text.
Leistungsverbesserung um 1,4 % im Vergleich zu Modellen ohne Wortrepräsentation.
Übertraf alle verglichenen Modelle, einschließlich des BiLSTM+CRF-Modells.

Abstract

Die Part-of-Speech (POS)-Tagging für Koreanisch unterscheidet sich von anderen Sprachen wie Englisch, Russisch und Chinesisch und ist aufgrund der Herausforderungen bei der koreanischen Wortsegmentierung und der Analyse von lautveränderten Morphemen schwieriger. In diesem Papier schlagen wir ein auf Transformer basierendes koreanisches POS-Tagging-Modell vor, das den Ausgabewert eines Encoders des Transformers mit einem Repräsentationsvektor des Eingabewortes kombiniert, der aus einem Zeichenebenen-Wort-Einbettungsnetzwerk gewonnen wird, im Gegensatz zu bestehenden auf Deep Learning basierenden POS-Tagging-Modellen, die auf BiLSTM basieren. Erstens haben wir ein Modell entworfen, um eine neue Ausgabesequenz des POS-Tagging-Modells als eine Sequenz von Paaren aus Morphemen und deren POS-Tags zu erstellen, um die Segmentierung von Wörtern und die Analyse der veränderten Laute gleichzeitig zu ermöglichen. Zweitens wurden ein Konvolutionsnetzwerk und ein Highway-Netzwerk zur Erlangung von Wortrepräsentationen auf Zeichenebene trainiert. Schließlich, um die semantischen Informationen des Eingabewortes bei der Generierung von Sequenzen des POS-Tagging effizienter zu nutzen, haben wir den aus dem Wort-Einbettungs-Generierungsnetzwerk gewonnenen Vektor der Wortrepräsentation mit dem Ausgang eines Encoders des Transformers kombiniert. Den experimentellen Ergebnissen zufolge erreicht das vorgeschlagene Modell eine Leistungsverbesserung um 1,4 % im Vergleich zum Modell ohne Einbeziehung des aus dem Wort-Einbettungsnetzwerk gewonnenen Vektors der Wortrepräsentation, wodurch die Genauigkeit des POS-Taggings 96,1 % beträgt, was allen anderen verglichenen Modellen einschließlich des BiLSTM+CRF-Modells überlegen ist.

Bookmark

View Full Paper

Cite This Study

Sie et al. (Tue,) haben diese Frage untersucht.

synapsesocial.com/papers/69e1cf985cdc762e9d8588e0 https://doi.org/https://doi.org/10.11648/j.ajnna.20261201.12

Bookmark

View Full Paper