Die Part-of-Speech (POS)-Tagging für Koreanisch unterscheidet sich von anderen Sprachen wie Englisch, Russisch und Chinesisch und ist aufgrund der Herausforderungen bei der koreanischen Wortsegmentierung und der Analyse von lautveränderten Morphemen schwieriger. In diesem Papier schlagen wir ein auf Transformer basierendes koreanisches POS-Tagging-Modell vor, das den Ausgabewert eines Encoders des Transformers mit einem Repräsentationsvektor des Eingabewortes kombiniert, der aus einem Zeichenebenen-Wort-Einbettungsnetzwerk gewonnen wird, im Gegensatz zu bestehenden auf Deep Learning basierenden POS-Tagging-Modellen, die auf BiLSTM basieren. Erstens haben wir ein Modell entworfen, um eine neue Ausgabesequenz des POS-Tagging-Modells als eine Sequenz von Paaren aus Morphemen und deren POS-Tags zu erstellen, um die Segmentierung von Wörtern und die Analyse der veränderten Laute gleichzeitig zu ermöglichen. Zweitens wurden ein Konvolutionsnetzwerk und ein Highway-Netzwerk zur Erlangung von Wortrepräsentationen auf Zeichenebene trainiert. Schließlich, um die semantischen Informationen des Eingabewortes bei der Generierung von Sequenzen des POS-Tagging effizienter zu nutzen, haben wir den aus dem Wort-Einbettungs-Generierungsnetzwerk gewonnenen Vektor der Wortrepräsentation mit dem Ausgang eines Encoders des Transformers kombiniert. Den experimentellen Ergebnissen zufolge erreicht das vorgeschlagene Modell eine Leistungsverbesserung um 1,4 % im Vergleich zum Modell ohne Einbeziehung des aus dem Wort-Einbettungsnetzwerk gewonnenen Vektors der Wortrepräsentation, wodurch die Genauigkeit des POS-Taggings 96,1 % beträgt, was allen anderen verglichenen Modellen einschließlich des BiLSTM+CRF-Modells überlegen ist.
Sie et al. (Tue,) haben diese Frage untersucht.