October 16, 2013Open Access

Verteilte Darstellungen von Wörtern und Phrasen und ihre Zusammensetzbarkeit

Key Points

Key points are not available for this paper at this time.

Abstract

Das kürzlich eingeführte kontinuierliche Skip-gram-Modell ist eine effiziente Methode zum Lernen hochwertiger verteilter Vektordarstellungen, die eine große Anzahl präziser syntaktischer und semantischer Wortbeziehungen erfassen. In diesem Artikel stellen wir mehrere Erweiterungen vor, die sowohl die Qualität der Vektoren als auch die Trainingsgeschwindigkeit verbessern. Durch das Subsampling der häufigen Wörter erreichen wir eine signifikante Beschleunigung und erlernen zudem regelmäßigere Wortdarstellungen. Wir beschreiben auch eine einfache Alternative zum hierarchischen Softmax, genannt negative sampling. Eine grundlegende Einschränkung von Wortdarstellungen ist ihre Gleichgültigkeit gegenüber der Wortreihenfolge und ihre Unfähigkeit, idiomatische Phrasen darzustellen. Zum Beispiel lassen sich die Bedeutungen von "Canada" und "Air" nicht leicht kombinieren, um "Air Canada" zu erhalten. Motiviert durch dieses Beispiel präsentieren wir eine einfache Methode zur Erkennung von Phrasen im Text und zeigen, dass es möglich ist, gute Vektordarstellungen für Millionen von Phrasen zu lernen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tomáš Mikolov

Ilya Sutskever

Kai Chen

Actions

Institutions

Google (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Verteilte Darstellungen von Wörtern und Phrasen und ihre Zusammensetzbarkeit

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider