Key points are not available for this paper at this time.
Sprache ist im Wesentlichen ein komplexes, verschachteltes System menschlicher Ausdrucksweisen, das durch grammatikalische Regeln gesteuert wird. Es stellt eine bedeutende Herausforderung dar, fähige KI-Algorithmen zur Verständigung und Erfassung einer Sprache zu entwickeln. Als ein wichtiger Ansatz wurde das Sprachmodellieren in den vergangenen zwei Jahrzehnten breit erforscht, um Sprache zu verstehen und zu generieren, und entwickelte sich von statistischen Sprachmodellen zu neuronalen Sprachmodellen. Kürzlich wurden vortrainierte Sprachmodelle (PLMs) durch das Vortrainieren von Transformer-Modellen über umfangreiche Korpora vorgeschlagen, die starke Fähigkeiten bei der Lösung verschiedener NLP-Aufgaben zeigen. Da Forscher festgestellt haben, dass das Skalieren von Modellen zu Leistungsverbesserungen führen kann, untersuchen sie den Skalierungseffekt weiter durch die Vergrößerung der Modellgröße auf ein noch größeres Ausmaß. Interessanterweise erreichen diese vergrößerten Sprachmodelle, wenn die Parameterzahl ein bestimmtes Niveau überschreitet, nicht nur eine signifikante Leistungssteigerung, sondern zeigen auch spezielle Fähigkeiten, die bei kleineren Sprachmodellen nicht vorhanden sind. Um den Unterschied in der Parametergröße zu unterscheiden, hat die Forschungsgemeinschaft den Begriff große Sprachmodelle (LLM) für PLMs signifikanter Größe geprägt. Kürzlich wurde die Forschung an LLMs sowohl von der Wissenschaft als auch der Industrie stark vorangetrieben, und ein bemerkenswerter Fortschritt ist die Einführung von ChatGPT, die breite gesellschaftliche Aufmerksamkeit erregt hat. Die technische Entwicklung von LLMs hat einen wichtigen Einfluss auf die gesamte KI-Gemeinschaft, der die Art und Weise revolutionieren wird, wie wir KI-Algorithmen entwickeln und nutzen. In dieser Übersicht rezensieren wir die jüngsten Fortschritte bei LLMs, indem wir den Hintergrund, wichtige Erkenntnisse und gängige Techniken vorstellen. Dabei konzentrieren wir uns insbesondere auf vier Hauptaspekte von LLMs, nämlich Vortraining, Anpassungs-Tuning, Nutzung und Kapazitätsbewertung. Außerdem fassen wir verfügbare Ressourcen zur Entwicklung von LLMs zusammen und diskutieren verbleibende Fragen für zukünftige Richtungen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wayne Xin Zhao
Kun Zhou
Junyi Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Fri,) haben diese Frage untersucht.
www.synapsesocial.com/papers/69d7beabf39344339dd17de0 — DOI: https://doi.org/10.48550/arxiv.2303.18223