April 2, 2024Open Access

Verbesserung der Inferenz-Effizienz großer Sprachmodelle: Untersuchung von Optimierungsstrategien und architektonischen Innovationen

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle wachsen an Größe, und wir erwarten, dass dies so weitergeht, da größere Modelle schneller trainieren. Diese Größenzunahme wird jedoch die Inferenzkosten erheblich beeinflussen. Daher ist Modellkompression wichtig, um die Leistung größerer Modelle beizubehalten, jedoch mit reduzierten Betriebskosten. In dieser Arbeit untersuchen wir Methoden der Modellkompression und zeigen empirisch, dass die einfache Methode, spätere Attention-Unterebenen in Transformer-LLMs zu überspringen, eine effektive Kompressionsmethode darstellt, da diese Schichten redundant sind und gleichzeitig sehr rechenaufwendig. Wir beobachteten eine 21 % schnellere Ein-Token-Generierung beim Llama 2 7B, wobei überraschenderweise und unerwartet die Leistung bei mehreren gängigen Benchmarks verbessert wurde.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Georgy Tyukin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Verbesserung der Inferenz-Effizienz großer Sprachmodelle: Untersuchung von Optimierungsstrategien und architektonischen Innovationen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider