Steigerung der Inferenz-Effizienz großer Sprachmodelle: Untersuchung von Optimierungsstrategien und architektonischen Innovationen | Synapse