मॉडल संपीड़न और बड़े भाषा मॉडलों के लिए कुशल इंफरेंस: एक सर्वेक्षण | Synapse