अधिक प्रभावशीलता की ओर: कुशल मिश्र-विशेषज्ञ भाषा मॉडलों के लिए स्केलिंग नियम | Synapse