Entropie-regulierte Token-Ebenen-Policy-Optimierung für große Sprachmodelle | Synapse