VideoLLaMA 2: Avanzando en el Modelado Espacio-Temporal y la Comprensión de Audio en Video-LLMs | Synapse