Аннотация. Крупномасштабные кластеры GPU для обучения и вывода LLM сталкиваются с фундаментальным противоречием: электрические магистрали InfiniBand энергоемки и топологически негибки, в то время как недавно появившееся оборудование оптических коммутаторов (OCS) — MEMS-коммутаторы с 300×300 портами и скоростью 800 Гбит/с на канал — остается недоступным из-за отсутствия программного обеспечения для планирования. Мы представляем OCS-Planner, первую систему планирования, которая совместно оптимизирует назначение стоек GPU и программирование схем OCS для смешанных рабочих нагрузок ИИ. OCS-Planner включает в себя упаковку стоек с учетом NVLink, модель стоимости AllReduce, откалиброванную по параметрам оборудования OCS и CPO, и MEMS-планировщик реконфигурации с циклическим распределением, обеспечивающий накладные расходы на реконфигурацию менее 15 мс на задание. На смоделированном кластере из 1152 графических процессоров (16×NVL72) с 22 смешанными рабочими нагрузками (обучение, тонкая настройка, вывод) OCS-Planner сокращает общее время выполнения кластера на 13,4%, снижает энергопотребление сетевого уровня на 90,7% и уменьшает задержку AllReduce для моделей с 405 байтами параметров в 7,5 раз по сравнению с базовым вариантом с электрическим InfiniBand. OCS-Planner выводит расписания реконфигурации в формате YAML, которые напрямую используются API-интерфейсами плоскости управления NVIDIA Quantum-X и Spectrum-X.
Building similarity graph...
Analyzing shared references across papers
Loading...
LastName FirstName
Building similarity graph...
Analyzing shared references across papers
Loading...
LastName FirstName (Fri,) studied this question.
www.synapsesocial.com/papers/69b5ff6e83145bc643d1beed — DOI: https://doi.org/10.5281/zenodo.18995555