What question did this study set out to answer?

To present ocs-planner, a system optimizing GPU rack assignment and OCS scheduling for AI workloads.

March 15, 2026Open Access

OCS-Planner: Sub-15ms Optical Fabric Reconfiguration for Disaggregated LLM Inference

Key Points

To present ocs-planner, a system optimizing GPU rack assignment and OCS scheduling for AI workloads.
Developed an OCS-Planner system
Optimized GPU rack allocation and OCS scheduling
Analyzed mixed AI workloads such as training and inference
Reduced cluster execution time by 13.4%
Decreased network energy consumption by 90.7%
Lowered AllReduce latency by 7.5 times for models with 405 bytes of parameters

Abstract

Аннотация. Крупномасштабные кластеры GPU для обучения и вывода LLM сталкиваются с фундаментальным противоречием: электрические магистрали InfiniBand энергоемки и топологически негибки, в то время как недавно появившееся оборудование оптических коммутаторов (OCS) — MEMS-коммутаторы с 300×300 портами и скоростью 800 Гбит/с на канал — остается недоступным из-за отсутствия программного обеспечения для планирования. Мы представляем OCS-Planner, первую систему планирования, которая совместно оптимизирует назначение стоек GPU и программирование схем OCS для смешанных рабочих нагрузок ИИ. OCS-Planner включает в себя упаковку стоек с учетом NVLink, модель стоимости AllReduce, откалиброванную по параметрам оборудования OCS и CPO, и MEMS-планировщик реконфигурации с циклическим распределением, обеспечивающий накладные расходы на реконфигурацию менее 15 мс на задание. На смоделированном кластере из 1152 графических процессоров (16×NVL72) с 22 смешанными рабочими нагрузками (обучение, тонкая настройка, вывод) OCS-Planner сокращает общее время выполнения кластера на 13,4%, снижает энергопотребление сетевого уровня на 90,7% и уменьшает задержку AllReduce для моделей с 405 байтами параметров в 7,5 раз по сравнению с базовым вариантом с электрическим InfiniBand. OCS-Planner выводит расписания реконфигурации в формате YAML, которые напрямую используются API-интерфейсами плоскости управления NVIDIA Quantum-X и Spectrum-X.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

LastName FirstName

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

OCS-Planner: Sub-15ms Optical Fabric Reconfiguration for Disaggregated LLM Inference

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study