기존 First-In First-Out(FIFO), Shortest Job First(SJF) 등의 규칙 기반 GPU 스케줄러는 전문가의 도메인 지식에 의존하며, 복잡한 작업 구성이나 비정형적 시스템 환경 변화에 유연하게 대응하기 어렵다. 본 연구에서는 이러한 한계를 극복하기 위해, 명시적 규칙 설계 없이 스케줄링 데이터로부터 정책을 학습하는 Large Language Model(LLM) 기반 GPU 클러스터 스케줄러를 제안한다. 제안 방법은 LlamaRec의 LLMRanker(Llama-2-7B, LoRA 기반 PEFT)를 Job Sorter로 활용하며, 알리바바 GPU 작업 트레이스 기반 시뮬레이터에서 생성된 SJF 정책 데이터로 학습한다. 이 접근법은 규칙을 재설계할 필요 없이 데이터 추가 및 교체를 통한 재학습만으로 환경 변화에 대응할 수 있으며, 데이터 품질과 양에 따라 성능 향상도 기대할 수 있다. 실험 결과, LLMRanker는 Normalized Discounted Cumulative Gain(NDCG) 및 Kendall's tau 지표에서 높은 순위 예측 성능을 보였으며, GPU 클러스터 시뮬레이션에서 Job Completion Time(JCT), 대기 시간, makespan, GPU 활용률 모두 SJF와 동등한 수준을 달성하였다.
Hwang et al. (Tue,) studied this question.