AI 생성 GPU 커널에 대한 수요가 산업과 학계 모두에서 확장 가능하고 하드웨어 최적화된 솔루션의 필요성에 의해 빠르게 증가하고 있습니다. 딥러닝 작업 부하가 복잡성과 다양성 면에서 증가함에 따라, 성능과 생산성 요구를 충족하기 위해 저수준 커널 개발의 자동화가 필수적입니다. 주요 클라우드 제공업체, 반도체 회사 및 연구 기관은 AMD MI300X와 같은 하드웨어에서 전문가 수준의 성능에 근접하면서 수동 최적화 노력을 줄이기 위해 GPU용 AI 기반 코드 생성에 막대한 투자를 하고 있습니다. GPU 프로그래밍을 위한 Python 기반 DSL인 Triton 언어는 성능과 코드 작성 용이성의 균형으로 인해 AI 생성 커널의 인기 대상이 되었습니다. 본 연구에서는 Triton 기반 GPU 커널 평가 스위트와 AMD GPU(AMD MI300X 및 MI250 포함)를 위해 성능이 뛰어난 Triton 코드를 생성하는 최첨단 LLM을 활용한 프레임워크인 GEAK(Generating Efficient AI-centric GPU Kernels)를 소개합니다. GEAK는 Reflexion 스타일 피드백 메커니즘에서 적응한 추론 루프를 사용하여 추론 시 컴퓨팅 확장을 통해 Triton 기반 GPU 커널을 생성합니다. 두 평가 벤치마크에서 GEAK는 직관적인 최첨단 LLM과 Reflexion 기반 생성 파이프라인의 기준치를 크게 능가하여 올바른 코드 생성률을 최대 63%, 실행 속도는 최대 2.59배 빠르게 달성했습니다. 이러한 결과는 다양한 하드웨어 플랫폼 채택 가속화와 전문가 수준 커널 성능에 대한 접근성을 민주화하는 데 있어 GEAK와 같은 에이전트형 코드 생성의 가능성을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jianghui Wang
Vinay Joshi
Saptarshi Majumder
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Thu,)가 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e70db790569dd607ee6535 — DOI: https://doi.org/10.48550/arxiv.2507.23194
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: