August 4, 2025

효율적인 생성형 대형 언어 모델 서비스 구현을 향하여: 알고리즘에서 시스템까지의 조사

Key Points

본 조사는 생성형 대형 언어 모델과 그 실용적 배포 과제에 대한 포괄적 개요를 제공합니다.
LLM의 계산 집약도와 메모리 사용이 서비스 효율성과 성능에 미치는 영향을 다룹니다.
심층 분석은 LLM 서비스 개선을 위한 알고리즘 수정과 혁신적 시스템 설계를 포함합니다.
본 조사에서 얻은 통찰은 LLM 배포 방법론 최적화를 통해 미래 AI 응용을 재구성하는 것을 목표로 합니다.

Abstract

빠르게 진화하는 인공지능(AI) 환경에서 생성형 대형 언어 모델(LLM)은 데이터와 상호작용하는 방식을 혁신적으로 변화시키고 있습니다. 하지만 이러한 모델 배포 시 발생하는 계산 집약도와 메모리 사용량은 특히 낮은 지연시간과 높은 처리량이 요구되는 상황에서 서비스 효율성 측면에서 상당한 도전을 제기합니다. 본 설문 조사는 첨단 AI 혁신과 실용적 시스템 최적화의 교차점에 위치한 머신러닝 시스템(MLSys) 연구 관점에서 효율적인 LLM 서비스 방법론의 필수적 필요성을 다룹니다. 최첨단 알고리즘 수정부터 획기적인 시스템 설계 변경에 이르는 다양한 솔루션을 포괄적으로 분석합니다. 본 조사의 목표는 효율적인 LLM 서비스의 현재 상황과 미래 방향을 포괄적으로 이해시키는 것으로, 연구자와 실무자들이 효과적인 LLM 배포 장벽을 극복하여 AI의 미래를 재형성하는 데 유용한 통찰을 제공하는 것입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xupeng Miao

G. Oliaro

Zhihao Zhang

Journals

ACM Computing Surveys

Actions

Institutions

Carnegie Mellon University

Purdue University West Lafayette

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

효율적인 생성형 대형 언어 모델 서비스 구현을 향하여: 알고리즘에서 시스템까지의 조사

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider