빠르게 진화하는 인공지능(AI) 환경에서 생성형 대형 언어 모델(LLM)은 데이터와 상호작용하는 방식을 혁신적으로 변화시키고 있습니다. 하지만 이러한 모델 배포 시 발생하는 계산 집약도와 메모리 사용량은 특히 낮은 지연시간과 높은 처리량이 요구되는 상황에서 서비스 효율성 측면에서 상당한 도전을 제기합니다. 본 설문 조사는 첨단 AI 혁신과 실용적 시스템 최적화의 교차점에 위치한 머신러닝 시스템(MLSys) 연구 관점에서 효율적인 LLM 서비스 방법론의 필수적 필요성을 다룹니다. 최첨단 알고리즘 수정부터 획기적인 시스템 설계 변경에 이르는 다양한 솔루션을 포괄적으로 분석합니다. 본 조사의 목표는 효율적인 LLM 서비스의 현재 상황과 미래 방향을 포괄적으로 이해시키는 것으로, 연구자와 실무자들이 효과적인 LLM 배포 장벽을 극복하여 AI의 미래를 재형성하는 데 유용한 통찰을 제공하는 것입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xupeng Miao
G. Oliaro
Zhihao Zhang
ACM Computing Surveys
Carnegie Mellon University
Purdue University West Lafayette
Building similarity graph...
Analyzing shared references across papers
Loading...
Miao 등은 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/689a0f8de6551bb0af8d0d7e — DOI: https://doi.org/10.1145/3754448
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: