Key points are not available for this paper at this time.
많은 수십억 규모의 대형 언어 모델(LLM)이 리소스가 제한된 모바일 기기를 위해 출시되어, 클라우드 기반의 강력한 LLM이 없을 때 로컬 LLM 추론 서비스를 제공합니다. 그러나 현재 기기 내 LLM의 능력은 여전히 클라우드 기반 LLM보다 뒤처져 있으며, 기기 내 LLM 추론을 효과적이고 효율적으로 향상시키는 방법이 실무적으로 요구됩니다. 이에 우리는 사용자의 클라우드 기반 LLM과의 과거 상호작용을 수집하고, 최근접 이웃 검색을 활용해 모바일 기기에서 향상을 위한 외부 데이터 저장소를 구축할 것을 제안합니다. 그러나 전체 데이터 저장소는 토큰 생성 품질을 개선하지만, 허용할 수 없을 정도로 느린 생성 속도를 초래합니다. 성능과 효율성의 균형을 맞추기 위해, 우리는 주어진 크기 제한 내에서 전체 데이터 저장소의 최적 부분집합을 선택하는데, 그 최적화 목표는 준서브모듈러임이 증명되었습니다. 또한 전체 데이터 저장소 구축 후 부분집합을 선택하는 오프라인 알고리즘과, 스트림을 통해 선택을 수행하고 유연하게 스케줄링할 수 있는 온라인 알고리즘을 설계합니다. 이론적으로 오프라인 및 온라인 설계의 성능 보장과 시간 복잡도를 분석하여 효과성과 확장성을 입증합니다. 마지막으로 세 개의 ChatGPT 관련 대화 데이터셋과 네 종류의 다른 기기 내 LLM을 평가에 사용합니다. 평가 결과 제안된 설계가 토큰 생성 속도를 유지하면서도 혼란도(perplexity) 측면에서 LLM 성능을 현저히 향상시키는 것을 보여줍니다. 스마트폰에서의 실제 오버헤드 테스트는 메모리 사용량과 계산 오버헤드 측면에서 기기 내 데이터 저장소 부분집합 선택의 효율성을 드러냅니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yucheng Ding
Chaoyue Niu
Fan Wu
Shanghai Jiao Tong University
The University of Texas at Dallas
Alibaba Group (China)
Building similarity graph...
Analyzing shared references across papers
Loading...
Ding 등(Sat,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5b027b6db643587549feb — DOI: https://doi.org/10.1145/3637528.3671679
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: