Key points are not available for this paper at this time.
이 연구에서는 CT-LLM을 소개합니다. 이는 20억 파라미터의 대형 언어 모델(LLM)으로, LLM 개발에서 중국어를 우선시하는 중요한 전환을 보여줍니다. CT-LLM은 처음부터 독자적으로 시작되었으며, 전통적인 방법과 달리 주로 중국어 텍스트 데이터를 포함하여 1,200억 토큰의 방대한 코퍼스를 활용합니다. 이 코퍼스는 800억 중국어 토큰, 300억 영어 토큰, 100억 코드 토큰을 포함합니다. 이러한 전략적 구성은 모델이 중국어를 이해하고 처리하는 뛰어난 능력을 가능하게 하며, 정렬 기법을 통해 이 역량이 더욱 강화되었습니다. CHC-Bench에서 뛰어난 성능을 보여주는 CT-LLM은 중국어 과제에서 탁월하며, SFT를 통해 영어 능력도 발휘합니다. 본 연구는 주로 영어 코퍼스에서 LLM을 훈련시키고 이를 다른 언어에 맞추는 기존 패러다임에 도전하며 LLM 훈련 방법론의 범위를 넓힙니다. 또한, 획득한 대규모 적합 사전학습 중국어 코퍼스(MAP-CC), 신중하게 선정된 다학제 중국어 난제 벤치마크(CHC-Bench), 20억 파라미터 크기의 Chinese Tiny LLM(CT-LLM)을 포함한 중국어 LLM 훈련 전 과정을 오픈소스화함으로써, 학계와 산업계에서의 추가 탐구와 혁신을 촉진하고 보다 포괄적이고 다재다능한 언어 모델 개발에 기여하고자 합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinrun Du
Zhouliang Yu
Songyang Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Du 등(금요일)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e70336b6db64358767da8e — DOI: https://doi.org/10.48550/arxiv.2404.04167
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: