Key points are not available for this paper at this time.
고품질의 지침 데이터는 대형 언어 모델(LLM)을 정렬하는 데 매우 중요합니다. Llama-3-Instruct와 같은 일부 모델은 가중치를 공개하고 있지만, 이들의 정렬 데이터는 비공개로 남아 있어 AI의 민주화에 제약이 됩니다. 높은 인건비와 한정적이며 미리 정의된 프롬프트 범위는 기존 오픈소스 데이터 생성 방법의 확장성을 제한하여 공개 정렬 데이터셋의 다양성과 품질을 저해할 수 있습니다. 정렬된 LLM에서 직접 추출하여 대규모로 고품질 지침 데이터를 합성할 수 있을까요? 우리는 Magpie라 명명한 대규모 정렬 데이터 생성용 자기합성(self-synthesis) 방법을 제시합니다. 주된 관찰은 Llama-3-Instruct 같은 정렬된 LLM이 자동회귀(autoregressive) 특성 덕분에 사용자 메시지를 위한 위치까지 왼쪽 템플릿만 입력해도 사용자 쿼리를 생성할 수 있다는 점입니다. 이를 활용해 Llama-3-Instruct를 프롬프트하여 400만 개의 지침과 그에 따른 응답을 생성했습니다. 추출한 데이터를 종합적으로 분석하고 30만 개의 고품질 인스턴스를 선별했습니다. Magpie 데이터를 다른 공개 지침 데이터셋과 비교하기 위해 각 데이터셋으로 Llama-3-8B-Base를 파인튜닝하고, 파인튜닝된 모델들의 성능을 평가했습니다. 결과는 일부 작업에서 Magpie로 파인튜닝한 모델이 공식 Llama-3-8B-Instruct 모델과 비슷한 성능을 보였음을 나타냅니다. 후자는 1천만 건의 데이터로 감독 학습 및 피드백 학습을 거쳐 향상된 모델임에도 불구하고 그렇습니다. 또한 Magpie를 사용해 감독 학습만 수행해도, 감독학습과 선호도 최적화(예: UltraFeedback에 의한 직접 선호도 최적화)에 이용된 이전 공개 데이터셋보다 우수한 성능을 달성할 수 있음을 보여줍니다. 이 이점은 AlpacaEval, ArenaHard, WildBench와 같은 정렬 벤치마크에서 분명히 나타납니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhangchen Xu
Fengqing Jiang
Luyao Niu
Building similarity graph...
Analyzing shared references across papers
Loading...
Xu 등(Wed,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e650bab6db6435875e18da — DOI: https://doi.org/10.48550/arxiv.2406.08464