Key points are not available for this paper at this time.
이 프로젝트에서는 Large Language Models(LLMs)의 Abstraction and Reasoning Corpus(ARC) 데이터셋에 대한 유효성을 테스트합니다. 이 데이터셋은 객체 식별, 기본 계산, 기초적인 기하학 원리 등 핵심 개념에 대한 근본적인 이해를 요구하는 추상 추론 능력을 평가하는 대표적인 벤치마크 역할을 합니다. 데이터셋의 작업들은 평가를 위해 프롬프트 기반 형식으로 변환됩니다. 처음에는 제로샷 접근법을 통해 모델들의 가능성을 평가합니다. 이후에는 Chain-of-Thought(CoT) 기법의 적용을 조사하여 모델 성능 개선에 있어 그 역할을 결정하고자 합니다. 결과는 현대 LLM들에 대한 기대가 높음에도 불구하고, 이들 모델이 간단한 ARC 데이터셋 하위 집합에서도 비언어적 영역에서 여전히 어려움을 겪는다는 점을 시사합니다. 본 연구는 이 맥락에서 오픈소스 모델들의 역량에 집중한 최초의 연구입니다. 해당 프로젝트의 코드, 데이터셋, 프롬프트는 GitHub 저장소(https://github.com/Lianga2000/LLMsOnARC)에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Liane Galanti
Ethan Baron
Building similarity graph...
Analyzing shared references across papers
Loading...
Galanti et al. (Sat,) 이 질문에 대해 연구했습니다.
www.synapsesocial.com/papers/68e5fa6bb6db64358758ecfb — DOI: https://doi.org/10.48550/arxiv.2407.18968
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: