What question did this study set out to answer?

이 논문은 자연어 처리에 사용되는 Transformer 아키텍처에 대한 상세한 기술 개요를 제공하는 것을 목표로 한다.

April 27, 2026Open Access

주의(attention)에서 추론(inference)까지 - 대형 언어 모델의 기술적 연구

Key Points

이 논문은 자연어 처리에 사용되는 Transformer 아키텍처에 대한 상세한 기술 개요를 제공하는 것을 목표로 한다.
자체 주의(self-attention), 토큰화(tokenization), 위치 인코딩(positional encoding) 등 Transformer 아키텍처의 핵심 구성 요소를 검토한다.
인코더 전용, 디코더 전용, 인코더-디코더 등의 모델 군을 논의한다.
KV 캐싱, 처리량, VRAM 사용량과 같은 시스템 수준 고려사항을 분석한다.
기계학습과 NLP 분야 실무자 및 학생들을 위한 체계적인 참고자료를 제시한다.
효과적인 추론을 위해 사전학습(pretraining)과 미세조정(fine-tuning)의 중요성을 강조한다.
모델 성능에 중요하게 작용하는 최초 토큰 시간(Time to First Token) 등의 지표를 논의한다.

Abstract

이 논문은 Transformer 아키텍처와 현대 자연어 처리(NLP)에서의 역할에 대한 기술적 개요를 제시한다. 자체 주의 메커니즘(self-attention), 토큰화(tokenization), 위치 인코딩(positional encoding), 모델 군(인코더 전용, 디코더 전용, 인코더-디코더), 사전학습 목표(pretraining objectives), 미세조정(fine-tuning), 추론 과정(inference process) 등 패러다임의 핵심 구성요소를 검토한다. KV 캐싱, 최초 토큰 시간(Time to First Token), 처리량(throughput), VRAM 사용량과 같은 시스템 수준 고려사항도 다룬다. 본 논문은 기계학습과 NLP 분야에서 일하는 실무자와 학생들을 위한 체계적인 기술 참고문헌으로 기획되었다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

THOMAS SIOUMPALAS

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

주의(attention)에서 추론(inference)까지 - 대형 언어 모델의 기술적 연구

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider