7장. 대규모 언어모델

7. 대규모 언어모델 (Large Language Models)

🧒 LLM (ChatGPT) 작동 원리

인터넷 전부 읽고 "다음 단어 맞추기" 게임을 수조 번 연습한 모델. 그러다 보니 번역·요약·코딩·수학까지 다 하게 됨.

사전학습 = 태어나서 책만 10억 권 읽은 도서관 귀신
RLHF 정렬 = 예절 교육 ("험한 말 쓰지 마", "도움되게 말해")
RAG = 책상에 사전 펼쳐두고 참고하며 답하기
Chain-of-Thought = "단계별로 생각해봐"라고 하면 훨씬 잘함

스케일링 법칙: 모델 크기를 2배 → 4배 → 8배로 키우면 성능도 꾸준히 좋아진다. 어느 크기 넘으면 갑자기 새로운 능력이 생김(창발). 작은 모델은 3자리 덧셈 못 하다가 어느 순간 됨.

o1 / DeepSeek-R1: "생각할 시간을 더 줄게" — 답하기 전에 오래 고민하는 모델. 수학·코딩에서 도약적 성능.

7.1 사전학습의 본질: 다음 토큰 예측

LLM의 사전학습 목표는 놀라울 정도로 단순하다: \[ \mathcal{L}_{\text{LM}}(\theta) = -\sum_{t=1}^T \log p_\theta(x_t \mid x_{자기회귀 언어모델링이며, 토크나이저(주로 BPE 또는 SentencePiece)로 분할된 토큰열에 대해 수행된다. Sutskever(2023)의 주장: 다음 토큰을 정확히 예측하기 위해서는 세계에 대한 모델이 필요하므로, 이 단순한 목표가 압축을 통해 지능의 씨앗을 발아시킨다.

토큰화 (Tokenization)

Byte-Pair Encoding (BPE)은 가장 빈번한 바이트 쌍을 반복적으로 병합하여 서브워드 어휘를 구축한다. 현대 모델은 50K~200K 규모의 어휘를 사용한다. 토큰화의 선택은 다국어 성능, 숫자 처리, 코드 성능에 큰 영향을 미친다.

7.2 스케일링 법칙 (Scaling Laws)

Kaplan et al.(2020)은 LLM 손실이 파라미터 수 $N$, 데이터 크기 $D$, 계산량 $C$에 대해 거듭제곱 관계를 따름을 보였다: \[ \mathcal{L}(N) = (N_c / N)^{\alpha_N}, \quad \alpha_N \approx 0.076 \] Hoffmann et al.(2022)의 Chinchilla 연구는 Kaplan의 처방을 수정하여, 주어진 계산 예산 하에서 최적 모델은 파라미터와 토큰을 대략 동등한 비율로 확장해야 함을 보였다: $N \propto C^{0.5}$, $D \propto C^{0.5}$. 경험칙으로 "토큰 수 $\approx$ 20 × 파라미터 수"가 Chinchilla-optimal로 알려졌다. 최근(Llama 3, 2024)에는 추론 비용을 고려해 더 많은 데이터로 작은 모델을 과훈련하는 경향이 있다.

그림 9. 스케일링 법칙. 연산량(FLOPs)이 증가할수록 손실이 거듭제곱 법칙을 따라 감소한다. 로그-로그 좌표에서 직선을 그린다.

계산 최적성 표

표 1. 주요 LLM의 스케일링 추이. T/P가 커질수록 추론 효율을 위한 과훈련.
모델	파라미터	훈련 토큰	비율 (T/P)
GPT-3 (2020)	175B	300B	1.7×
Chinchilla (2022)	70B	1.4T	20×
Llama 2 (2023)	70B	2T	29×
Llama 3 (2024)	70B	15T	214×

7.3 창발적 능력 (Emergent Abilities)

Wei et al.(2022)은 특정 능력(다단계 산술, 다국어 추론 등)이 특정 스케일 이하에서는 무작위 수준이다가 임계 스케일을 넘어서면 급격히 출현함을 보고하였다. 이를 창발이라 부른다. Schaeffer et al.(2023)은 이것이 실제 불연속적 상전이가 아니라 평가 지표의 불연속성에 기인한 인위적 현상이라 주장하여 논쟁 중이다. 그럼에도 in-context learning, chain-of-thought, 코드 생성 등은 규모 의존적으로 질적 차이를 보인다는 점은 경험적으로 명백하다.

7.4 정렬과 RLHF

사전학습된 기본 모델(base model)은 도움됨이나 무해성이 아니라 단지 그럴듯함을 학습할 뿐이다. 실용적 어시스턴트로 만드는 과정이 정렬(alignment)이다. Ouyang et al.(2022) InstructGPT의 파이프라인:

지도 미세조정(SFT): 사람이 작성한 시연 데이터로 파인튜닝.
보상 모델(RM) 학습: 쌍별 선호 데이터 $(y_w \succ y_l \mid x)$로 보상함수 학습. Bradley-Terry 모델에 기반한 손실: \[ \mathcal{L}_{\text{RM}} = -\log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l)) \]
PPO를 통한 강화학습: 보상 $r_\phi$를 최대화하되, 기준 모델과의 KL 발산으로 정규화: \[ \max_\theta \mathbb{E}[r_\phi(x,y) - \beta \cdot D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})] \]

Rafailov et al.(2023)의 DPO (Direct Preference Optimization)는 명시적 보상 모델과 RL 단계를 우회하여, 다음의 닫힌 형태의 손실로 직접 최적화한다: \[ \mathcal{L}_{\text{DPO}} = -\mathbb{E}\!\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right] \] 단순성과 안정성 때문에 현재 오픈소스 정렬의 표준에 가깝다. 후속 기법: IPO, KTO, GRPO, SimPO 등.

그림 10. RLHF (Reinforcement Learning from Human Feedback) 3단계 파이프라인. InstructGPT/ChatGPT가 개척한 현대 정렬 표준.

헌법 AI (Constitutional AI, Anthropic)

Bai et al.(2022)의 접근은 사람 레이블러 대신 AI 피드백(RLAIF)을 사용하며, 모델이 "헌법"(일련의 원칙)을 참조해 자기비판과 수정을 수행하도록 한다. 이는 인간 라벨링의 병목과 일관성 문제를 완화한다.

7.5 추론 능력과 테스트-타임 스케일링

Wei et al.(2022) Chain-of-Thought (CoT) prompting: "step by step"이라는 단순한 지시만으로 다단계 추론 문제 성능이 극적으로 향상됨을 보임. 이는 LLM이 내부적으로 문제 해결 궤적을 생성할 수 있음을 시사한다.

2024년 OpenAI o1의 등장은 새로운 패러다임을 열었다: 테스트-타임 계산 스케일링. 사전학습 계산을 늘리는 대신, 추론 시 긴 내부 사고 사슬을 생성하도록 학습된 모델은 수학·코딩·과학 벤치마크에서 도약적 성능을 보였다. DeepSeek-R1(2025)은 순수 RL(GRPO)만으로 추론 능력이 창발함을 공개적으로 입증하였다.

검색 증강 생성 (RAG)

Lewis et al.(2020)은 질의와 관련된 문서를 외부 지식베이스에서 검색하여 프롬프트에 주입함으로써, 파라미터에 지식을 저장하는 부담을 줄이고 최신성·출처 제공이 가능한 프레임워크를 제시했다. RAG의 구성요소: 임베딩 모델, 벡터 데이터베이스(FAISS, Milvus), 재순위(reranker), 생성기.

← Transformer 생성모델 →