9-10장. 강화학습과 멀티모달 AI

9. 강화학습

🧒 강화학습 = 강아지 훈련

잘하면 간식(보상), 잘못하면 무보상. 계속 시도 → 스스로 최적 전략을 찾는다.

AlphaGo = 수백만 번 자기 자신과 바둑 두며 실력 쌓기
게임 AI = 마리오 1억 번 플레이하며 클리어법 터득
Q값 = "이 상황에서 이 행동하면 미래에 얼마나 좋아지는가?" 기대 점수

AlphaFold는 강화학습은 아니지만, "50년 난제"였던 단백질 구조 예측을 풀어낸 역사적 사건. 신약 개발 속도를 획기적으로 올림.

강화학습(RL)은 에이전트가 환경과의 상호작용을 통해 누적 보상을 최대화하는 정책을 학습하는 패러다임이다. Markov Decision Process (MDP) $(\mathcal{S}, \mathcal{A}, P, r, \gamma)$에서 목표는: \[ \pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t r_t\right] \]

9.1 가치 함수와 Bellman 방정식

상태가치 $V^\pi(s) = \mathbb{E}^\pi[G_t | s_t = s]$, 행동가치 $Q^\pi(s,a)$는 다음을 만족한다: \[ Q^\pi(s,a) = \mathbb{E}[r + \gamma \mathbb{E}_{a'\sim\pi}[Q^\pi(s',a')]] \] 최적 가치는 Bellman 최적방정식의 고정점이다.

9.2 주요 알고리즘

Q-Learning: $Q(s,a) \leftarrow Q(s,a) + \alpha[r + \gamma \max_{a'}Q(s',a') - Q(s,a)]$. Tabular 설정에서 최적으로 수렴.
DQN(Mnih et al., 2015): 신경망으로 $Q$ 근사, 경험 재현과 타겟 네트워크로 안정화. Atari에서 인간 수준 달성.
REINFORCE: $\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot G_t]$. 정책 그래디언트의 기본형.
Actor-Critic: 정책(actor)과 가치(critic)를 동시 학습. A2C, A3C.
PPO(Schulman et al., 2017): 클리핑된 대리 목적함수로 안정적 업데이트. LLM 정렬에 사용.
SAC(Haarnoja et al., 2018): 최대 엔트로피 RL. 연속 제어의 표준.

9.3 주요 성과

AlphaGo(Silver et al., 2016)는 MCTS와 딥러닝을 결합해 이세돌을 이겼다. AlphaZero(2017)는 인간 기보 없이 자기대국만으로 바둑·체스·쇼기를 초인 수준으로 정복했다. AlphaStar, OpenAI Five는 실시간 전략·MOBA 게임에서 프로를 이겼다. AlphaFold 2(Jumper et al., 2021)는 단백질 구조 예측의 "50년 문제"를 해결하였다.

10. 멀티모달 AI

🧒 멀티모달 = 여러 감각을 하나로

이미지·텍스트·소리를 다 이해하는 AI. 핵심 아이디어: 모두 같은 "벡터 공간"에 놓기.

여러 나라 말(이미지어, 글자어, 소리어)을 하나의 "번역기 언어"로 통일. 그 언어로는 고양이 사진 = "고양이"라는 글자 = "야옹" 소리.

CLIP: "이 사진이 '강아지 달리기'라는 설명과 얼마나 어울리나?" 계산기
GPT-4V / Claude 3: 사진 보여주면 설명하고 질문에 답하는 AI
Sora / Veo: 글 쓰면 영상을 만들어줌

그림 13. CLIP의 대조학습. 4억 쌍의 (이미지, 텍스트)를 공유 벡터공간에 매핑하여 제로샷 분류·검색·생성 조건 부여를 가능하게 했다.

10.1 CLIP과 대조 학습

Radford et al.(2021)의 CLIP은 4억 쌍의 (이미지, 텍스트)에 대해 InfoNCE 손실로 공동 임베딩 공간을 학습하였다: \[ \mathcal{L} = -\log \frac{\exp(\mathrm{sim}(I_i, T_i)/\tau)}{\sum_{j}\exp(\mathrm{sim}(I_i, T_j)/\tau)} \] 결과 모델은 제로샷 분류, 텍스트-이미지 검색, 그리고 Stable Diffusion의 텍스트 조건부여에서 핵심 구성요소가 되었다.

10.2 시각-언어 모델 (VLM)

GPT-4V, Claude 3, Gemini, LLaVA는 이미지를 LLM의 입력 공간으로 사영하는 어댑터를 두어 멀티모달 대화를 가능하게 한다. 전형적 구조: CLIP/SigLIP 비전 인코더 → MLP 또는 Q-Former → LLM.

10.3 텍스트-투-비디오와 세계 모델

Sora(2024), Veo, Kling 등은 잠재 확산과 Transformer 백본을 결합한 텍스트-투-비디오 모델이다. 이들이 암묵적 세계 모델을 학습하는지에 대한 논쟁이 있으며, 물리적 일관성은 여전히 활발한 연구 주제이다.

← 생성모델 안전성·프런티어 →