8장. 생성모델

8. 생성모델

🧒 새 이미지·영상을 만드는 AI

VAE = 사진을 "숫자 몇 개"로 압축한 뒤 다시 풀어내기 (잠재공간 학습)
GAN = 위조지폐범(생성기) vs 경찰(판별기)가 싸우며 둘 다 고수가 됨
Diffusion = 사진에 노이즈 점점 넣었다가, 다시 지우며 복원하는 법 배우기

GAN = 짝퉁 가방 만드는 사람과 명품 감정사의 끝없는 대결. 시간이 지나면 짝퉁이 진짜 수준이 됨.

Stable Diffusion = 흐릿한 사진을 포토샵으로 되살리는 기술. 단, 원본이 아니라 "고양이 그려줘"라는 글자 설명만 주면 거기서부터 복원.

확산 모델은 먼저 "완전 노이즈"로 시작 → 천천히 정돈하면서 이미지로 변함. 마치 지우개로 뿌연 유리를 닦아내는 느낌.

생성모델의 목표는 데이터 분포 $p_{\text{data}}(\mathbf{x})$를 근사하여 새 표본을 생성하는 것이다. 주요 계통:

8.1 변분 오토인코더 (VAE)

Kingma & Welling(2014)의 VAE는 잠재변수 $\mathbf{z}$에 대한 베이즈적 생성모델 $p_\theta(\mathbf{x}, \mathbf{z}) = p_\theta(\mathbf{x}|\mathbf{z})p(\mathbf{z})$을 변분 추론으로 학습한다. 마진 우도의 하한인 ELBO: \[ \log p_\theta(\mathbf{x}) \geq \mathbb{E}_{q_\phi(\mathbf{z}|\mathbf{x})}[\log p_\theta(\mathbf{x}|\mathbf{z})] - D_{\text{KL}}(q_\phi(\mathbf{z}|\mathbf{x})\|p(\mathbf{z})) \] 재매개변수화 기법 $\mathbf{z} = \mu + \sigma \odot \epsilon$, $\epsilon \sim \mathcal{N}(0,I)$은 확률적 노드를 통한 역전파를 가능하게 했다. VAE의 표본은 흐릿한 경향이 있으나 잠재공간이 매끄럽고 해석 가능하다.

8.2 생성적 적대 신경망 (GAN)

Goodfellow et al.(2014)의 GAN은 생성기 $G$와 판별기 $D$의 미니맥스 게임으로 훈련된다: \[ \min_G \max_D \; \mathbb{E}_{\mathbf{x}\sim p_{\text{data}}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z}\sim p_{\mathbf{z}}}[\log(1-D(G(\mathbf{z})))] \] 최적 판별기 하에서 이 목적은 $p_{\text{data}}$와 $p_G$ 사이의 Jensen-Shannon 발산 최소화와 동치이다. DCGAN, StyleGAN, BigGAN 등은 고품질 이미지 생성을 가능하게 했으나, 모드 붕괴(mode collapse)와 훈련 불안정성이 고질적 문제였다. Wasserstein GAN(Arjovsky et al., 2017)은 Earth-Mover 거리를 사용해 이를 완화했다.

8.3 확산 모델 (Diffusion Models)

Ho et al.(2020) DDPM은 현재 이미지·비디오·오디오 생성의 지배적 패러다임이다. 순방향 과정은 데이터에 가우시안 노이즈를 점진적으로 추가한다: \[ q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1-\beta_t}\mathbf{x}_{t-1}, \beta_t \mathbf{I}) \] 역방향 과정 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$를 신경망으로 학습한다. 단순화된 훈련 목표: \[ \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, \mathbf{x}_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t)\|^2\right] \] 즉, 네트워크 $\epsilon_\theta$는 어떤 노이즈가 더해졌는지를 예측한다.

t=0 · 원본

t=200

t=500

t=800

t=T · 노이즈

그림 11. 확산 과정의 순방향 (→): 이미지에 점진적으로 노이즈 추가. 역방향 (←): 신경망이 노이즈를 예측해 제거. Stable Diffusion은 후자를 학습한다.

Song et al.(2021)은 이를 스코어 기반 관점에서 통합하였다: $\nabla_\mathbf{x} \log p(\mathbf{x})$를 학습하는 것과 동치임을 보임. Rombach et al.(2022)의 Latent Diffusion Model (Stable Diffusion)은 VAE로 압축된 잠재공간에서 확산을 수행해 효율을 크게 높였다. 조건부 생성은 Classifier-Free Guidance(Ho & Salimans, 2022): \[ \tilde\epsilon_\theta(\mathbf{x}_t, c) = \epsilon_\theta(\mathbf{x}_t, \varnothing) + w[\epsilon_\theta(\mathbf{x}_t, c) - \epsilon_\theta(\mathbf{x}_t, \varnothing)] \] 로 달성된다.

8.4 Flow Matching과 Rectified Flow

Lipman et al.(2023)의 Flow Matching과 Liu et al.(2023)의 Rectified Flow는 확산 모델을 연속 정규화 흐름(CNF) 관점에서 일반화한다. 데이터와 노이즈 사이를 잇는 벡터장을 직접 학습하며, 훈련이 단순하고 샘플링이 효율적이다. Stable Diffusion 3(2024)와 Flux는 이 프레임워크를 채택하였다.

그림 12. GAN의 적대적 학습 구조. G는 D를 속이려 하고, D는 진위를 구별하려 한다. 두 네트워크가 경쟁하며 균형점(Nash Equilibrium)에 도달.

← 대규모 언어모델 강화학습·멀티모달 →