5. 신경망과 딥러닝

🧒 신경망이란?

뉴런 = 스위치 하나. 입력 몇 개 받아서 그게 충분히 크면 "on", 작으면 "off". 이걸 수천만 개 쌓으면 고양이 사진도 알아본다.

뉴런 = 소문 퍼뜨리는 사람. 친구 3명 말을 종합해서 판단 후 다음 사람에게 전달. 이 체인이 수백 층.
역전파 = 게임에서 졌을 때 "어느 단계부터 잘못됐지?" 거꾸로 추적하며 고치기. AI가 학습하는 방법.
ReLU 활성함수 = "음수는 그냥 0으로 해버리자" (양수만 살림). 단순한데 엄청 잘 먹힌다.

💡 CNN은 이미지용 (작은 윈도우로 스캔하며 패턴 찾기 = 돋보기). LSTM은 시퀀스용 (기억 게이트로 중요한 것만 간직).

입력층
Input
x ∈ ℝᵈ
은닉 1
Hidden
ReLU
은닉 2
Hidden
ReLU
은닉 3
Hidden
ReLU
출력층
Softmax

그림 2. 다층 퍼셉트론(MLP)의 3D 구조. 각 층은 선형 변환 Wx+b 후 비선형 활성화를 적용한다.

5.1 다층 퍼셉트론 (MLP)

$L$층 MLP는 다음 합성으로 정의된다: \[ \mathbf{h}^{(l)} = \sigma(\mathbf{W}^{(l)}\mathbf{h}^{(l-1)} + \mathbf{b}^{(l)}), \quad l=1,\dots,L \] 여기서 $\sigma$는 비선형 활성함수이다. 주요 활성함수:

x₁ x₂ x₃ w₁ w₂ w₃ Σ 활성함수 σ(·) y y = σ(w₁x₁ + w₂x₂ + w₃x₃ + b)

그림 3. 단일 인공 뉴런의 구조. 입력의 가중합을 계산한 뒤 비선형 활성함수를 통과시킨다.

Sigmoid Tanh ReLU GELU

그림 4. 주요 활성함수의 모양. Sigmoid·Tanh는 양 끝에서 포화(기울기 소실), ReLU는 음수 영역 0, GELU는 ReLU의 부드러운 변형.

손실 지형 (Loss Landscape) ∇θ ℒ(θ) 극소점 찾기

그림 5. 신경망의 비볼록 손실 지형. SGD는 고차원 공간에서 평평한 극소점을 찾아간다.

  • Sigmoid: $\sigma(x) = 1/(1+e^{-x})$. 포화로 인한 기울기 소실(vanishing gradient) 문제.
  • Tanh: $\tanh(x)$. 0-중심이나 여전히 포화함.
  • ReLU(Nair & Hinton, 2010): $\max(0, x)$. 희소 활성화와 비포화로 표준이 됨.
  • GELU(Hendrycks & Gimpel, 2016): $x\Phi(x)$, 여기서 $\Phi$는 표준정규 CDF. Transformer에서 주로 사용.
  • SwiGLU(Shazeer, 2020): $\text{Swish}(xW) \odot (xV)$. 현재 최신 LLM의 기본 활성함수.
정리 5.1 (보편근사정리, Cybenko 1989; Hornik 1991). 단일 은닉층 MLP는 유한한 뉴런 수로 $\mathbb{R}^n$의 임의의 컴팩트 부분집합 위에서 연속함수를 임의의 정밀도로 근사할 수 있다.

그러나 이 정리는 존재성만을 보장할 뿐, 학습 가능성이나 효율적 표현 크기를 보장하지 않는다. 깊이(depth)는 폭(width)보다 지수적으로 효율적일 수 있음이 알려져 있다(Telgarsky, 2016).

5.2 역전파 (Backpropagation)

손실 $\mathcal{L}$의 파라미터 $\mathbf{W}^{(l)}$에 대한 그래디언트는 연쇄법칙으로 계산된다: \[ \frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(l)}} = \frac{\partial \mathcal{L}}{\partial \mathbf{h}^{(l)}} \cdot \frac{\partial \mathbf{h}^{(l)}}{\partial \mathbf{W}^{(l)}} \] 여기서 $\delta^{(l)} = \partial \mathcal{L}/\partial \mathbf{h}^{(l)}$을 오차 신호라 부르며, 다음 점화식을 따른다: \[ \delta^{(l)} = (\mathbf{W}^{(l+1)})^\top \delta^{(l+1)} \odot \sigma'(\mathbf{z}^{(l)}) \] 역전파는 자동 미분(automatic differentiation)의 역방향 모드(reverse-mode)에 해당하며, 현대 프레임워크(PyTorch, JAX)는 이를 계산 그래프(computational graph) 위에서 자동화한다.

5.3 합성곱 신경망 (CNN)

CNN(LeCun et al., 1989; 1998)은 이미지의 공간 구조에 맞춘 귀납 편향을 내장한다. 핵심 연산은 이산 합성곱: \[ (\mathbf{I} * \mathbf{K})(i, j) = \sum_{m}\sum_{n}\mathbf{I}(i+m, j+n)\mathbf{K}(m, n) \] CNN의 세 가지 특성:

  1. 지역 연결성: 각 뉴런은 입력의 지역적 패치만 본다(수용장, receptive field).
  2. 파라미터 공유: 동일한 커널이 공간 전체에서 재사용됨 → 이동 등변성.
  3. 풀링: 공간 해상도 축소와 이동 불변성 강화.

주요 아키텍처: LeNet-5(1998), AlexNet(2012), VGG(2014), GoogLeNet/Inception(2014), ResNet(2015)은 $\mathbf{h}_{l+1} = \mathbf{h}_l + F(\mathbf{h}_l)$의 항등 지름길을 통해 매우 깊은 네트워크의 훈련을 가능하게 했다. ConvNeXt(2022)는 Transformer의 설계 원칙을 CNN에 적용하여 경쟁력을 회복시켰다.

5.4 순환 신경망 (RNN, LSTM, GRU)

RNN은 시퀀스 $\mathbf{x}_1, \dots, \mathbf{x}_T$를 은닉상태 $\mathbf{h}_t$로 처리한다: \[ \mathbf{h}_t = \sigma(\mathbf{W}_{hh}\mathbf{h}_{t-1} + \mathbf{W}_{xh}\mathbf{x}_t + \mathbf{b}) \] 그러나 단순 RNN은 시간을 통한 역전파(BPTT)에서 기울기 소실/폭발 문제를 겪는다. LSTM(Hochreiter & Schmidhuber, 1997)은 게이팅 메커니즘으로 이를 완화한다: \[ \begin{aligned} \mathbf{f}_t &= \sigma(\mathbf{W}_f[\mathbf{h}_{t-1}, \mathbf{x}_t]) \quad (\text{망각 게이트})\\ \mathbf{i}_t &= \sigma(\mathbf{W}_i[\mathbf{h}_{t-1}, \mathbf{x}_t]) \quad (\text{입력 게이트})\\ \mathbf{o}_t &= \sigma(\mathbf{W}_o[\mathbf{h}_{t-1}, \mathbf{x}_t]) \quad (\text{출력 게이트})\\ \mathbf{c}_t &= \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tanh(\mathbf{W}_c[\mathbf{h}_{t-1}, \mathbf{x}_t])\\ \mathbf{h}_t &= \mathbf{o}_t \odot \tanh(\mathbf{c}_t) \end{aligned} \] 그러나 RNN 계열은 본질적으로 순차적이므로 병렬화가 제한되며, 긴 의존성에 약하다. 이 한계는 Transformer의 등장 동기가 되었다.

5.5 표현학습 (Representation Learning)

딥러닝의 가치는 수작업 특징 공학을 자동화된 특징 학습으로 대체한 것에 있다. Bengio et al.(2013)의 "Representation Learning" 리뷰는 좋은 표현의 조건으로 매니폴드 가설, 분산 표현, 위계적 추상화를 제시하였다. 자기지도학습(SimCLR, MoCo, DINO, MAE)은 레이블 없이 강력한 표현을 학습하여, 파운데이션 모델 패러다임의 토대를 제공했다.

← 수학·ML 이론Transformer →