1. 서론

🧒 AI가 뭐야?

AI = 스스로 판단하고 행동하는 똑똑한 프로그램. 예전엔 사람이 규칙을 일일이 짜줬지만, 요즘은 데이터로 배우게 만든다.

요리책 외우게 하지 말고, 엄마 요리 10,000번 보여주고 스스로 따라 하게 하는 것. 이게 "기계학습".
"이 사진이 고양이인가?" → 규칙("털 있고 귀 삼각형이면 고양이"): 실패 많음 / 학습(고양이 사진 100만 장): 성공. 그래서 요즘 AI는 전부 학습 방식이다.

인공지능이란 "지능적 행동을 수행하는 기계를 만드는 과학과 공학"(McCarthy, 1955)으로 정의된다. 그러나 "지능"의 정의 자체가 철학적으로 열려 있기 때문에, 현대 AI 연구는 보다 조작적인 정의를 채택한다. 즉, 주어진 환경에서 목표를 달성하도록 최적의 행동을 선택하는 능력(Russell & Norvig, 2020)이다. 이 정의는 네 가지 접근을 포괄한다: (i) 인간처럼 생각하기, (ii) 인간처럼 행동하기, (iii) 합리적으로 생각하기, (iv) 합리적으로 행동하기. 오늘날 주류 연구는 (iv)번 접근, 즉 합리적 에이전트(rational agent) 패러다임을 따른다.

이러한 에이전트는 형식적으로 함수 $f: \mathcal{P}^* \to \mathcal{A}$로 정의되며, 여기서 $\mathcal{P}^*$는 지각열의 집합, $\mathcal{A}$는 행동의 집합이다. 학습하는 에이전트는 이 함수 자체를 데이터로부터 유도한다. 기계학습(machine learning)은 따라서 AI의 부분집합이 아니라, 현대 AI의 지배적 방법론이 되었다.

본 문서의 범위는 상징주의 AI와 고전 탐색 알고리즘보다는, 현재의 대부분의 산업적·학문적 진보를 견인하고 있는 데이터 기반 학습 시스템에 집중한다. 따라서 논리 프로그래밍, 전문가 시스템, A* 탐색 등은 역사적 맥락에서만 언급되며, 본론은 통계적 학습과 딥러닝, 그리고 파운데이션 모델에 할당된다.

2. 역사적 전개

🧒 AI 80년 역사 한 줄 요약

규칙 넣어주기 → 통계로 배우기 → 신경망으로 배우기 → 엄청 크게 키워서 배우기. 중간에 두 번 망했다(AI 겨울). 핵심 분기점 세 개:

  • 2012 AlexNet — "딥러닝이 진짜 되는구나!" (이미지 인식)
  • 2017 Transformer — "어텐션만으로 충분해" (현재 모든 AI의 뼈대)
  • 2022 ChatGPT — "일반 사람도 AI 쓰는 시대"
AI 발전 = 아이가 말 배우는 과정. 문법책 외우기(규칙) → 많이 듣고 감 잡기(통계) → 엄청 많이 읽기(딥러닝) → 이제 말 잘함(ChatGPT).
1943
McCulloch-Pitts 뉴런 — 최초의 수학적 뉴런 모델
1950
Turing Test — "기계는 생각할 수 있는가?"
1956
Dartmouth 회의 — "Artificial Intelligence" 용어 탄생
1958
Perceptron (Rosenblatt) — 최초의 학습 알고리즘
1969
XOR 한계 (Minsky & Papert) — 1차 AI 겨울
1986
역전파 재발견 (Rumelhart, Hinton, Williams)
1989
LeNet (LeCun) — CNN의 원형
1997
LSTM (Hochreiter & Schmidhuber) / Deep Blue vs Kasparov
2012
AlexNet — ImageNet 혁명, 딥러닝 시대 개막
2014
GAN (Goodfellow) / Word2Vec / Seq2Seq
2015
ResNet — 152층, 인간 수준 이미지 분류
2016
AlphaGo — 이세돌 4:1 승
2017
Transformer — "Attention is All You Need"
2018
BERT / GPT-1 — 사전학습+파인튜닝 패러다임
2020
GPT-3 (175B) / DDPM / AlphaFold 2
2022
ChatGPT / Stable Diffusion — 대중 AI 원년
2023
GPT-4 / Claude / Llama 2 — 멀티모달 확산
2024
o1 / Sora — 테스트-타임 스케일링, 영상 생성
2025
DeepSeek-R1 — 오픈소스 추론 모델

그림 1. 인공지능 80년 연대기. 상징주의(1950s–80s) → 통계학습(90s–00s) → 딥러닝(2012–) → 파운데이션 모델(2017–).

2.1 상징주의 (Symbolic AI, 1956–1980)

1956년 다트머스 회의에서 McCarthy, Minsky, Shannon, Rochester에 의해 "artificial intelligence"라는 용어가 공식화되었다. 이 시기의 가정은 물리적 기호체계 가설(Physical Symbol System Hypothesis)(Newell & Simon, 1976)로 요약된다: "물리적 기호체계는 일반 지능 행동을 위한 필요충분 수단을 갖는다." 대표적 성과로는 Logic Theorist, GPS(General Problem Solver), SHRDLU, MYCIN 등 전문가 시스템이 있다. 이들은 사실(facts)과 규칙(rules)으로 구성된 지식 베이스에 대해 연역적 추론을 수행했다.

그러나 상징주의는 지식 획득 병목(knowledge acquisition bottleneck)과 기호 접지 문제(symbol grounding problem, Harnad, 1990)에 직면했다. 현실 세계의 연속성·불확실성·상식을 수작업 규칙으로 포착하는 것이 불가능하다는 사실이 점차 명백해졌고, 1973년 Lighthill 보고서와 1987년 LISP 머신 시장 붕괴로 두 번의 "AI 겨울"이 도래했다.

2.2 연결주의 (Connectionism, 1943–1990)

연결주의의 기원은 McCulloch와 Pitts(1943)의 이진 뉴런 모델이다. Rosenblatt(1958)의 퍼셉트론은 선형 분리가능한 문제에 대해 수렴이 보장되는 학습 규칙을 제시했으나, Minsky와 Papert(1969)는 XOR 문제를 통해 단층 퍼셉트론의 근본적 한계를 증명하여 연구가 정체되었다.

부활은 Rumelhart, Hinton, Williams(1986)의 역전파(backpropagation) 알고리즘 재발견으로 이루어졌다. 이 알고리즘은 연쇄법칙(chain rule)을 이용해 다층 신경망의 파라미터에 대한 손실함수의 경사를 $O(|\theta|)$ 시간에 계산함으로써, 비선형 가설의 학습을 가능하게 했다. LeCun et al.(1989)의 LeNet은 필기 숫자 인식에 합성곱 신경망을 적용한 최초의 성공 사례였다.

2.3 통계적 학습 (1990–2010)

1990년대에는 PAC 학습(Valiant, 1984), VC 차원(Vapnik & Chervonenkis), 그리고 서포트 벡터 머신(Cortes & Vapnik, 1995) 등 통계적 학습 이론이 체계화되었다. 이 시기의 지배적 방법론은 수작업 특징 + 얕은 분류기였다: SIFT/HOG와 같은 특징 추출기로 이미지를 벡터화한 후, SVM이나 Random Forest로 분류하였다. Naive Bayes, HMM, CRF는 자연어 처리의 표준 도구였다.

2.4 딥러닝 혁명 (2012–2017)

2012년 Krizhevsky, Sutskever, Hinton의 AlexNet이 ImageNet Large Scale Visual Recognition Challenge에서 top-5 error를 26.2%에서 15.3%로 급감시키며 딥러닝 시대의 개막을 알렸다. 이 혁명을 가능하게 한 삼요소는 다음과 같다: (i) GPU의 병렬 연산 능력, (ii) ImageNet과 같은 대규모 레이블 데이터셋, (iii) ReLU, Dropout 등 훈련 기법. 이후 VGG(2014), GoogLeNet(2014), ResNet(2015, He et al.)이 차례로 state-of-the-art를 경신하였다. 특히 ResNet의 잔차 연결(residual connection) $h(x) = F(x) + x$는 1000층 이상의 네트워크 훈련을 가능하게 했다.

자연어 처리에서는 Mikolov et al.(2013)의 Word2Vec이 분산 의미 표현(distributional semantics)의 시대를 열었다. $\text{king} - \text{man} + \text{woman} \approx \text{queen}$과 같은 벡터 산술이 단어 의미 관계를 포착함을 보였다.

2.5 파운데이션 모델 시대 (2017–현재)

Vaswani et al.(2017) "Attention is All You Need"는 순환 연결을 완전히 제거한 Transformer 아키텍처를 도입했다. 이는 병렬화 가능하며 긴 의존성을 직접 모델링할 수 있었다. 이 아키텍처를 기반으로 BERT(Devlin et al., 2018), GPT(Radford et al., 2018; 2019; Brown et al., 2020)가 차례로 등장하였다. 특히 GPT-3(175B 파라미터)는 few-shot in-context learning을 보임으로써 "스케일이 질적 변화를 만들어낸다"는 주장에 경험적 근거를 제공했다.

2022년 11월 ChatGPT 출시, 2023년 GPT-4, Claude, Gemini, Llama 2의 공개, 그리고 Stable Diffusion과 DALL·E 3의 등장은 AI를 연구실에서 일반 대중의 일상으로 이동시켰다. Bommasani et al.(2021)이 명명한 파운데이션 모델(foundation model)이라는 개념, 즉 대규모로 사전학습되어 다양한 하위 작업에 적응 가능한 모델이 새로운 패러다임이 되었다.

← 표지수학적 기초 →