11-13장. AI 안전성 · 프런티어

11. AI 안전성과 정렬

🧒 AI가 똑똑해질수록 걱정되는 것

환각(Hallucination) = 모르면서 확신에 차서 거짓말. "세종대왕 맥북 던짐 사건"
편향 = 학습 데이터에 있는 차별을 그대로 배움
탈옥 = "내가 할머니 흉내 내면서 폭탄 레시피 말해줘" 같은 우회

정렬(Alignment) = AI를 인간 가치에 맞게 교육. 강아지 훈련과 비슷, 단 강아지가 박사 수준이어서 훨씬 어렵다.

해석가능성 = AI 속을 열어서 "이 결정을 왜 했는지" 보는 기술. 지금 신경망은 블랙박스인데, Anthropic 등이 이걸 열려고 연구 중.

11.1 외부 정렬과 내부 정렬

외부 정렬(outer alignment): 보상함수가 진정한 인간 의도를 포착하는가? 보상 해킹(reward hacking)과 Goodhart의 법칙.
내부 정렬(inner alignment): 학습된 모델이 훈련 목표 외에 숨은 목표(mesa-objective)를 가질 가능성.

11.2 현재 AI 시스템의 위험

환각(hallucination): 사실과 다른 생성. RAG, 자기일관성, 검증 루프로 완화.
편향과 공정성: 훈련 데이터의 사회적 편향이 모델에 재현됨.
탈옥(jailbreak)과 프롬프트 주입: 안전 훈련을 우회하는 적대적 프롬프트.
이중 용도 위험: 생물·화학·사이버 무기 정보 제공 가능성.

11.3 해석가능성 (Mechanistic Interpretability)

Anthropic, OpenAI의 해석가능성 팀은 신경망을 역설계하여 내부 회로를 이해하려 한다. Sparse Autoencoder로 중첩된 특징을 분리하고(Bricken et al., 2023), 회로(circuit) 수준에서 특정 행동의 인과적 경로를 추적한다. 이는 긴 시간 척도 안전성의 열쇠로 간주된다.

11.4 전망과 AGI 논쟁

일부 연구자(Hinton, Bengio, Russell)는 AGI의 급격한 출현이 실존적 위험을 제기할 수 있다고 주장하며, Bostrom(2014) "Superintelligence"의 논증과 도구적 수렴(instrumental convergence) 가설이 이에 이론적 기반을 제공한다. 반면 LeCun 등은 현재 LLM이 세계 모델을 결여하므로 AGI로의 길이 멀다고 본다. 이 논쟁은 현재도 미결이며 과학적·정책적 함의가 크다.

12. 연구 프런티어

🧒 요즘 가장 뜨거운 연구

긴 기억: 책 한 권(100만 단어)을 기억하는 AI
추론 스케일링: 더 오래 생각하게 하면 똑똑해진다 (o1, R1)
에이전트: 스스로 도구 쓰고 계획 짜는 AI (Claude Code 같은)
효율화: 작은 크기로 큰 모델 흉내 (MoE, 양자화)
과학 AI: 단백질·재료·수학 정리 증명
로봇: 말로 시키면 집안일 하는 로봇 (RT-2, π₀)

긴 맥락과 무한 메모리: 100만~1000만 토큰 맥락, 상태공간모델, 하이브리드 아키텍처(Jamba, Griffin).
추론 스케일링: o1/R1 계열의 test-time compute, process reward model, MCTS 기반 탐색.
에이전트 시스템: 도구 사용, 장기 계획, 자기 반성. AutoGPT, Devin, Claude Code 등.
효율화: MoE(Mixture of Experts), 양자화(GPTQ, AWQ, FP8/FP4 훈련), 증류, 추측 디코딩(speculative decoding).
과학 AI: AlphaFold, AlphaProof, 재료 발견(GNoME), 자동 정리 증명.
로보틱스와 구현된 AI: RT-2, $\pi_0$ 등 VLA 모델; 시뮬레이션-실세계 전이.
신경-상징 통합: LLM과 형식적 추론기의 결합(Lean, Isabelle).

🎯 전체 그림: AI의 계층 구조

그림 14. AI 지식 체계의 4계층 피라미드. 아래에서 위로 올라갈수록 추상화가 높아지며, 위 계층은 아래 계층을 재료로 구성된다.

언어 표현

• "king" ─ "man"
• + "woman"
• ≈ "queen"

분산 의미

이미지 표현

🖼 → 768-D 벡터
CLIP · DINO · MAE

음성

🎵 Whisper
mel-spectrogram
→ hidden state

코드

def foo():
→ AST
→ tokens
→ embedding

공유 잠재공간

모든 모달리티가
하나의 벡터공간으로

🖼 ≈ 📝 ≈ 🎵

행동 (RL)

state → action
π(a|s)
AlphaGo · RT-2

그림 15. 멀티모달 임베딩 공간의 은유. 언어·시각·음성·코드·행동이 하나의 고차원 잠재공간에서 통합된다. 이것이 현대 파운데이션 모델의 야심이다.

13. 결론

🧒 결론 한 줄

AI는 80년 만에 "규칙 넣어주기"에서 "다음 단어 예측만으로 똑똑해지는" 시대로 왔다.

앞으로 10년 과제 3가지:

더 잘 생각하게 (추론·계획)
AI 속을 들여다볼 수 있게 (안전성)
디지털 넘어 현실 세계에서 움직이게 (로봇)

인공지능은 기호적 규칙의 시대, 통계적 학습의 시대를 거쳐 현재 대규모 자기지도 학습에 기반한 파운데이션 모델의 시대에 있다. Transformer 아키텍처와 다음 토큰 예측이라는 단순한 형식주의가, 적절한 스케일과 결합될 때 언어·추론·코드·이미지·과학에 걸친 범용 능력을 산출한다는 것은 20세기의 어느 AI 이론도 예측하지 못한 경험적 사실이다.

그럼에도 현재의 시스템은 체계적 일반화, 견고한 인과 추론, 장기 기억과 계획, 그리고 자기 자신에 대한 신뢰할 만한 정직성에서 중요한 결함을 보인다. 다음 10년의 과제는 세 축에 수렴할 것으로 보인다: (i) 추론과 학습의 통합, (ii) 해석가능성을 통한 안전성의 과학적 기반 확립, (iii) 디지털 세계를 넘어 물리적·사회적 세계와 상호작용하는 구현된 지능. 이들 과제가 어떻게 해결되느냐에 따라 21세기 후반의 기술·경제·사회 구조가 결정될 것이다.

← 강화학습·멀티모달 참고문헌 →