1. 딥러닝의 역사: “병목이 풀릴 때마다 S-커브가 바뀐다”

인공지능의 역사는 한 문장으로 요약할 수 있다.
“어떤 병목이 풀릴 때마다 새로운 S-커브가 열린다.”

초기 인공지능은 규칙 기반 기호주의, 그다음은 인공신경망과 역전파, 이후 **GPU + 대규모 데이터셋(ImageNet)**이 등장하며 오늘의 딥러닝·LLM 시대로 이어졌다.
아래에서는 이 흐름을 “병목–해결–도약” 관점에서만 짧게 짚는다.

1-1. 규칙 기반 기호주의: 표현력의 병목

초기 AI는 사람이 규칙을 다 써 넣는 **기호주의(Symbolic AI)**였다.

냉전기 과제
- 아군/적군 탱크 자동 구분
- 러시아어 문서 자동 번역
접근 방식
- “고양이는 포유류, 다리 네 개, 꼬리 있음…” 식으로 특징을 정의
- 이를 조건문·수식으로 수천~수만 줄 코딩

문제는 현실 세계의 모습이 사실상 무한한 변형을 가진다는 점이다.

앉은 고양이, 뒤돌아 선 고양이, 부분 가림, 조명 변화, 원근 왜곡…
이 모든 경우를 규칙으로 쓰려고 하면 규칙 수가 폭발한다.

결국 **“현실의 다양성을 규칙으로 완전히 설명할 수 없다”**는 표현력의 병목에 막혔다.

1-2. 인공신경망: 계산 인프라가 받쳐주지 못한 1차 시도

이 병목을 넘기 위해 연구자들은 인간의 뇌를 모방하기 시작했다.

구성
- 다수의 뉴런
- 뉴런 간 시냅스 연결
- 경험에 따라 달라지는 가중치
특징
- 명시적인 규칙 없이도 패턴을 학습
- 언어·지각·추론을 모두 이 구조로 수행

이를 수학적으로 모사한 것이 **인공신경망(ANN)**이다.
1980년대에는 **역전파(Backpropagation)**가 정식화되며, 심층 신경망 학습 이론이 정리되었다.

그러나 그 당시에는

연산 성능 부족
대규모 디지털 데이터 부재
조금만 깊어져도 학습이 멈추는 실용 한계

때문에 **“이론은 있으나 실용은 어려운 기술”**에 머물렀고, 결국 AI 겨울을 맞는다.
여기서의 병목은 명확했다. 계산과 데이터가 부족했다.

1-3. 페이페이 리와 ImageNet: 데이터 인프라의 구축

다음 도약을 만든 것은 데이터 인프라였다.

스탠퍼드의 **페이페이 리(Fei-Fei Li)**는 ImageNet 프로젝트를 통해

수백만~천만 장 수준의 이미지를 수집하고
WordNet 기반으로 수천 개 객체 카테고리를 만들며
사람 손으로 라벨링한 뒤
매년 ImageNet Challenge를 열어
- 같은 데이터·같은 평가 기준으로 전 세계 모델을 비교하게 만들었다.

ImageNet은 결과적으로
**“신경망이 현실 시각 패턴을 학습·검증할 수 있는 공용 실험장”**이 되었고,
다음 병목 해소의 기반이 되었다.

1-4. GPU와 알렉스넷: 스케일업이 실제로 통한다는 증명

2000년대 후반, 세 가지 축이 동시에 갖춰진다.

GPU: 엔비디아 GPU를 범용 연산에 활용
데이터: 페이페이 리의 ImageNet
알고리즘: 역전파 기반 심층 신경망 이론

이 위에서 알렉스 크리제브스키, 일야 서츠케버, 제프리 힌턴이 2012년 **알렉스넷(AlexNet)**으로 ImageNet 대회를 제패한다.

알렉스넷이 보여준 것:

GPU + 심층 CNN + 역전파의 실제 구현
동일 조건에서 기존 기법 대비 압도적 오류율 감소
모델·데이터를 키우면 성능이 비선형적으로 도약한다는 스케일링 패턴

이 시점부터 딥러닝은
**“기대되는 이론”에서 “산업을 재편하는 범용 접근법”**으로 위상이 바뀐다.
이후 트랜스포머, 사전학습, LLM, 생성형 AI는 모두 이 스케일링 곡선을 연장한 결과이다.

정리하면, 여기까지의 메시지는 명확하다.

과거 도약은 항상
규칙의 한계 → 신경망,
계산·데이터의 한계 → GPU + ImageNet
처럼, 병목이 풀릴 때마다 나왔다는 것이다.

2. 오늘의 병목: 연산이 아니라 메모리, 특히 KV 캐시

이제 질문은 이것이다.
“지금 세대의 병목은 무엇인가?”

이전글에서 정리했듯, 현재 LLM은 구조적으로 메모리 바운드이다.
파라미터보다 컨텍스트·KV 캐시·내부 추론 토큰이 메모리와 전력을 잡아먹는다.

2-1. LLM 안에서 실제로 벌어지는 일: 파라미터 vs 컨텍스트 vs KV

LLM 요청 하나를 기준으로 보면, 내부에는 세 가지 주요 덩어리가 있다.

모델 파라미터
- 학습된 지식·패턴이 숫자로 압축된 두뇌
텍스트 컨텍스트
- 시스템 프롬프트 + 과거 대화 + 새 질문 + RAG 결과 등
- 한 세션에서 참고하는 “전체 회의록”
KV 캐시
- 각 토큰마다 만들어진 Key·Value 벡터를 레이어·토큰별로 모아 둔 것
- 회의록 옆에 붙은 포스트잇 메모 묶음

동작 순서는 항상 같다.

컨텍스트를 길게 이어 붙이고
프리필(prefill) 단계에서 이 전체를 한 번 쭉 통과시키며 KV 캐시를 만들고
디코드(decode) 단계에서 답변 토큰 하나를 만들 때마다
- 모든 과거 KV를 다시 읽어 참고 비율을 계산하고
- 새 K/V를 캐시에 추가한다.

이 구조에서 연산 유닛(GPU 코어)보다 먼저 한계에 부딪히는 것은

HBM 대역폭
메모리 접근 전력

이다. 토큰 수가 늘어날수록, 그리고 Chain of Thought·자기검증·다중 시나리오 탐색으로 내부 토큰이 많아질수록, 연산시간보다 **“데이터를 메모리에서 가져오는 시간과 전력”**이 전체 비용을 지배하게 된다.

2-2. DistServe·InfiniGen: KV가 파라미터를 추월하는 지점

이 현상은 실험에서도 확인된다.

DistServe는 긴 프롬프트(프리필)와 짧은 응답(디코드)을 한 GPU에 섞어 돌릴 경우,
- 요청량(QPS)이 조금만 올라가도
- 디코드 지연이 계단식으로 폭증한다는 것을 보여준다.
  → 프리필 전용 GPU와 디코드 전용 GPU를 분리해야 같은 하드웨어에서 토큰/초·지연·토큰/MW가 개선된다.
InfiniGen 계열 연구는
- 시퀀스 길이·배치 크기를 늘려가며 메모리 사용량을 측정했을 때,
- 어느 지점부터는 KV 캐시 메모리가 모델 파라미터 메모리를 넘어서는 구간이 나온다는 것을 보여준다.
- 긴 컨텍스트에서도 실제로 자주 참조되는 Key는 1% 미만이지만, 최적화가 없으면 이 전체를 HBM·DRAM에 올려 둬야 한다.

즉, 설계 기준이

“HBM 용량 ≒ 모델 크기(파라미터)”에서
이제는
“HBM 용량을 결정하는 주인공은 KV 캐시(컨텍스트 상태)”

로 바뀐 것이다.
ChatGPT5 세대에서 체감되는 **“메모리 폭증”**은,
모델 파라미터 때문이라기보다 KV가 모델을 추월하는 임계 구간에 진입했기 때문이라고 보는 것이 더 정확하다.

2-3. Physical AI: 스토리지까지 걸친 전 계층 메모리 문제

여기에 자율주행·로봇·엣지 디바이스 같은 Physical AI가 더해지면, 문제는 HBM을 넘어 스토리지까지 확장된다.

인간은 반복 경험을 통해 가중치(신경 회로)를 바꾸며 학습곡선을 만든다.
Physical AI도
- 카메라·LiDAR·IMU·힘·토크 같은 센서 데이터,
- 행동 로그,
- 성공/실패 결과를 쌓아
- 정책·월드 모델을 지속적으로 업데이트해야 한다.

이 과정에는

엑사바이트급 COLD 스토리지(HDD·eSSD·HBF),
대용량 DRAM/CXL,
프리필·재학습용 GDDR/LPDDR/SOCAMM,
실시간 제어·디코드용 HBM

이 모두 필요하다.

따라서 “사람처럼 경험에서 배우는 Physical AI”를 만들려면,
스토리지에서 HBM까지 이어지는 모든 메모리 계층의 용량·대역폭·전력 효율이 함께 올라가야 한다.

2-4. 이 병목이 풀리면 가능한 도약의 방향

메모리 병목이 완화·해결될 때 기대할 수 있는 도약은 크게 네 가지이다.

더 큰·더 모듈형 모델
- 더 많은 파라미터, 더 많은 전문가 모듈(MoE, 도메인별 서브모델)을 동시에 운용
- 한 세션에서 여러 서브모델·에이전트를 상시 켜 둔 상태로 협업 가능
극단적으로 긴 컨텍스트와 장기 기억
- 프로젝트 전체 히스토리, 코드베이스 전체, 수년 치 대화·선호·작업 로그를 항상 유지
- “도구형 LLM”에서 “장기간 함께 일해 온 동료형 에이전트”로 진화
깊은 추론의 기본값화
- Chain of Thought, 자기검증, 다중 후보 생성·비교를 비용 걱정 없이 상시 사용
- “감으로 한 방에 찍는 LLM”에서 “스스로 생각하고 검산하는 LLM”으로 전환
Physical AI의 안전성·성공률 도약
- 더 긴 시간 창의 센서·행동 기록을 현장에서 저장·재활용
- 희귀하지만 치명적인 실패 패턴까지 학습에 반영 → 실제 세계에서의 안전성·성공률 향상

요약하면,

메모리 병목이 풀리면, 이미 관측된 스케일링 곡선을 한 번 더 크게 연장하는 도약이 가능하다.

새로운 이론의 혁명이라기보다는,
**“스케일 기반 성능 향상의 다음 라운드”**라고 보는 것이 적절하다.

3. 이제 승부는 “모델팀”보다 “전력·메모리·서버랙”이다

내부 기술 병목이 메모리라면, 산업 구조의 병목은 인프라이다.
이미 여러 곳에서 “할 수 있는 수요는 있는데, GPU·전력·쿼터가 없어서 못 판 매출”이 드러나고 있다.

3-1. AWS·구글 사례: 수요는 넘치는데 전기가 없다

몇 가지 징후만 보더라도 방향은 분명하다.

Similarweb 자료를 보면, 지난 1년간 생성형 AI 트래픽은
- OpenAI 중심에서 Gemini, Claude, Perplexity, Copilot 등으로 분산되었지만,
  
  https://aisokuho.com/2025/10/04/generative-ai-traffic-share-trends-2025-openai-remains-top-gemini-claude-and-perplexity-gain-rapid-growth/?utm_source=chatgpt.com
- 전체 트래픽은 꾸준히 증가해 왔다.
  
  https://www.demandsage.com/chatgpt-statistics/
AWS 베드록은 내부 문서에서 **“중대한 용량 제약”**을 언급했다.
- 에픽게임즈는 AWS가 충분한 GPU 쿼터를 제공하지 못하자,
  1,000만 달러 규모 포트나이트 프로젝트를 Google Cloud로 이전했다.
- 이 과정에서 AWS는 수천만 달러 규모의 매출을 놓치거나 지연시켰다.
  
  https://www.businessinsider.com/amazon-ai-capacity-crunch-pushed-customers-to-rivals-google-anthropic-2025-11?utm_source=chatgpt.com
구글에서는 아민 바닷이 사내 전체 회의에서 다음과 같이 말했다.

“앞으로 6개월마다 AI 서빙 용량을 2배씩 늘려야 한다.”
“4~5년 안에 지금의 1000배 컴퓨팅이 필요하다.”
피차이는 “Veo를 더 많은 사용자에게 열었으면 사용량이 훨씬 더 컸겠지만, 컴퓨팅 부족 때문에 그렇게 하지 못했다”고 했다.

https://timesofindia.indiatimes.com/technology/tech-news/googles-ai-infrastructure-boss-amin-vahdat-has-new-goal-for-employees-we-must/articleshow/125487674.cms?utm_source=chatgpt.com

OpenAI의 CEO Sam Altman은 이미지 생성 도구 등 신기능의 폭발적 수요로 인해 **“인프라 용량 부족(capacity crunches)”으로 인해 제품 출시가 지연될 수 있다”고 경고했다.

이 사례들은 하나의 문장으로 정리된다.

지금은 모델이 아니라 인프라가 수요의 상한을 결정하는 시기이다.

3-2. 제미나이 3: “모델 팀 × 인프라 투자 곡선”의 곱

데미스 하사비스는 **제미나이 3(Gemini 3)**가 로드맵대로 빠르게 진화하고 있다고 말한다.
동시에 AGI까지는 5~10년은 더 필요하며, 그 사이에

더 강한 추론,
더 나은 기억,
월드 모델(world model),
physical intelligence를 해결하는 단계

가 필요하다고 본다.

그러나 이 모든 것은

더 큰 파라미터,
멀티모달·센서 입력,
긴 컨텍스트와 자기검증으로 인한 내부 토큰 폭증

을 의미한다.

이를 실제 제품·서비스로 돌리려면, 구글의

공격적인 데이터센터·전력 Capex,
세대별 TPU 전력 효율 개선,
메모리·네트워크 아키텍처 설계

가 뒷받침되어야 한다.

그래서 제미나이 3의 발전은 이렇게 보는 것이 정확하다.

“제미나이 3의 성능 곡선 = 모델 팀의 능력 × 구글 인프라 투자 곡선.”

3-3. 토큰/MW와 메모리 계층: 싸움의 단위가 바뀌고 있다

데이터센터에서는 이제 **전력(MW)**이 가장 강한 제약이다.
송전망·변전 설비·냉각·부지 확장은 몇 년 단위이고, AI 수요는 그보다 훨씬 빠르다.

따라서 KPI는 자연스럽게

토큰/초/MW
행동/초/MW
토큰/TCO

와 같은 지표로 이동한다.

여러 분석에서 공통적으로 나오는 결론은

현대 LLM 에너지의 상당 부분은 연산이 아니라 메모리 접근·데이터 이동에 쓰이고,
따라서 전력 병목을 줄이는 가장 직접적 수단은 메모리 전력 최적화라는 점이다.

이 때문에 업계는

“HBM에 모든 워킹셋을 욱여넣는 단층 구조”에서
HBM–GDDR/CPX–LPDDR/SoCAMM–플래시(HBF)로 이어지는 계층형 메모리 구조로 이동하고 있다.

핵심 아이디어는 명확하다.

비싼 와트(HBM·NVLink 등)를 진짜 필요한 데이터에만 쓰고,
나머지는 더 싼 와트(LPDDR, 플래시 등)로 내려 보내
전체 토큰/MW를 최대화한다.

엔비디아가 서버 DRAM을 DDR5에서 저전력 LPDDR로 전환하기 시작한 것도 같은 맥락이다.
“모바일용 메모리”를 서버에 쓰겠다는 결정 자체가,
메모리 전력이 전체 AI 서버 전성비·TCO의 1급 변수가 되었다는 신호이다.

3-4. 앞으로의 승부 구조

모든 내용을 세 줄로 요약하면 다음과 같다.

AI 경쟁력 = 모델 아키텍처 × 데이터 × 전력·메모리 인프라이다.
이 중 지금 가장 빠르게 격차가 벌어지는 축은 전세계에 전력·메모리·서버랙을 얼마나 많이, 효율적으로 깔 수 있느냐이다.
과거 “논문·모델 잘 내는 회사”의 싸움이던 구간에서, 앞으로 몇 년은 “인프라를 가장 잘 깔고 돌리는 회사”의 싸움으로 이동하고 있다.

4. 결론: 앞으로 5~10년, AI 성능 곡선은 “메모리와 전력”이 정한다

마지막으로, 전체 논지를 다시 한 번 압축하면 다음과 같다.

역사적 패턴
- 규칙 기반의 표현력 병목 → 인공신경망
- 신경망의 계산·데이터 병목 → GPU + ImageNet + 알렉스넷
- 시퀀스 모델링 병목 → 트랜스포머·LLM
- 즉, 병목이 풀릴 때마다 S-커브가 바뀌었다.
현재의 병목: 메모리와 전력
- LLM은 구조적으로 메모리 바운드이다.
- 컨텍스트·KV·내부 추론 토큰이 파라미터를 추월하며, HBM·DRAM·스토리지 전 계층을 압박한다.
- Physical AI는 엑사바이트급 경험 데이터를 요구한다.
인프라가 수요 상한을 만든다
- AWS 베드록의 용량 부족, 구글의 “6개월마다 2배, 4~5년 내 1000배” 전략, 제미나이 3의 발전 등은 지금은 모델이 아니라 인프라가 상한임을 보여준다.
- KPI는 FLOPS가 아니라 토큰/MW·토큰/TCO로 이동하고 있다.
메모리 병목이 풀 때의 도약
- 더 큰·더 모듈형 모델, 극단적으로 긴 컨텍스트, 깊은 추론의 기본값화, Physical AI의 안전성 향상 등
- 이는 딥러닝 스케일링 곡선을 한 번 더 연장하는 도약이다.

따라서 앞으로의 AI 성능 경쟁을 한 문장으로 정리하면 다음과 같다.

“향후 5~10년 동안 AI의 품질과 속도, 비용을 결정하는 1차 변수는
알고리즘이 아니라 ‘메모리와 전력’이라는 물리적 병목이다.
전세계에 전력·메모리·서버랙을 가장 많이, 가장 효율적으로 깔 수 있는 쪽이
다음 라운드의 승자가 될 가능성이 가장 높다.”

이 관점에서 보면, 지금의 ChatGPT·제미나이·딥시크·클로드 경쟁은
결국 **“누가 이 물리적 한계를 더 멀리, 더 효율적으로 밀어낼 것인가”**를 둘러싼 장기전의 초입이라고 볼 수 있다.

=끝

나만의 투자이야기

2025년 11월 24일 월요일

생각정리 125 (* AI Infra bottle-neck)