Claude가 증명한 것, 그리고 2030년까지 VRAM 수요가 폭증할 수밖에 없는 이유

0. 왜 다시 “메모리”인가

CHATGPT와 Gemini만 쓰다가, Claude 4.5 Sonnet을 하루 종일 써본 소감은 단순했다.
긴 이전 컨텍스트에 대한 이해를 유지함(*맥락의 이해)과 동시에, 추론의 깊이·정교함이 한 단계 위에 있다는 느낌이었다.
개발자들이 말하는 “클로드가 프로젝트 전체를 이해한다”, “개인 최적화가 잘 되어 있다”는 이야기도 결국

긴 컨텍스트에 대한 이해(*맥락의 이해)를 안정적으로 유지하고
그 위에서 여러 번 생각하고, 고쳐 쓰고, 검증하는 추론 구조

에서 나온 결과라고 보는 것이 자연스럽다.

여기에 더해, Claude가 법률 SaaS로 진출하며 보여주는 모습은 분명한 시그널이다.

이런 강화된 추론 능력이 실제 돈 버는 실무에 투입되기 시작했다는 것,
즉 LLM 기반 SaaS의 수익화(monetization)가 “이론”이 아니라 현실이 되었다는 것.

이 사실은 단순히 Anthropic 하나의 문제가 아니라,
AI 하드웨어 전반의 CAPEX(훈련·추론 인프라 투자)를 더 공격적으로 늘려도 된다는 근거가 된다.

지금 금융시장에서 관측되는

원자재,
암호화폐,
주식·채권 시장에서의 자금 유출

을, 단순히 “투기적 광풍”이 아니라

AI 하드웨어·데이터센터 같은 실물투자의 더 높은 ROIC를 향한 자본 재배치로 해석해 볼 수도 있다.
(혹은 AI SaaS·PaaS 초기 투자 PE들의 일시적인 패닉셀에 기인한 일시적 수급 왜곡일 수도 있고.)

돌이켜보면, 2023년 해외 펀드 런칭 당시만 해도
우리 역시 관성에 따라 “AI 시대 승자는 SaaS·PaaS 레이어”라고 생각하곤 했다.
그러나 이후 기술의 진화 방향은

LLM 사업자가 기존 SaaS·PaaS를 대체하거나 내재화하기 시작했고,
점차 AI 하드웨어, 특히 메모리, 그중에서도 VRAM으로 귀결되는 구조를 드러내고 있다.

그리고 오늘 아침 발표된 ChatGPT 5.3의 Agent 기능은,
이러한 흐름 위에서 또 한 번의 VRAM 수요 레벨업 이벤트가 될 수 있다는 생각이 들어,
복잡한 생각들을 아래와 같이 정리해 본다.

https://x.com/neilsuperduper/status/2019486017703547309/photo/3

(클로드를 다시 앞서기 시작한 GPT 5.3)

1. Claude가 증명한 것: “LLM 기반 SaaS는 당장 돈이 된다”

1-1. 더 이상 “미래의 이야기”가 아니다

Anthropic은 Claude Code / Claude Cowork를 앞세워 엔터프라이즈 시장을 파고들고 있다.
대표 사례로 자주 언급되는 곳이 **IG Group(파생상품 트레이딩 회사)**이다.

공식 고객 스토리에 따르면 IG Group은 Claude 도입 후:

애널리틱스 팀 기준 주당 약 70시간의 업무 시간을 절감
일부 유즈케이스에서 생산성이 100% 이상 개선
약 3개월 만에 ROI(투자금 회수) 달성
(출처: https://claude.ai/customers/ig-group)

Anthropic은 별도의 리포트에서 실제 사용자 대화 10만 건을 분석해,
Claude가 노동 생산성을 어떻게 끌어올리는지 경제적 효과를 추정하기도 했다.
(출처: https://www.anthropic.com/research/estimating-productivity-gains)

이 정도면,

“LLM 기반 SaaS(코딩, 애널리틱스, 마케팅, 법률 등)는
더 이상 먼 미래의 Monetization이 아니라 이미 실무에서 돈이 되는 툴”

이라고 말해도 무리가 없다.

1-2. 이게 왜 CAPEX(훈련·추론 인프라 투자)를 정당화하나

구조는 단순하다.

Claude, ChatGPT, Kimi 같은 서비스는 토큰 단위로 과금한다.
사용자는 **“사람이 할 일보다 AI가 하게 하는 것이 더 싸고 빠르다”**고 믿는 한,
더 많은 토큰을 기꺼이 쓴다.
기업 입장에서는 모델이 더 똑똑하고, 더 긴 문맥을 보고, 더 자동으로 일을 잘할수록
유료 사용량이 자연스럽게 올라간다.

따라서,

더 큰 모델, 더 긴 컨텍스트, 더 많은 에이전트
= 더 높은 VRAM/HBM CAPEX
→ 동시에 더 많은 유료 SaaS 매출

이라는 구조가, 이미 실무 데이터로 입증되기 시작한 셈이다.

2. 메모리가 왜 병목이 되었나: KV 캐시 한 번만 짚고 가자

LLM 내부에서 일어나는 일을 아주 단순하게 줄이면 다음과 같다.

입력 텍스트를 토큰으로 쪼갠다.
각 레이어·어텐션 헤드마다 **Key/Value 벡터(K, V)**를 만든다.
새 토큰을 만들 때마다,
지금까지 나온 토큰들의 K/V를 참조해 다음 토큰 확률을 계산한다.

이때 쌓이는 것이 바로 **KV 캐시(KV cache)**이다.

컨텍스트가 4K → 128K가 되면
KV 캐시는 컨텍스트 길이에 비례해 선형 증가한다.
여기에 **배치 크기(동시 사용자 수)**가 곱해지면,
총 KV 메모리는 컨텍스트 × 동시성에 비례해 커진다.
GPU VRAM(HBM)은 한정적이기 때문에,
긴 컨텍스트 + 대량 동시 처리에서 KV 캐시가 결정적인 병목이 된다.

이 때문에 엔비디아는

KV 캐시를 더 작은 포맷으로 압축(NVFP4)하거나
GPU 밖(서버 DRAM, SSD, 원격 스토리지)으로 오프로딩하는 기술을
공식 블로그에서 계속 소개하고 있다.
(예: https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/
https://blocksandfiles.com/2026/01/06/nvidia-standardizes-gpu-cluster-kv-cache-offload-to-nvme-ssds/)

핵심은 한 줄이다.

“더 오래 생각하고, 더 많은 문서를 한 번에 보고,
더 많은 사용자를 동시에 받으려면,
VRAM/HBM에 쌓아야 할 KV 캐시가 폭증한다.”

그래서 예전처럼 **FLOPS(연산량)**만이 아니라,
**VRAM/HBM(고속 메모리)**이 AI 인프라의 핵심 자원으로 올라온 것이다.

3. 에이전트 경쟁이 시작되면, 메모리는 어떻게 달라지나

3-1. Kimi K2.5: Agent Swarm과 VRAM 폭증의 구조

중국 Moonshot AI의 Kimi K2.5는 기술 블로그에서
자신들의 핵심 차별점으로 Agent Swarm을 내세웠다.

https://openrouter.ai/apps?url=https%3A%2F%2Fopenclaw.ai%2F

복잡한 태스크를 처리할 때
최대 100개의 서브 에이전트를 동적으로 생성하고
최대 1,500번의 도구 호출을 병렬로 수행한다.
이 덕분에 전통적인 단일 에이전트 구조 대비 최대 4.5배 빠른 처리 시간을 달성했다고 주장한다.
(출처: https://www.kimi.ai/blog/kimi-k2-5)

직관적으로는 “똑똑한 비서 1명”이 아니라
**“작은 비서실 100명이 동시에 달라붙는 구조”**에 가깝다.

여기서 중요한 질문은 하나이다.

“왜 에이전트 수가 늘어나면 VRAM이 그렇게 많이 필요해지는가?”

3-1-1. 에이전트가 많아지면 추가로 드는 메모리들

에이전트가 1개일 때는 단순하다.

한 모델에 일을 맡기고
입력 → 출력만 주고받으면 된다.

이때 메모리의 대부분은

모델 파라미터
해당 세션의 KV 캐시

가 차지한다.

그러나 에이전트가 10개, 100개로 늘어나는 순간,
“분배하고, 중간 결과를 나누고, 다시 합치는” 시스템 전체가 추가로 필요해진다.
이 과정에서 다음 항목들이 VRAM을 더 갉아먹는다.

라우팅 정보
- 어떤 토큰/서브태스크를 어느 에이전트에게 보낼지,
  각 에이전트에 주는 게이트 값(가중치) 등을 저장하는 메모리.
보내기용 버퍼(dispatch buffer)
- 토큰을 “에이전트별로 묶어서” 보내기 위해
  데이터를 재배열해 담아두는 임시 공간.
되돌리기/합치기용 버퍼(combine buffer)
- 여러 에이전트가 계산한 결과를
  원래 순서대로 재배열하고
  가중합으로 합쳐 하나의 출력으로 만드는 임시 공간.
패딩 메모리
- 어떤 에이전트에는 토큰이 많이 가고,
  어떤 에이전트에는 거의 안 갈 수 있다.
- GPU는 정형화된 크기를 선호하기 때문에
  토큰이 적게 배정된 에이전트 쪽에 **빈칸(패딩)**을 넣어 크기를 맞추고,
  이 패딩도 VRAM을 차지한다.
각 에이전트 내부의 activation 텐서
- 각 에이전트가 계산하는 동안 잠깐씩 생겼다 사라지는 중간 결과 텐서들.
- 에이전트 수와 배치 크기가 커질수록 이 activation도 함께 커진다.

정리하면,

KV 캐시는 원래도 필요하던 “대화 기록용 메모리”이고,
에이전트가 많아지면 여기에
“분배·통신·재조립”을 위한 추가 메모리 층이 한 겹 더 올라간다.

그래서 Agent Swarm 같은 구조는

“KV 캐시 폭발 + 라우팅/버퍼/패딩/activation 폭발”

이라는 이중 부담을 VRAM에 준다고 이해하면 된다.

이 때문에 엔비디아는

HBM 용량을 키우고
NVLink/NVSwitch로 수십~수백 개 GPU를 하나의 거대한 메모리 풀처럼 묶는
GB200 NVL72 같은 랙 단위 시스템을 내놓고 있다.
(GB200 NVL72 소개: https://www.nvidia.com/en-us/data-center/gb200/)

3-2. OpenAI Frontier: 회사 전체를 에이전트로 깔겠다는 선언

OpenAI의 Frontier는 아예 엔터프라이즈용 에이전트 플랫폼이다.

기업이 여러 에이전트를 정의·온보딩·권한 관리·평가하고
기존 시스템(SaaS, DB, 내부툴)에 붙여
**“AI 동료(coworker)”**처럼 쓰게 하는 것이 목표이다.
Frontier는 에이전트에게
공유 비즈니스 컨텍스트, 메모리, 평가·피드백 루프, 권한·경계를 제공해
조직 내 파편화된 AI 도입을 통합하는 허브가 되겠다고 한다.
(출처: https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)

핵심 문장은 대략 이런 취지이다.

“앞서가는 기업에서는 올해 말이면
대부분의 디지털 업무가
**‘사람 + 다수의 에이전트’**에 의해 수행될 것이다.”

즉 Frontier는 모델 성능 자체보다,
**“에이전트를 얼마나 많이·넓게 깔아서 실제 업무에 투입하느냐”**에 초점을 둔 플랫폼이다.

3-3. Claude Code / Cowork: 이미 돌아가는 에이전트 팀

Anthropic의 Claude Code는 개발자 IDE 안에서
사실상 “코드 담당 에이전트 팀”처럼 동작한다.

더버지에 따르면, Anthropic 내부 개발자는
5개 이상의 Claude 에이전트를 클라우드에서 상시로 돌리며
한 달에 300개 이상의 PR을 날리는 수준까지 도달했다고 한다.
엔터프라이즈 고객 중에는
코드 작성의 70~90%를 Claude가 담당하는 사례도 보고되고 있다.
(출처: https://www.theverge.com/2025/1/10/claude-code-opus-4-6-release)

이 사례들이 공통으로 보여주는 것은 명확하다.

앞으로의 경쟁은 “모델 하나 vs 모델 하나”가 아니라
“에이전트 네트워크 vs 에이전트 네트워크”가 된다.

그리고 이 구조에서 VRAM·KV 캐시 수요는 곱셈 효과를 갖게 된다.

4. VRAM 수요를 위한 개념 모델: L × A × T × V × U

이제부터는 **엄밀한 수식이 아니라, 직관을 위한 “개념 모델”**임을 먼저 밝힌다.

LLM/에이전트 시스템의 VRAM 수요는 대략 다음 요소들에 비례한다고 볼 수 있다.

L: Context length
- 한 에이전트가 한 번에 보는 토큰 길이
- 예: 8K, 32K, 128K, 1M …
A: Number of agents
- 같은 업무를 위해 동시에 돌아가는 에이전트 수
- 예: 단일 모델 1개 vs Swarm 10~100개
T: Session length
- 한 세션(티켓·프로젝트·케이스)이 유지되는 턴 수/시간
- 단발 Q&A냐, 며칠짜리 업무냐
V: Verification loops
- 에이전트가 자기 검증·재시도·평가를 위해
  내부적으로 답을 여러 번 고쳐 쓰는 루프 수
U: Concurrent sessions
- 동시에 돌아가는 세션 수(동시 사용자·동시 업무량)

개념적으로는 이렇게 쓸 수 있다.

VRAM 수요 ∝ L × A × T × V × U

실제 시스템의 메모리 사용량은 이보다 훨씬 복잡하고,
양자화·KV 캐시 공유·오프로딩 같은 최적화가 이 곱을 많이 깎아낸다.

그러나 **“어떤 항이 커질수록 VRAM 수요가 왜 폭증하는지”**를 이해하는 데에는
이 정도 단순화로도 충분하다.

5. 2025→2030, 세 가지 시나리오 (개념적 밴드)

이제 2025년을 기준으로 세 가지 시나리오를 설정해 본다.
(모든 수치는 **“가능한 범위를 가늠하기 위한 가설”**이지, 예측이 아니다.)

5-1. 기준선: 2025년 전통 LLM 서비스

L₀ ≈ 8K
A₀ = 1
T₀ = 1 (짧은 Q&A)
V₀ = 1 (재검증 거의 없음)
U₀ = 1 (정규화된 동시성)

이때 VRAM 수요를 1로 정한다.

5-2. 시나리오 ① 보수적 (Conservative)

에이전트는 일부 고급 업무에만 쓰이고,
대부분의 서비스는 여전히 “단일 에이전트 + 짧은 컨텍스트” 중심인 경우.

L: 8K → 32K (4배)
A: 1 → 3
T: 1 → 3
V: 1 → 2
U: 1 → 2

에이전트형 고급 워크로드 1개당 VRAM 계수는
수십~100배까지 늘어날 수 있다.

그러나 전체 워크로드 중 에이전트형 비중이 제한적이라고 보면,
AI 데이터센터용 고속 메모리(주로 HBM+DRAM) 수요는
2025→2030 동안 대략 5~10배 증가를
보수적 밴드로 둘 수 있다.

5-3. 시나리오 ② 기준 (Base)

에이전트가 코딩, 리서치, 데이터 분석, 법률/컴플라이언스, 고객지원 등
고부가 지식 노동에서 **“기본 도구”**가 되는 경우.

L: 8K → 128K (16배)
A: 1 → 10 (여러 역할의 에이전트 팀)
T: 1 → 5 (티켓·프로젝트 단위 세션)
V: 1 → 3 (초안→검증→재작성)
U: 1 → 3 (에이전트 기반 워크로드 비중 증가)

이 경우, 에이전트형 고급 워크로드 1개당 VRAM 수요는
100~1,000배 수준까지 올라갈 수 있다.

최적화와 비에이전트 업무 비중을 감안하면,
AI 데이터센터용 고속 메모리 전체 수요는
10~20배 성장 정도를
“가능한 중심 시나리오 밴드”로 볼 수 있다.

5-4. 시나리오 ③ 공격적 (Aggressive)

“에이전트가 사실상 OS/업무 인터페이스가 된다”고 가정하는 상단 밴드이다.

L: 8K → 1M (125배), Rubin급 1M 컨텍스트 전면 활용
(예: https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/)
A: 1 → 30 (개별 지식 노동자당 다수 에이전트)
T: 1 → 10 (프로젝트 전체 라이프사이클)
V: 1 → 5 (규제·책임 리스크로 검증 강화)
U: 1 → 5 (에이전트형 작업 비중 급증)

이론상 개별 워크로드 VRAM 계수는
수천 배 이상까지도 치솟을 수 있다.

현실에서는 최적화·역할 분리·비에이전트 업무 등을 고려해야 하므로,
전체 AI 메모리 수요로 환산하면
20~30배 이상 정도를 상단 밴드로 열어두는 정도가 적절하다.

참고로, OpenAI의 “Stargate” 데이터센터 프로젝트에 대한 외부 분석에서는
2025년 기준으로만도 글로벌 DRAM 생산의 최대 40%를 OpenAI 한 회사가 쓸 수 있다는 전망이 나온 바 있다.

(출처: https://www.forbes.com/sites/janakirammsv/2024/04/12/openai-stargate-and-the-future-of-ai-infrastructure/)

이런 흐름이 여러 하이퍼스케일러로 확산된다고 가정하면,
20~30배 수준의 상단 밴드는
“과장”이라기보다 공격적이지만 상상 가능한 구간으로 해석할 수 있다.

6. “Frontier급 에이전트를 모두가 미친 듯이 쓰기 시작하면” VRAM 병목은 어떻게 터질까

이제, 질문 하나를 정면으로 들어보자.

“Frontier급 에이전트가 너무 좋아서,
OpenAI 전체 사용자들이 동시에 에이전트를 미친 듯이 쓰기 시작하면
VRAM 병목은 어떻게 될까?”

앞서 정의한 VRAM 개념식에서 보면,
이 상황은 사실상 **U(동시 세션 수)**가 갑자기 폭증하는 경우이다.

L, A, T, V는 이미 에이전트 도입으로 커진 상태
여기에 U가 한 번에 튀어 오르면
전체 VRAM 수요는 순식간에 “곱셈 결과”로 치솟는다.

6-1. 인프라 관점: 순서대로 벌어지는 일

GPU HBM이 먼저 꽉 찬다
- 각 GPU에는 이미
  - 모델 파라미터
  - 일부 KV 캐시
  - 에이전트 상태
    가 올라가 있다.
- 동시 세션 U가 폭증하면
  - 배치당 컨텍스트 수
  - 세션별 KV 캐시
    가 합쳐져 HBM 사용률이 100% 부근까지 오른다.
HBM이 꽉 차면, 속도와 실패율이 튀기 시작한다
- 더 넣을 자리가 없거나,
- KV 캐시를 DRAM/SSD로 자주 밀어냈다 다시 읽어야 해서
  지연시간(latency)이 급격히 악화된다.
- 이때부터는
  - 응답 딜레이 증가
  - 간헐적 에러
  - 타임아웃
    이 체감되기 시작한다.
서비스 레벨에서 품질/기능을 줄이는 방향으로 수축한다

클라우드 사업자가 쓸 수 있는 전형적인 카드:

Rate limit / 쿼터
- 사용자·조직별 QPS, 토큰량, 동시 세션 수를 제한
- 일부 요청을 “거절”해서 전체 시스템 붕괴를 막는다.
Degrade 모드(품질 저하 모드)
- 긴 컨텍스트 대신 자동 요약 후 짧은 컨텍스트로 재질의
- 에이전트 병렬 실행 A를 줄이고, 가능하면 순차 실행
- 검증 루프 V를 줄여 초안→1회 검증 정도로 제한
- Frontier 에이전트에서 일부 고급 기능(장기 히스토리, 복수 에이전트 협업)을 일시 봉쇄
모델 다운그레이드
- 동일한 요청이라도
  - 상위 요금제/엔터프라이즈: 큰 모델 유지
  - 무료/저가 요금제: 작은 모델로 fallback
- GPU당 더 많은 세션을 태우기 위해 품질을 다운시킨다.
KV 캐시 오프로딩 강화
- VRAM이 가득 차면
  KV를 DRAM/SSD/원격 스토리지로 더 많이 밀어내고,
  필요할 때마다 다시 올려쓴다.
- VRAM 병목은 완화되지만, 지연시간은 더 늘어난다.

정리하면, Frontier급 에이전트 사용량이 갑자기 폭발할 경우:

단기적으로는 VRAM 병목 → 속도 저하·에러·기능 제한이 나타나고,
중기적으로는 “HBM/VRAM이 절대적으로 부족하다”는 실측 데이터가 쌓이면서
다음 세대 CAPEX(메모리 증설)의 트리거로 작용하게 된다.

6-2. 에이전트 구조라서 더 심각한 이유

전통적인 챗봇이라면 U만 문제인데,
에이전트 구조에서는 이미 A, T, V까지 커져 있는 상태라 병목이 더 심각해진다.

하나의 “요청”이 사실상
- 플래너 에이전트
- 다수의 서브 에이전트
- 도구 호출
- 재귀적 재질문·검증 루프
  로 쪼개져 있다.
사용량이 폭증하면
- U(요청 수)만 늘어나는 것이 아니라
- 각 요청마다 내부에서 발생하는 에이전트 콜 수까지
  기하급수적으로 늘어난다.

그래서 백엔드 오케스트레이션 레이어는 피크 상황에서 보통 이렇게 조정할 수밖에 없다.

A(병렬 에이전트 수) 상한: 태스크당 에이전트 최대 N개, 그 이상은 순차
T(세션 길이)·재귀 깊이 제한: 너무 긴 에이전트 체인은 중간 요약 후 재시작
V(검증 루프) 축소: 평소 2~3회 돌리던 자기평가·재작성을 1회로 줄이거나 생략

즉, 피크에서 시스템이 하는 일은

L, A, T, V를 인위적으로 눌러
U 폭증을 겨우 감당하는 것

이라고 해석할 수 있다.

이 현상이 반복될수록,
**“에이전트 시대의 병목은 연산이 아니라 VRAM/HBM”**이라는 사실이
운영 데이터로 계속 확인되며,
결국 메모리·인터커넥트·데이터센터 CAPEX를 더 키우는 방향으로
경영진의 의사결정을 밀어붙이게 된다.

7. 그래프로 보는 직관: 2025→2030 VRAM 지수 시나리오

앞의 세 가지 시나리오(보수·기준·공격)를
단순한 지수 함수로 이어서 2025→2030 그래프로 그려보면 다음과 같다.

2025년 AI 데이터센터용 VRAM 수요를 1.0으로 정규화하고,
2030년에
- 보수적: 7.5배,
- 기준: 15배,
- 공격적: 25배
  수준이 되도록 지수곡선을 맞춘 것이다.

세 곡선의 공통 특징은:

2025→2027 구간에서는 비교적 완만하다.
2028~2030 구간에서 기울기가 눈에 띄게 가팔라진다.
이것이 바로 **“에이전트 시대에 메모리 수요가 선형이 아닌 지수곡선을 탈 수 있다”**는 구조를 직관적으로 보여준다.

자세히 보면,

Conservative:
- 2027년 ≈ 2.7배, 2029년 ≈ 5배, 2030년 7.5배
Base:
- 2027년 ≈ 3.6배, 2029년 ≈ 8.7배, 2030년 15배
Aggressive:
- 2027년 ≈ 4배, 2028년 ≈ 7배, 2029년 13배+, 2030년 25배

이 그래프의 목적은 정확한 예측이 아니라,

“에이전트 도입 강도에 따라
같은 5년(2025→2030)이라도
메모리 수요 레벨이 1자릿수 배에서 25배 이상까지
크게 벌어질 수 있다.”

는 구조를 시각적으로 설명하는 데 있다.

8. 정리: Claude가 연 “현재형 수익”, Frontier·Kimi가 여는 “에이전트 시대”, 그리고 메모리

핵심을 다시 모으면 다음과 같다.

Claude는 LLM 기반 SaaS가 이미 “지금 돈이 되는 사업”임을 증명했다.
- IG Group 등에서 수십~수백 % 생산성 개선, 수개월 내 ROI 달성이 확인되고 있다.
  (https://claude.ai/customers/ig-group)
이는 더 큰 모델·더 긴 컨텍스트·더 많은 추론 패스에 투자해도
그만큼 매출로 회수 가능하다는 경제적 근거를 제공한다.
동시에 Kimi K2.5의 Agent Swarm, Anthropic의 Claude Code/팀,
OpenAI의 Frontier/ChatGPT 5.3 Agents가 보여주듯,
경쟁의 축은 **“모델”에서 “에이전트 네트워크”**로 이동하고 있다.
(예: https://www.kimi.ai/blog/kimi-k2-5,
https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)
에이전트 구조에서는
컨텍스트 길이(L), 에이전트 수(A), 세션 길이(T), 검증 루프(V), 동시성(U)
다섯 항이 모두 커지면서,
VRAM/KV 캐시 수요는 단순 선형을 넘어 곱셈 구조로 커진다.
(KV 캐시 및 오프로딩:
https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/
https://blocksandfiles.com/2026/01/06/nvidia-standardizes-gpu-cluster-kv-cache-offload-to-nvme-ssds/)
2025→2030에 대해
- 보수적: 5~10배,
- 기준: 10~20배,
- 공격적: 20~30배 이상
  의 AI 데이터센터용 고속 메모리 수요 성장 밴드를 시나리오로 잡는 것은,
  과감하지만 현재 기술·CAPEX 흐름과 정면으로 배치되지는 않는 상상 가능한 구간이다.
  (Stargate 관련 DRAM 점유 분석:
  https://www.forbes.com/sites/janakirammsv/2024/04/12/openai-stargate-and-the-future-of-ai-infrastructure/)

물론 실제 결과는

규제 환경,
모델·시스템 최적화 속도,
클라우드 사업자 CAPEX 계획,
경기 사이클

에 따라 크게 달라질 수 있을 것이다.

그럼에도,

“에이전트 경쟁이 본격화되는 한,
메모리는 연산보다 더 중요한 전략 자원이 된다.”

는 방향성 자체는
지금 나온 기술 발표·고객 사례·CAPEX 시그널들과 매우 잘 들어맞는다.

Claude와 같은 LLM 기반 SaaS 사업자는

“VRAM을 태워 얻은 추론 능력”이
실무와 수익으로 곧바로 연결되는 현재형 증거이고,

OpenAI·Google·엔비디아·메모리 업체들은

이 구조를 전제로
훈련·추론 인프라 CAPEX를 한 단계 더 올려도 된다는
정당성을 확보해 가는 중이라고 볼 수 있다.

Yahoofinance

#글을 마치며

" 맥락은 사고의 원동력입니다.
마치 사람이 기억하기 위해 메모를 하듯이,
AI 에이전트도 학습한 내용을 재사용할 수 있도록 작업을 저장해야 합니다(=메모리)."

- Kevin Deierling,
Senior Vice President of Networking, NVIDIA.

만약 이 가설이 맞다면, 에너지 수요는 어떤 방향으로 재편될까?
생각만 더 복잡해진다.

투자 세계도 AI 확산으로 인해,
‘스토리’나 ‘감’에 기대기보다
과학계처럼 가설을 세우고, 데이터를 통해 검증하며,
논리적으로 반증 가능성을 점검하는 능력이 점점 더 중요해지는 국면에 들어서는 듯하다.

=끝

나만의 투자이야기

2026년 2월 5일 목요일

생각정리 176 (* Agent AI, VRAM)