Claude가 증명한 것, 그리고 2030년까지 VRAM 수요가 폭증할 수밖에 없는 이유
0. 왜 다시 “메모리”인가
CHATGPT와 Gemini만 쓰다가, Claude 4.5 Sonnet을 하루 종일 써본 소감은 단순했다.
긴 이전 컨텍스트에 대한 이해를 유지함(*맥락의 이해)과 동시에, 추론의 깊이·정교함이 한 단계 위에 있다는 느낌이었다.
개발자들이 말하는 “클로드가 프로젝트 전체를 이해한다”, “개인 최적화가 잘 되어 있다”는 이야기도 결국
긴 컨텍스트에 대한 이해(*맥락의 이해)를 안정적으로 유지하고
그 위에서 여러 번 생각하고, 고쳐 쓰고, 검증하는 추론 구조
에서 나온 결과라고 보는 것이 자연스럽다.
여기에 더해, Claude가 법률 SaaS로 진출하며 보여주는 모습은 분명한 시그널이다.
이 사실은 단순히 Anthropic 하나의 문제가 아니라,
AI 하드웨어 전반의 CAPEX(훈련·추론 인프라 투자)를 더 공격적으로 늘려도 된다는 근거가 된다.
지금 금융시장에서 관측되는
원자재,
암호화폐,
주식·채권 시장에서의 자금 유출
을, 단순히 “투기적 광풍”이 아니라
AI 하드웨어·데이터센터 같은 실물투자의 더 높은 ROIC를 향한 자본 재배치로 해석해 볼 수도 있다.
(혹은 AI SaaS·PaaS 초기 투자 PE들의 일시적인 패닉셀에 기인한 일시적 수급 왜곡일 수도 있고.)
돌이켜보면, 2023년 해외 펀드 런칭 당시만 해도
우리 역시 관성에 따라 “AI 시대 승자는 SaaS·PaaS 레이어”라고 생각하곤 했다.
그러나 이후 기술의 진화 방향은
LLM 사업자가 기존 SaaS·PaaS를 대체하거나 내재화하기 시작했고,
점차 AI 하드웨어, 특히 메모리, 그중에서도 VRAM으로 귀결되는 구조를 드러내고 있다.
그리고 오늘 아침 발표된 ChatGPT 5.3의 Agent 기능은,
이러한 흐름 위에서 또 한 번의 VRAM 수요 레벨업 이벤트가 될 수 있다는 생각이 들어,
복잡한 생각들을 아래와 같이 정리해 본다.
 |
| https://x.com/neilsuperduper/status/2019486017703547309/photo/3 |
 |
| https://x.com/neilsuperduper/status/2019486017703547309/photo/3 |
 |
| https://x.com/neilsuperduper/status/2019486017703547309/photo/3 |
(클로드를 다시 앞서기 시작한 GPT 5.3)
1. Claude가 증명한 것: “LLM 기반 SaaS는 당장 돈이 된다”
1-1. 더 이상 “미래의 이야기”가 아니다
Anthropic은 Claude Code / Claude Cowork를 앞세워 엔터프라이즈 시장을 파고들고 있다.
대표 사례로 자주 언급되는 곳이 **IG Group(파생상품 트레이딩 회사)**이다.
공식 고객 스토리에 따르면 IG Group은 Claude 도입 후:
Anthropic은 별도의 리포트에서 실제 사용자 대화 10만 건을 분석해,
Claude가 노동 생산성을 어떻게 끌어올리는지 경제적 효과를 추정하기도 했다.
(출처: https://www.anthropic.com/research/estimating-productivity-gains)
이 정도면,
“LLM 기반 SaaS(코딩, 애널리틱스, 마케팅, 법률 등)는
더 이상 먼 미래의 Monetization이 아니라 이미 실무에서 돈이 되는 툴”
이라고 말해도 무리가 없다.
1-2. 이게 왜 CAPEX(훈련·추론 인프라 투자)를 정당화하나
구조는 단순하다.
Claude, ChatGPT, Kimi 같은 서비스는 토큰 단위로 과금한다.
사용자는 **“사람이 할 일보다 AI가 하게 하는 것이 더 싸고 빠르다”**고 믿는 한,
더 많은 토큰을 기꺼이 쓴다.
기업 입장에서는 모델이 더 똑똑하고, 더 긴 문맥을 보고, 더 자동으로 일을 잘할수록
유료 사용량이 자연스럽게 올라간다.
따라서,
더 큰 모델, 더 긴 컨텍스트, 더 많은 에이전트
= 더 높은 VRAM/HBM CAPEX
→ 동시에 더 많은 유료 SaaS 매출
이라는 구조가, 이미 실무 데이터로 입증되기 시작한 셈이다.
2. 메모리가 왜 병목이 되었나: KV 캐시 한 번만 짚고 가자
LLM 내부에서 일어나는 일을 아주 단순하게 줄이면 다음과 같다.
입력 텍스트를 토큰으로 쪼갠다.
각 레이어·어텐션 헤드마다 **Key/Value 벡터(K, V)**를 만든다.
새 토큰을 만들 때마다,
지금까지 나온 토큰들의 K/V를 참조해 다음 토큰 확률을 계산한다.
이때 쌓이는 것이 바로 **KV 캐시(KV cache)**이다.
컨텍스트가 4K → 128K가 되면
KV 캐시는 컨텍스트 길이에 비례해 선형 증가한다.
여기에 **배치 크기(동시 사용자 수)**가 곱해지면,
총 KV 메모리는 컨텍스트 × 동시성에 비례해 커진다.
GPU VRAM(HBM)은 한정적이기 때문에,
긴 컨텍스트 + 대량 동시 처리에서 KV 캐시가 결정적인 병목이 된다.
이 때문에 엔비디아는
핵심은 한 줄이다.
“더 오래 생각하고, 더 많은 문서를 한 번에 보고,
더 많은 사용자를 동시에 받으려면,
VRAM/HBM에 쌓아야 할 KV 캐시가 폭증한다.”
그래서 예전처럼 **FLOPS(연산량)**만이 아니라,
**VRAM/HBM(고속 메모리)**이 AI 인프라의 핵심 자원으로 올라온 것이다.
3. 에이전트 경쟁이 시작되면, 메모리는 어떻게 달라지나
3-1. Kimi K2.5: Agent Swarm과 VRAM 폭증의 구조
중국 Moonshot AI의 Kimi K2.5는 기술 블로그에서
자신들의 핵심 차별점으로 Agent Swarm을 내세웠다.
직관적으로는 “똑똑한 비서 1명”이 아니라
**“작은 비서실 100명이 동시에 달라붙는 구조”**에 가깝다.
여기서 중요한 질문은 하나이다.
“왜 에이전트 수가 늘어나면 VRAM이 그렇게 많이 필요해지는가?”
3-1-1. 에이전트가 많아지면 추가로 드는 메모리들
에이전트가 1개일 때는 단순하다.
한 모델에 일을 맡기고
입력 → 출력만 주고받으면 된다.
이때 메모리의 대부분은
가 차지한다.
그러나 에이전트가 10개, 100개로 늘어나는 순간,
“분배하고, 중간 결과를 나누고, 다시 합치는” 시스템 전체가 추가로 필요해진다.
이 과정에서 다음 항목들이 VRAM을 더 갉아먹는다.
라우팅 정보
보내기용 버퍼(dispatch buffer)
되돌리기/합치기용 버퍼(combine buffer)
패딩 메모리
어떤 에이전트에는 토큰이 많이 가고,
어떤 에이전트에는 거의 안 갈 수 있다.
GPU는 정형화된 크기를 선호하기 때문에
토큰이 적게 배정된 에이전트 쪽에 **빈칸(패딩)**을 넣어 크기를 맞추고,
이 패딩도 VRAM을 차지한다.
각 에이전트 내부의 activation 텐서
정리하면,
그래서 Agent Swarm 같은 구조는
“KV 캐시 폭발 + 라우팅/버퍼/패딩/activation 폭발”
이라는 이중 부담을 VRAM에 준다고 이해하면 된다.
이 때문에 엔비디아는
3-2. OpenAI Frontier: 회사 전체를 에이전트로 깔겠다는 선언
OpenAI의 Frontier는 아예 엔터프라이즈용 에이전트 플랫폼이다.
핵심 문장은 대략 이런 취지이다.
“앞서가는 기업에서는 올해 말이면
대부분의 디지털 업무가
**‘사람 + 다수의 에이전트’**에 의해 수행될 것이다.”
즉 Frontier는 모델 성능 자체보다,
**“에이전트를 얼마나 많이·넓게 깔아서 실제 업무에 투입하느냐”**에 초점을 둔 플랫폼이다.
3-3. Claude Code / Cowork: 이미 돌아가는 에이전트 팀
Anthropic의 Claude Code는 개발자 IDE 안에서
사실상 “코드 담당 에이전트 팀”처럼 동작한다.
이 사례들이 공통으로 보여주는 것은 명확하다.
앞으로의 경쟁은 “모델 하나 vs 모델 하나”가 아니라
“에이전트 네트워크 vs 에이전트 네트워크”가 된다.
그리고 이 구조에서 VRAM·KV 캐시 수요는 곱셈 효과를 갖게 된다.
4. VRAM 수요를 위한 개념 모델: L × A × T × V × U
이제부터는 **엄밀한 수식이 아니라, 직관을 위한 “개념 모델”**임을 먼저 밝힌다.
LLM/에이전트 시스템의 VRAM 수요는 대략 다음 요소들에 비례한다고 볼 수 있다.
L: Context length
한 에이전트가 한 번에 보는 토큰 길이
예: 8K, 32K, 128K, 1M …
A: Number of agents
T: Session length
V: Verification loops
U: Concurrent sessions
개념적으로는 이렇게 쓸 수 있다.
VRAM 수요 ∝ L × A × T × V × U
실제 시스템의 메모리 사용량은 이보다 훨씬 복잡하고,
양자화·KV 캐시 공유·오프로딩 같은 최적화가 이 곱을 많이 깎아낸다.
그러나 **“어떤 항이 커질수록 VRAM 수요가 왜 폭증하는지”**를 이해하는 데에는
이 정도 단순화로도 충분하다.
5. 2025→2030, 세 가지 시나리오 (개념적 밴드)
이제 2025년을 기준으로 세 가지 시나리오를 설정해 본다.
(모든 수치는 **“가능한 범위를 가늠하기 위한 가설”**이지, 예측이 아니다.)
5-1. 기준선: 2025년 전통 LLM 서비스
L₀ ≈ 8K
A₀ = 1
T₀ = 1 (짧은 Q&A)
V₀ = 1 (재검증 거의 없음)
U₀ = 1 (정규화된 동시성)
이때 VRAM 수요를 1로 정한다.
5-2. 시나리오 ① 보수적 (Conservative)
에이전트는 일부 고급 업무에만 쓰이고,
대부분의 서비스는 여전히 “단일 에이전트 + 짧은 컨텍스트” 중심인 경우.
L: 8K → 32K (4배)
A: 1 → 3
T: 1 → 3
V: 1 → 2
U: 1 → 2
에이전트형 고급 워크로드 1개당 VRAM 계수는
수십~100배까지 늘어날 수 있다.
그러나 전체 워크로드 중 에이전트형 비중이 제한적이라고 보면,
AI 데이터센터용 고속 메모리(주로 HBM+DRAM) 수요는
2025→2030 동안 대략 5~10배 증가를
보수적 밴드로 둘 수 있다.
5-3. 시나리오 ② 기준 (Base)
에이전트가 코딩, 리서치, 데이터 분석, 법률/컴플라이언스, 고객지원 등
고부가 지식 노동에서 **“기본 도구”**가 되는 경우.
이 경우, 에이전트형 고급 워크로드 1개당 VRAM 수요는
100~1,000배 수준까지 올라갈 수 있다.
최적화와 비에이전트 업무 비중을 감안하면,
AI 데이터센터용 고속 메모리 전체 수요는
10~20배 성장 정도를
“가능한 중심 시나리오 밴드”로 볼 수 있다.
5-4. 시나리오 ③ 공격적 (Aggressive)
“에이전트가 사실상 OS/업무 인터페이스가 된다”고 가정하는 상단 밴드이다.
이론상 개별 워크로드 VRAM 계수는
수천 배 이상까지도 치솟을 수 있다.
현실에서는 최적화·역할 분리·비에이전트 업무 등을 고려해야 하므로,
전체 AI 메모리 수요로 환산하면
20~30배 이상 정도를 상단 밴드로 열어두는 정도가 적절하다.
참고로, OpenAI의 “Stargate” 데이터센터 프로젝트에 대한 외부 분석에서는
2025년 기준으로만도 글로벌 DRAM 생산의 최대 40%를 OpenAI 한 회사가 쓸 수 있다는 전망이 나온 바 있다.
(출처: https://www.forbes.com/sites/janakirammsv/2024/04/12/openai-stargate-and-the-future-of-ai-infrastructure/)
이런 흐름이 여러 하이퍼스케일러로 확산된다고 가정하면,
20~30배 수준의 상단 밴드는
“과장”이라기보다 공격적이지만 상상 가능한 구간으로 해석할 수 있다.
6. “Frontier급 에이전트를 모두가 미친 듯이 쓰기 시작하면” VRAM 병목은 어떻게 터질까
이제, 질문 하나를 정면으로 들어보자.
“Frontier급 에이전트가 너무 좋아서,
OpenAI 전체 사용자들이 동시에 에이전트를 미친 듯이 쓰기 시작하면
VRAM 병목은 어떻게 될까?”
앞서 정의한 VRAM 개념식에서 보면,
이 상황은 사실상 **U(동시 세션 수)**가 갑자기 폭증하는 경우이다.
L, A, T, V는 이미 에이전트 도입으로 커진 상태
여기에 U가 한 번에 튀어 오르면
전체 VRAM 수요는 순식간에 “곱셈 결과”로 치솟는다.
6-1. 인프라 관점: 순서대로 벌어지는 일
GPU HBM이 먼저 꽉 찬다
각 GPU에는 이미
모델 파라미터
일부 KV 캐시
에이전트 상태
가 올라가 있다.
동시 세션 U가 폭증하면
HBM이 꽉 차면, 속도와 실패율이 튀기 시작한다
서비스 레벨에서 품질/기능을 줄이는 방향으로 수축한다
클라우드 사업자가 쓸 수 있는 전형적인 카드:
Rate limit / 쿼터
사용자·조직별 QPS, 토큰량, 동시 세션 수를 제한
일부 요청을 “거절”해서 전체 시스템 붕괴를 막는다.
Degrade 모드(품질 저하 모드)
긴 컨텍스트 대신 자동 요약 후 짧은 컨텍스트로 재질의
에이전트 병렬 실행 A를 줄이고, 가능하면 순차 실행
검증 루프 V를 줄여 초안→1회 검증 정도로 제한
Frontier 에이전트에서 일부 고급 기능(장기 히스토리, 복수 에이전트 협업)을 일시 봉쇄
모델 다운그레이드
KV 캐시 오프로딩 강화
VRAM이 가득 차면
KV를 DRAM/SSD/원격 스토리지로 더 많이 밀어내고,
필요할 때마다 다시 올려쓴다.
VRAM 병목은 완화되지만, 지연시간은 더 늘어난다.
정리하면, Frontier급 에이전트 사용량이 갑자기 폭발할 경우:
단기적으로는 VRAM 병목 → 속도 저하·에러·기능 제한이 나타나고,
중기적으로는 “HBM/VRAM이 절대적으로 부족하다”는 실측 데이터가 쌓이면서
다음 세대 CAPEX(메모리 증설)의 트리거로 작용하게 된다.
6-2. 에이전트 구조라서 더 심각한 이유
전통적인 챗봇이라면 U만 문제인데,
에이전트 구조에서는 이미 A, T, V까지 커져 있는 상태라 병목이 더 심각해진다.
하나의 “요청”이 사실상
플래너 에이전트
다수의 서브 에이전트
도구 호출
재귀적 재질문·검증 루프
로 쪼개져 있다.
사용량이 폭증하면
그래서 백엔드 오케스트레이션 레이어는 피크 상황에서 보통 이렇게 조정할 수밖에 없다.
A(병렬 에이전트 수) 상한: 태스크당 에이전트 최대 N개, 그 이상은 순차
T(세션 길이)·재귀 깊이 제한: 너무 긴 에이전트 체인은 중간 요약 후 재시작
V(검증 루프) 축소: 평소 2~3회 돌리던 자기평가·재작성을 1회로 줄이거나 생략
즉, 피크에서 시스템이 하는 일은
L, A, T, V를 인위적으로 눌러
U 폭증을 겨우 감당하는 것
이라고 해석할 수 있다.
이 현상이 반복될수록,
**“에이전트 시대의 병목은 연산이 아니라 VRAM/HBM”**이라는 사실이
운영 데이터로 계속 확인되며,
결국 메모리·인터커넥트·데이터센터 CAPEX를 더 키우는 방향으로
경영진의 의사결정을 밀어붙이게 된다.
7. 그래프로 보는 직관: 2025→2030 VRAM 지수 시나리오
앞의 세 가지 시나리오(보수·기준·공격)를
단순한 지수 함수로 이어서 2025→2030 그래프로 그려보면 다음과 같다.
세 곡선의 공통 특징은:
2025→2027 구간에서는 비교적 완만하다.
2028~2030 구간에서 기울기가 눈에 띄게 가팔라진다.
이것이 바로 **“에이전트 시대에 메모리 수요가 선형이 아닌 지수곡선을 탈 수 있다”**는 구조를 직관적으로 보여준다.
자세히 보면,
Conservative:
Base:
Aggressive:
이 그래프의 목적은 정확한 예측이 아니라,
“에이전트 도입 강도에 따라
같은 5년(2025→2030)이라도
메모리 수요 레벨이 1자릿수 배에서 25배 이상까지
크게 벌어질 수 있다.”
는 구조를 시각적으로 설명하는 데 있다.
8. 정리: Claude가 연 “현재형 수익”, Frontier·Kimi가 여는 “에이전트 시대”, 그리고 메모리
핵심을 다시 모으면 다음과 같다.
Claude는 LLM 기반 SaaS가 이미 “지금 돈이 되는 사업”임을 증명했다.
이는 더 큰 모델·더 긴 컨텍스트·더 많은 추론 패스에 투자해도
그만큼 매출로 회수 가능하다는 경제적 근거를 제공한다.
동시에 Kimi K2.5의 Agent Swarm, Anthropic의 Claude Code/팀,
OpenAI의 Frontier/ChatGPT 5.3 Agents가 보여주듯,
경쟁의 축은 **“모델”에서 “에이전트 네트워크”**로 이동하고 있다.
(예: https://www.kimi.ai/blog/kimi-k2-5,
https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)
에이전트 구조에서는
컨텍스트 길이(L), 에이전트 수(A), 세션 길이(T), 검증 루프(V), 동시성(U)
다섯 항이 모두 커지면서,
VRAM/KV 캐시 수요는 단순 선형을 넘어 곱셈 구조로 커진다.
(KV 캐시 및 오프로딩:
https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/
https://blocksandfiles.com/2026/01/06/nvidia-standardizes-gpu-cluster-kv-cache-offload-to-nvme-ssds/)
2025→2030에 대해
물론 실제 결과는
규제 환경,
모델·시스템 최적화 속도,
클라우드 사업자 CAPEX 계획,
경기 사이클
에 따라 크게 달라질 수 있을 것이다.
그럼에도,
“에이전트 경쟁이 본격화되는 한,
메모리는 연산보다 더 중요한 전략 자원이 된다.”
는 방향성 자체는
지금 나온 기술 발표·고객 사례·CAPEX 시그널들과 매우 잘 들어맞는다.
Claude와 같은 LLM 기반 SaaS 사업자는
OpenAI·Google·엔비디아·메모리 업체들은
 |
| Yahoofinance |
#글을 마치며
" 맥락은 사고의 원동력입니다.
마치 사람이 기억하기 위해 메모를 하듯이,
AI 에이전트도 학습한 내용을 재사용할 수 있도록 작업을 저장해야 합니다(=메모리)."
- Kevin Deierling,
Senior Vice President of Networking, NVIDIA.
만약 이 가설이 맞다면, 에너지 수요는 어떤 방향으로 재편될까?
생각만 더 복잡해진다.
투자 세계도 AI 확산으로 인해,
‘스토리’나 ‘감’에 기대기보다
과학계처럼 가설을 세우고, 데이터를 통해 검증하며,
논리적으로 반증 가능성을 점검하는 능력이 점점 더 중요해지는 국면에 들어서는 듯하다.
=끝