2026년 2월 8일 일요일

생각정리 179 (* Agent AI, 낸드의 경제학)

이전에 봐두었던 김정호 교수님의 HBF 관련 내용 중, 내가 주목했었던 포인트는 AI 시대에 NAND의 사용처가 변화하면서 SSD의 가속상각 가능성이 함께 부각될 수 있다는 점이다.

또한 NAND와 DRAM의 본질적 성질 차이에 대한 설명은 김정호 교수님이 비교적 명확하게 정리해주는 편이라고 느꼈다.

입자성..파동성... 슈뢰딩거방정식 뭐시기 ..

https://www.youtube.com/watch?v=uJWZQb9rWUk&t=1738s


https://www.youtube.com/watch?v=uJWZQb9rWUk&t=1738s




1. 문제의식: AGENT AI 시대, 왜 갑자기 낸드 경제학이 중요해졌는가


지금까지 AI 인프라를 이야기할 때 중심은 주로 GPU·HBM·DRAM이었다.
낸드(NAND)는 “싸고 큰 저장공간(SSD)” 정도로 취급되었다.

그런데 최근 한 GPU 업체가 BlueField-4 기반의 Inference Context Memory Storage Platform(ICMSP) 를 공개하면서 상황이 바뀌었다. 이 플랫폼은 KV 캐시 같은 추론 컨텍스트를 NVMe SSD 기반의 별도 메모리 계층에 보관하고, 재사용 가능한 컨텍스트를 미리 GPU 근처로 프리스테이징해 GPU 활용도를 높인다는 아이디어를 전면에 내세운다.(NVIDIA Developer)


여기에 여러 연구·백서들이 KV 캐시/컨텍스트를 스토리지로 오프로딩하는 구조를 제안하고 있고, 특히 agentic AI(멀티스텝 에이전트) 가 확산될수록 이 컨텍스트 데이터가 기하급수적으로 늘어난다고 지적한다.(arXiv)


이 흐름을 종합하면:

  • 낸드는 더 이상 “가끔 쓰고 주로 읽기만 하는 저장소”가 아니라

  • 에이전트 컨텍스트를 계속 읽고 쓰는 외부 메모리 계층으로 올라가고 있고,

  • 따라서 낸드의 쓰기 내구성·상각·공급제약이 AI 인프라 경제학에서 점점 핵심 변수가 되고 있다.

이 글은 바로 이 지점,

“AGENT AI 시대에 컨텍스트가 늘어날수록 왜 낸드가 더 빨리 상각될 수 있는지,
그리고 수급 불균형·초과수요 국면에서 그 위험이 어떻게 증폭되는지”


를 구조적으로 정리해 보려는 시도이다.


2. AGENT AI가 왜 낸드 쓰기를 늘리는가: 컨텍스트 폭증의 메커니즘


2-1. 단순 LLM 질의 vs AGENT 워크로드


단순 LLM 질의
에서는:

  • 사용자 질문 1회 → 모델 한 번 추론 → KV 캐시는 세션 안에서만 쓰이고 사라지는 경우가 많다.

  • SSD는 주로 모델 가중치·데이터셋을 저장하는 쪽에 쓰이고,
    추론 중에는 read 비중이 압도적으로 크다.

반면 AGENT AI 워크로드에서는 상황이 완전히 달라진다.

  • 하나의 요청이

    • 여러 번의 툴 호출,

    • 내부 검증/재시도/교차 검증,

    • 다른 에이전트와의 상태 공유,
      를 포함하는 멀티스텝 체인(chain) 구조가 된다.

  • 에이전트는 단발성이 아니라,
    장기간 유지되는 “작업 세션/작업 공간” 을 다루게 된다.

삼성 반도체의 KV 캐시 오프로딩 백서도,
에이전트형 AI 시스템이 보편화될수록 대화·작업 컨텍스트가 길어지고, KV 캐시·상태 정보를 외부 스토리지 계층으로 오프로딩해야 할 필요성이 커진다고 정리한다.(download.semiconductor.samsung.com)


이 말은 곧,

  1. 생성되는 컨텍스트의 총량이 증가하고,

  2. 여러 스텝·여러 에이전트 간에 공유해야 하는 컨텍스트가 늘어나며,

  3. 이를 GPU HBM만으로 감당하기 어려워 SSD와 같은 외부 계층에 내려놓는 비율이 커진다는 뜻이다.

즉, AGENT AI = 컨텍스트 폭증 → SSD(낸드) 쓰기 트래픽 증가라는 방향성은
여러 기술자료들에서 공통적으로 지적하는 흐름이다.(NVIDIA Developer)

2-2. “저장소”에서 “외부 메모리”로: 워크로드 성격 변화


이때 SSD 위의 워크로드는 크게 두 가지로 나뉜다.

  • 쓰기(write)

    • 길어진 세션, 여러 에이전트가 사용하는 컨텍스트를
      GPU HBM에서 외부 컨텍스트 티어(SSD)로 내릴 때 발생

  • 읽기(read)

    • 같은 컨텍스트를

      • 후속 단계에서 다시 참조하거나,

      • 다른 GPU/노드가 이어받아 추론할 때
        SSD에서 다시 읽어와 HBM으로 Prefetch할 때 발생

즉, 앞으로의 SSD는:

“한 번 써 두고 계속 읽는 저장소”가 아니라,
“새 컨텍스트를 쓰고, 재사용하고, 지우는 read/write 혼합 외부 메모리”


라는 성격을 점점 강하게 띠게 된다.
여기서부터 낸드 수명·상각 문제가 본격적인 분석 대상이 된다.


3. 낸드 수명·상각의 기본: DWPD 관점에서 본다


낸드 기반 SSD의 내구성은 일반적으로
P/E 사이클(Program/Erase), TBW(Terabytes Written), DWPD(Drive Writes Per Day) 같은 지표로 표현된다.(Kingston Technology Company)

핵심만 추리면:

  • 낸드 플래시는 셀당 쓰기/지우기 횟수가 유한하다.

  • 제조사는 SSD가 보증 기간 동안 버틸 수 있는 총 쓰기량을

    • TBW(총 몇 TB를 쓸 수 있는지),

    • DWPD(드라이브 전체 용량을 하루에 몇 번까지 쓸 수 있는지)
      형태로 명시한다.(Kingston Technology Company)


예를 들어,

  • 5년 보증, 1 DWPD SSD라면
    → “5년 동안 매일 이 드라이브 전체를 1번씩 모두 써도 견딘다”는 뜻이고,

  • 같은 조건에서 3 DWPD SSD라면
    → “매일 3번씩 전체를 덮어써도 된다”는 의미다.

경제학적으로 보면,
SSD 한 개의 CAPEX를 수명 동안 쓸 수 있는 총 쓰기량(TBW) 으로 나누면,

“1TB를 쓸 때마다 실제로는 얼마를 상각하는가”


라는 단위 비용으로 볼 수 있다.(Sandisk Documents)

따라서:

  • 하루당 쓰기량(DWPD)이 올라가면

    • SSD 교체 시점이 앞당겨지거나(수명 단축),

    • 더 높은 DWPD 등급의 SSD를 도입해야 하고(초기 CAPEX 증가),

    • 어떤 경우든 낸드 관련 상각·투자 부담은 증가한다.


4. 수식으로 보는 상각 가속: 수요 폭증 + 공급 제약


이제 AGENT 워크로드와 메모리 공급을 함께 보자.하루 전체 SSD 쓰기량을 

Wtotal\text{W}_{\text{total}}
SSD 한 개 용량을 CSSD\text{C}_{\text{SSD}},
전체 SSD 개수를 NSSD\text{N}_{\text{SSD}} 라고 하면

DWPDWtotalCSSD×NSSD\text{DWPD} \approx \frac{\text{W}_{\text{total}}}{\text{C}_{\text{SSD}} \times \text{N}_{\text{SSD}}}

라고 볼 수 있다(단순 평균 모델).


4-1. AGENT AI가 바꾸는 것은 Wtotal\text{W}_{\text{total}}


앞서 본 것처럼 AGENT AI 도입이 본격화되면:

  • 세션 길이,

  • 에이전트 체인 깊이,

  • 컨텍스트 종류(중간 상태·검증 로그·툴 결과 등),


이 모두 늘어나고, KV 캐시/컨텍스트를 외부 계층으로 오프로딩하는 비율도 올라간다는 점에서
하루 전체 쓰기량 Wtotal\text{W}_{\text{total}} 이 증가하는 방향성은 상당히 확실하다.

게다가, 최근 연구들도 KV 캐시를 스토리지·CSD(Computational Storage Drive)로 오프로딩하는 방안이 긴 컨텍스트·대규모 LLM 추론에서 점점 유력한 접근이 되고 있음을 보여준다.

4-2. DRAM·NAND 공급은 단기에 기하급수적으로 늘어나기 어렵다


반대로 메모리 공급은 물리적·투자적 제약을 받는다.

  • DRAM·NAND는 대규모 팹 투자와 공정 전환이 필요하고,
    설비 리드타임·공정 안정화까지 고려하면 수년 단위 사이클로 움직인다.(SemiAnalysis)

  • 최근 메모리 리포트들은

    • AI 데이터센터 수요가 메모리(특히 HBM·DRAM·낸드)에 강한 상방 압력을 주고,

    • 일부 구간에서 공급 부족·리드타임 증가·가격 상승이 동시에 나타나고 있다고 지적한다.(Barron's)


즉, 전방 수요는 기하급수에 가깝게 늘고 있는데, 후방 공급은 긴 리드타임을 가진 완만한 곡선이다.
이 간극에서 수급 불균형(특히 초과수요 구간) 이 발생한다.

이런 시기에는:

  • SSD를 더 많이 깔고 싶어도

    • 공급 부족,

    • 높은 가격,

    • 납기 지연 때문에
      (\text{N}_{\text{SSD}}) 를 충분히 늘리기 어렵다.

4-3. 그 결과: SSD 한 개당 DWPD 상승 압력


수식을 다시 보면,

  • Wtotal\text{W}_{\text{total}} 는 AGENT 수요로 인해 ,

  • NSSD\text{N}_{\text{SSD}} 는 공급 제약으로 인해 단기적으로 제한,

  • CSSD\text{C}_{\text{SSD}} 역시 공정 전환·비용 때문에 급격히 키우기 어렵다.


이때 평균 DWPD는

DWPDWtotalNSSD

에 가깝게 움직인다.

따라서 수급 불균형·초과수요 국면에서는

“AGENT AI가 만들어내는 총 쓰기량 증가분을
충분히 많은 SSD/낸드로 나눠 다루지 못해,
SSD 1개당 쓰기 부담이 증가하고(DWPD 상승),
그만큼 낸드 상각이 가속될 위험이 커진다.”


고 보는 것이 논리적으로 자연스럽다.

이건

  • “항상 그렇게 된다”가 아니라

  • **“그럴 압력이 구조적으로 커진다”**는 의미다.


5. 완충 장치와 한계: 상각 가속을 얼마나 완화할 수 있나


현실의 시스템·사업자는 이런 상각 압력을 그대로 방치하지 않는다.
대표적인 완충 메커니즘은 다음과 같다.

5-1. 아키텍처·정책 차원

  • 모든 상태를 SSD에 내리지 않고,

    • 짧게 쓰고 끝나는 노이즈 컨텍스트는 HBM/DRAM/로컬 캐시에서만 처리하고,

    • 재사용 가치가 높은 컨텍스트만 외부 컨텍스트 티어로 오프로딩한다.

  • TTL, eviction 정책을 조절해
    SSD에 오래 남을 필요가 없는 데이터는 빨리 제거해, 불필요한 쓰기·갱신을 줄인다.

즉, AGENT로 컨텍스트가 늘어난다고 해서 그만큼 SSD 쓰기가 선형으로 늘어나지 않도록 정책을 튜닝하는 것이다.

5-2. 스토리지 플릿·제품 선택

  • 외부 컨텍스트 계층에는

    • DWPD가 높은 엔터프라이즈급 SSD를 우선 배치하고,(Sandisk Documents)

    • 오버프로비저닝을 키워 실효 수명을 확보한다.

  • 동일한 Wtotal\text{W}_{\text{total}}

    • 더 많은 SSD,

    • 더 큰 용량,

    • 더 높은 내구성 등급 제품으로 나누어 받도록 설계해
      개별 SSD의 DWPD를 1 이하로 관리하려 한다.

5-3. 가격·비즈니스 모델

  • 컨텍스트를 많이 쓰는 워크로드,
    장기간 상태를 유지해야 하는 에이전트에는
    더 높은 과금 혹은 별도 요금제를 적용해
    낸드 상각 비용을 가격에 반영할 수 있다.

  • 반대로, 비용 민감한 워크로드는
    컨텍스트 보존 기간을 줄이거나, 외부화 비율을 낮추는 옵션을 통해
    낸드 부담을 줄이는 식의 상품 설계가 가능하다.

이러한 대응 덕분에,
“AGENT AI → NAND가 무조건 몇 년 안에 타버린다” 같은 극단적인 상황은 피할 수 있다.

그러나 동시에,
AGENT AI가 없던 시기보다 낸드 상각 압력이 구조적으로 커진다는 방향성 자체는 바뀌지 않는다.

  • 컨텍스트 외부화 비중이 높아지고,

  • 총 쓰기량이 늘어나며,

  • 수급이 타이트한 구간에서는 SSD 1개당 부담이 커질 가능성이 크기 때문이다.


6. 결론: AGENT AI 시대, 낸드는 “외부 메모리 + 상각 자산”으로 봐야 한다


정리하면 다음과 같다.

  1. AGENT AI 확산 → 컨텍스트 폭증

    • 멀티스텝 체인, 툴 호출, 내부 검증, 에이전트 간 상태 공유로
      KV 캐시·중간 상태·에이전트 컨텍스트 총량이 크게 증가한다.(download.semiconductor.samsung.com)

  2. HBM만으로는 이 컨텍스트를 다 품기 어려워, 외부 컨텍스트 메모리 계층(SSD/NVMe)로의 오프로딩이 늘어난다.

    • ICMSP 같은 플랫폼은 KV 캐시를 NVMe SSD로 확장된 컨텍스트 티어에 저장·공유하는 구조를 이미 제시하고 있다.(NVIDIA Developer)

  3. SSD는 더 이상 “거의 읽기 전용 저장소”가 아니라, “컨텍스트를 계속 읽고 쓰는 외부 메모리”가 된다.

    • 이로 인해 낸드의 하루당 쓰기량(DWPD) 이 구조적으로 상승할 압력이 생긴다.(arXiv)

  4. 동시에 DRAM·NAND 공급은 팹 리드타임·공정 난도 때문에 단기에 기하급수적으로 늘어나기 어렵다.

    • AI 데이터센터 수요 급증 국면에서,
      메모리 시장은 공급 부족·리드타임 증가·가격 상승을 경험하고 있다.(Barron's)

  5. 수요는 빠르게 늘고(Wtotal\text{W}_{\text{total}} ↑), SSD 개수를 마음대로 못 늘리면(NSSD\text{N}_{\text{SSD}} 제한), SSD 1개당 DWPD가 올라가고, 낸드 상각이 가속될 가능성이 커진다.

    • 이는 수식으로도, 시장 구조상으로도 합리적인 추론이다.

  6. 물론 아키텍처 최적화·고내구성 SSD·가격 체계 설계로 이 상각을 완화할 여지는 크다.

    • 하지만 “AGENT AI가 없던 시기보다 낸드 상각이 덜 중요해진다”고 말하기는 어렵고,

    • 오히려 에이전트 시대에는 낸드가 “토큰당 비용(J/token, $/token)”을 결정하는 핵심 자산 중 하나로 부상한다고 보는 편이 현실에 가깝다.

요약하면,

AGENT AI 시대의 낸드 경제학
“얼마나 큰 SSD를 사느냐”를 넘어서,
**“얼마나 자주 쓰고 지우게 될지, 그 쓰기 횟수를 어떤 아키텍처와 공급망으로 감당할지”**에 관한 문제이다.

 

#글을 마치며


예전에 린홍원의 『TSMC, 세계 1위의 비밀』를 읽으면서 “NAND가 의외로 AI 시대에 중요한 역할을 할 것”이라는 대목이 인상에 남아 있었다.

이제는 한 걸음 더 나아가, Agent AI 시대의 진짜 주인공은 어쩌면 DRAM이 아니라 NAND일지도 모른다는 생각으로 글을 마무리해본다.

-끝

생각정리 178 (* VAST Data, Optical Interconnect)

CES 2026에서 젠슨 황이 상당한 시간을 할애했던 BlueField-4를 공부하는 과정에서 VAST Data를 알게 되었고, 이제 그 기술적·산업적 함의를 정리한 뒤, 앞으로 광 네트워킹이 얼마나 중요해질지를 함께 짚어보려 한다.



0. 서론: 차세대 DPU(BlueField-4급)가 의미하는 것


먼저 이번 구조의 출발점이 되는 차세대 DPU(4세대급 DPU) 가 무엇인지부터 정리할 필요가 있다.

이 DPU는 한마디로 이렇게 이해하면 된다.

**“GPU가 계산에만 집중하도록, 네트워크·스토리지·보안 같은 ‘데이터 이동과 인프라 잡일’을 옆에서 전담하는 인프라용 프로세서”**이다. (NVIDIA Blog Korea)


기존 NIC(네트워크 카드) 가 “패킷을 잘 보내고 받는 장치”였다면, 이 DPU는 여기에

  • Arm 계열 코어(작은 CPU들)

  • 네트워크·스토리지·암호화·보안 가속기 를 붙여,


네트워크/스토리지/보안 처리를 서버 CPU 대신 맡는 ‘인프라 전용 컴퓨터’ 로 만든 개념이다.


특히 한 GPU 업체는 이 DPU 기반으로 ICMSP(Inference Context Memory Storage Platform) 라는 개념을 제시했다. 여기서 이 DPU는

“KV 캐시·에이전트 컨텍스트를 SSD 풀에 저장·공유하고, RDMA·NVMe-oF를 통해 저지연·저지터로 GPU와 데이터를 주고받는 컨텍스트 메모리 매니저”


역할을 한다고 정의된다. (NVIDIA Developer)


이제 이 DPU를 전제로, SSD=외부 컨텍스트 메모리 계층과 이를 운영하는 스토리지 플랫폼 이야기를 이어가 보겠다.


1. SSD가 갑자기 중요해진 이유: 저장장치에서 “외부 메모리”로


AI 인프라는 한동안 “GPU가 얼마나 빠르냐” 가 핵심이었다.
하지만 LLM·에이전트 추론이 커지자, 진짜 승부처는 이렇게 바뀌고 있다.

“GPU가 얼마나 빠른가”보다, “GPU를 얼마나 멈추지 않고 계속 돌릴 수 있는가”


즉, GPU 활용도(Utilization) 가 더 중요해진 것이다.


GPU가 멈추는 대표 이유가 바로 컨텍스트(context) 이다.
컨텍스트는 단순 텍스트 이력뿐 아니라, 다음 토큰을 빠르게 만들기 위해 저장해 두는 계산 결과까지 포함한다.

  • KV 캐시(KV cache):
    LLM이 다음 토큰을 만들 때, 이전 토큰에서 계산한 중간 결과를 저장해 두는 “임시 메모리”이다. 같은 계산을 반복하지 않고 속도를 내는 데 필수적이다.

  • 에이전트 컨텍스트(agent context):
    에이전트가 멀티스텝 작업을 수행할 때 “무엇을 했고, 무엇을 하려는지, 중간 결과는 무엇인지” 같은 작업 상태를 유지하는 정보이다.

문제는 이 컨텍스트가 커질수록, GPU 옆 초고속 메모리인 HBM 에 다 올려두기 어렵다는 점이다.

장문맥 대화, 멀티 에이전트, 롱런 세션이 늘어날수록 KV 캐시/컨텍스트가 HBM을 잠근다.

그러면:

  • 새 작업을 올리기 어렵고(배치 확장이 막히고),

  • 컨텍스트 때문에 데이터 이동·재계산·대기가 반복되면서,
    GPU가 멈추는 유휴 시간이 늘고 토큰 처리량이 떨어진다.

핵심은 “HBM이 논다”가 아니라,

HBM에 컨텍스트를 붙잡아 두느라 GPU가 제대로 일을 못 하고, 활용도가 떨어진다는 점이다.

NVIDIA가 CES에서 내놓은 Vera/Rubin 계열 설계의 메시지는 명확하다. (Tom's Hardware)

컨텍스트를 GPU 내부 HBM만으로 감당하지 말고, 랙/클러스터 전체가 공유하는 ‘외부 메모리 계층(External Memory Tier)’을 만들자.
그리고 그 역할을 SSD가 맡게 하자.


이 순간 SSD는 단순 “저장장치”가 아니라, 추론을 위한 외부 메모리 계층으로 성격이 바뀐다.


2. DPU + RDMA + NVMe-oF: SSD를 메모리처럼 쓰는 통로


컨텍스트를 SSD로 내려보내고(offload),
다시 필요할 때 빠르게 가져오려면(fetch),


그 사이의 데이터 경로
가 병목이 되면 안 된다.

그래서 제시된 조합이 DPU + RDMA + NVMe-oF 이다. (NVIDIA Developer)

  • DPU(Data Processing Unit)
    네트워크/스토리지/보안 등 “데이터 이동” 작업을 서버 CPU 대신 전담 하는 인프라용 프로세서이다. GPU가 계산에 집중하도록 데이터 경로 부담을 분리한다.

  • RDMA(Remote Direct Memory Access)
    네트워크로 데이터를 옮길 때 CPU 개입과 메모리 복사를 줄여, 지연(latency)지터(jitter, 지연의 흔들림) 를 낮추는 기술이다.

  • NVMe-oF(NVMe over Fabrics)
    NVMe SSD 접근을 네트워크로 확장해, 멀리 있는 SSD도 고속·저지연 으로 접근하는 방식이다.


이 조합의 목적은 단순히 “SSD를 빨리 읽자”가 아니라,

“SSD에 있는 컨텍스트를, HBM 옆 메모리처럼 예측 가능하게 다루자”


는 데 있다.

그래야 SSD가 진짜로 “외부 컨텍스트 메모리 계층” 이 될 수 있기 때문이다.

실제 한 GPU 업체의 설명에서도, 이 DPU 기반 플랫폼이 재사용 가능한 추론 컨텍스트(KV 캐시)를 보관하고 GPU 근처로 프리스테이징해, GPU 활용도를 높인다고 밝히고 있다. (NVIDIA Developer)


3. (중간 요약) HBM에 묶여 있던 컨텍스트를 SSD로 빼고, 다시 Prefetch로 당겨오는 구조


여기까지를 한 번에 요약하면 다음과 같다.

예전에는 LLM이 다음 토큰을 빠르게 만들기 위해
KV 캐시(이전 계산 결과)에이전트 컨텍스트(작업 상태)
GPU 옆 초고속 메모리(HBM) 에 계속 붙잡아 두는 구조였다.
그런데 대화가 길어지고 에이전트가 많아지면 이 컨텍스트가 커져서 HBM을 많이 잠가 버린다.
그러면 GPU가 새 작업을 올리거나 배치를 키우기 어려워지고, 컨텍스트 때문에 데이터 이동·재계산·대기 같은 일이 늘면서 GPU가 멈추는 시간(유휴) 이 생기거나 처리량이 떨어진다.
즉 문제의 핵심은 “HBM이 논다”가 아니라 GPU 활용도가 떨어진다는 점이다.

새로운 구조(차세대 DPU + ICMSP 방향)는 이 컨텍스트를 HBM에만 두지 않고 외부 메모리 계층으로 빼는 방식이다.
구체적으로는 HBM을 많이 잡아먹는 KV 캐시/컨텍스트를 RDMA(빠른 전송)
DPU(데이터 이동 전담 칩) 가 관리하는
SSD 풀(NVMe-oF로 접근되는 원격 SSD 묶음) 로 내려둔다.
이렇게 하면 HBM은 컨텍스트에 덜 잠기고, GPU는 더 자주 “계산”에 집중할 수 있다.

그리고 나중에 그 컨텍스트가 다시 필요해지면, SSD 풀의 데이터를 “그때그때 느리게 가져오는” 방식이 아니라 Prefetch(필요하기 전에 미리 당겨오기) 로 GPU HBM 쪽에 미리 올려둔다.
결과적으로 GPU는 컨텍스트를 기다리느라 멈추는 시간이 줄고, 같은 GPU로 더 많은 토큰을 안정적으로 뽑는 방향(=GPU 활용도 개선)으로 간다.

 

한 줄로 정리하면,
이 구조는 KV 캐시/컨텍스트를 HBM에만 묶어두지 않고 SSD 기반 외부 메모리 계층으로 오프로딩했다가, 필요할 때 Prefetch로 다시 HBM에 올려 GPU 유휴를 줄이는 아키텍처이다.






4. 스토리지 플랫폼의 역할: “고속도로 위의 운영체제”


여기서 한 스토리지 소프트웨어/데이터 플랫폼 업체가 맡는 역할은,
**“고속도로(하드웨어)를 깔아놓은 뒤, 그 위에서 컨텍스트가 끊기지 않고 잘 흘러가게 만드는 운영체제”**에 가깝다.


ICMSP가 제공하는 것은 요약하면 “컨텍스트를 SSD로 보내고 다시 가져올 수 있는 고속도로(DPU·RDMA·NVMe-oF)” 이다.


이 위에서 스토리지 플랫폼이 하는 일은 세 가지로 보고 정리할 수 있다.

  1. 컨텍스트를 개별 GPU의 로컬이 아니라, 클러스터 전체의 ‘컨텍스트 풀(pool)’로 운영하는 것

  2. 어떤 컨텍스트를 언제 SSD로 내리고(offload), 언제 HBM으로 미리 끌어올릴지(prefetch) 결정하는 정책을 구현하는 것

  3. 이 모든 것을 저지연·저지터 데이터 경로 위에서 안정적으로 돌리는 것


따라서 이런 스토리지 플랫폼은 “SSD 박스를 파는 회사”가 아니라,

SSD를 LLM/에이전트의 외부 컨텍스트 메모리 계층으로 쓰게 만들어 GPU 효율을 현금화하는 소프트웨어/데이터 플랫폼


이라고 보는 것이 정확하다. (NVIDIA Developer)


5. 한 페이지 요약: 외부 컨텍스트 메모리 시대의 수혜 밸류체인·병목·CAPEX 이동


ICMSP로 대표되는 “SSD=외부 컨텍스트 메모리” 전환은,
투자·산업의 초점을 GPU 단품 성능에서 클러스터 전체의 데이터 이동·컨텍스트 재사용 효율로 옮긴다.


병목은 “연산 부족”이 아니라 컨텍스트를 얼마나 빨리·일관되게(저지연·저지터) 옮기고 재사용하느냐로 이동하고, CAPEX는 GPU만이 아니라 네트워킹·DPU·스토리지 계층으로 구조적으로 확장된다.

(1) 광모듈 / 실리콘 포토닉스

  • 병목: 컨텍스트 공유(ICMSP)로 동서(East-West) 트래픽이 폭증하면, 전기 기반 링크만으로는 전력·발열·거리·신호무결성 측면에서 한계가 빨리 온다.

  • CAPEX 포인트: 트래픽이 늘수록 “몇 Tbps냐”보다 비트당 에너지(pJ/bit) 가 핵심이 되며, 광모듈·실리콘 포토닉스 비중이 커진다.

한 시장조사기관은 광트랜시버 시장이 **2024년 약 136억달러 → 2029년 250억달러(CAGR 약 13%)**로 성장할 것으로 본다. (MarketsandMarkets)

(2) CPO(Co-Packaged Optics) 패키징

  • 병목: 플러거블 광 트랜시버 + 전기 리치 구조에서는 고대역 스위치에서 I/O 밀도·전력·열 이 병목이 된다.

  • CAPEX 포인트: CPO는 스위치 ASIC과 광학을 한 패키지에 붙여 pJ/bit를 낮추고 전기 경로 손실을 줄이는 해법이다.

NVIDIA는 실리콘 포토닉스 기반 CPO 스위치로, 포트당 1.6Tb/s급·네트워크 전력 3.5배 절감·수백만 GPU 연결을 목표로 하는 로드맵을 공개했다. (NVIDIA Newsroom)

(3) 스위치 ASIC

  • 병목: ICMSP는 대역폭뿐 아니라 예측 가능한 지연(저지터) 를 요구한다. 네트워크 지연이 흔들리면 Prefetch가 깨지고 GPU 파이프라인이 비면서 전체 처리량이 떨어진다.

  • CAPEX 포인트: 단순 고성능 스위치가 아니라, AI 트래픽·RDMA·혼잡제어에 최적화된 스위치 ASIC 이 필요하며, 스위치 계층이 GPU와 동급의 핵심 설비로 올라간다. (NVIDIA Newsroom)

(4) DPU/NIC

  • 병목: 컨텍스트 Offload/Fetch/Prefetch의 핵심은 “데이터 이동”이며, 이것을 CPU가 처리하면 오버헤드와 지터가 커진다. 결국 데이터 경로의 결정론(determinism) 이 병목이다.

  • CAPEX 포인트: DPU/NIC는 단순 네트워크 카드가 아니라 컨텍스트 메모리 매니저 로 기능이 확장된다. ICMSP가 표준이 될수록 필수 부품으로 CAPEX 비중이 커진다. (NVIDIA Developer)

(5) NVMe SSD(External AI SSD, 컨텍스트 티어)

  • 병목: SSD는 이제 “용량”보다 지연·IOPS·일관성(QoS) 이 추론 품질(TTFT, 토큰/초)을 좌우한다. 컨텍스트 재사용률이 높아질수록 SSD는 사실상 메모리 계층이 된다.

  • CAPEX 포인트: 백업/저장용 스토리지가 아니라, “GPU당 필요한 외부 컨텍스트 메모리 티어” 로 NVMe CAPEX가 잡힌다.

(6) 스토리지 소프트웨어 / 데이터 플랫폼

  • 병목: 어떤 컨텍스트를 언제 오프로딩하고, 어디에 두고, 언제 Prefetch할지, 멀티 테넌트 환경에서 어떻게 격리·복구할지 같은 정책과 운영이 최종 병목이다.

  • CAPEX 포인트: “스토리지 관리 SW”가 아니라, GPU 효율을 현금화하는 컨텍스트 OS/플랫폼 으로 비용이 배정된다. GPU 투자 대비 수익률(토큰/초, J/token)을 좌우하는 레이어로 격상된다.


6. 2030년까지 광인터커넥트(광트랜시버·OCS·InP 웨이퍼) 시나리오


같은 맥락에서, 광인터커넥트 산업을 2030년까지 시나리오로 보면 다음과 같다.

6-1. 광트랜시버: 수요는 크고, 단기 성장은 “공급이 결정”


한 글로벌 시장조사기관은 광트랜시버 시장이 **2024년 100억달러대 중반 → 2029년 250억달러 수준(CAGR 10%대 중반)**으로 성장할 것으로 본다. (MarketsandMarkets)


하지만 실제 출하·매출은 부품 공급(특히 InP 기반 레이저·EML, 드라이버/TIA, SiPh 칩·패키징) 에 의해 제약될 수 있다. 즉 “총수요는 충분한데, 공급이 따라가느냐”가 2026년의 관전 포인트라는 것이다.

6-2. OCS(광회로스위치): 2028년 10억달러대, 2030년에는 ‘스텝 점프’ 가능


한 통신 특화 리서치사는 OCS(Optical Circuit Switch) 시장이 2028년에 10억달러를 넘을 것이라고 본다. (Cignal AI)

같은 내용을 보도한 업계 매체들도, AI 데이터센터에서 OCS가 전력 절감과 유연성을 동시에 확보하는 기술로 부상하고 있다고 정리한다. (Light Reading)

이를 2030년까지 단순 외삽하면, 연 15~30% 성장률을 가정할 때 2030년 13~20억달러 정도가 합리적인 범위 추정이다. 다만 OCS는 “완만한 성장”보다 아키텍처 전환이 임계점을 넘을 때 한 번에 점프하는 패턴을 보일 가능성이 크다.

6-3. CPO: 플러거블을 ‘대체’라기보다 ‘병존+점진적 잠식’

NVIDIA는 실리콘 포토닉스 기반 CPO 스위치를 통해 수백만 GPU를 1.6Tb/s 포트 스위치로 연결하면서, 네트워크 전력을 3배 이상 절감하는 방향을 제시한다. (NVIDIA Newsroom)

여러 시장조사기관은 CPO 스위치 시장이 2020년대 후반까지 20%대 중후반 CAGR으로 성장할 수 있다고 본다. (PW Consulting)

이를 종합하면,

  • 2025~26년: 여전히 플러거블(800G/1.6T) 중심 성장 구간

  • 2026~2030년: CPO가 플러거블을 완전히 “대체”하기보다는,
    **하이엔드·대규모 클러스터를 중심으로 “병존+점진적 잠식”**하는 구도가 될 가능성이 높다.

6-4. InP 웨이퍼(3인치 → 6인치): 병목 해소의 핵심 이벤트

코히런트는 세계 최초 6인치 InP(Indium Phosphide) 웨이퍼 팹을 구축했다고 발표했다. 이는 3인치 중심에서 6인치로 생산을 옮겨, 웨이퍼당 다이 수 증가·수율 개선·다이당 원가 절감을 동시에 노리는 전략이다. (Coherent Inc)

2030년까지 InP 수급은

  • 단순 웨이퍼 장수가 아니라 유효 다이 수(다이/웨이퍼 × 수율),

  • 3인치 → 6인치 전환 속도,

  • 고속 노드(200G→400G/lane) 수율 안정화

같은 변수에 의해 결정된다.

요약하면, InP 공급이 얼마나 빨리 “면적×수율”을 키우느냐에 따라, 2025~27년 EML 병목이 짧게 끝날지, 2030년 근처까지 길게 이어질지가 갈릴 수 있다.


7. 2030년까지의 두 가지 압축 시나리오


시나리오 A: 공급이 계속 타이트(병목 지속)

  • 6인치 전환·고속 노드 수율이 예상보다 느리게 안정화.

  • 결과:

    • EML(특히 고속 노드) 가격/마진 파워 지속

    • 트랜시버 업체는 SiPh 채택을 더 적극 활용해 InP 병목을 우회

    • OCS/CPO 도입은 빨라지지만, 광원(InP) 공급이 병목이라 “설치 속도”는 공급이 결정

시나리오 B: 6인치 전환 가속(2027~28년에 병목 완화)

  • 6인치 InP 전환이 업계에 빠르게 확산, 공정·수율이 빠르게 안정.

  • 결과:

    • 2025~26년은 타이트하지만, 2027~30년으로 갈수록 InP 병목 완화

    • 플러거블→CPO/ELS 전환이 수요측에서 빨라져도, 공급이 일정 부분 따라감

    • 가격 파워는 2025~26년 피크 후, 이후에는 제품 믹스·장기공급계약 구조가 수익성의 핵심

두 시나리오 모두 공통 메시지는 같다.

ICMSP/외부 컨텍스트 메모리 구조가 만들어낸 “동서 트래픽 폭증”과 “저지연·저지터 요구”는,
광트랜시버·OCS·CPO·InP 웨이퍼 전 밸류체인의 CAPEX와 기술 전환 속도를 2030년까지 꾸준히 끌어올리는 방향으로 작용한다.

 


8. 최종 정리


정리하면,

  • 차세대 DPU(BlueField-4급)는 “네트워크·스토리지·보안을 전담하는 인프라용 프로세서(DPU)”, ICMSP에서는 “컨텍스트 메모리 매니저” 역할을 한다. (NVIDIA Blog Korea)

  • SSD는 더 이상 단순 저장장치가 아니라, LLM/에이전트 컨텍스트를 담는 외부 메모리 계층이 된다.

  • 스토리지 플랫폼은 이 계층을 **클러스터 전체의 ‘공유 컨텍스트 풀’**로 운영하여, HBM에 묶여 있던 KV 캐시/에이전트 컨텍스트를 SSD로 빼고, 필요 시 Prefetch로 다시 HBM에 올려 GPU 유휴를 줄이는 역할을 한다.

  • 이 구조로 인해 병목은 GPU 연산에서 컨텍스트 데이터 이동·재사용 으로 옮겨가고, CAPEX는 GPU 단독에서
    광모듈/실리콘 포토닉스 → CPO 패키징 → 스위치 ASIC → DPU/NIC → NVMe SSD → 스토리지 SW
    전 구간으로 분산된다.

  • 2030년까지의 광인터커넥트 전망(광트랜시버·OCS·CPO·InP)을 겹쳐 보면, ICMSP/외부 컨텍스트 메모리 방향은 단순한 기술 옵션이 아니라,
    광·네트워크·스토리지 전 밸류체인의 CAPEX 재배치를 강제하는 거대한 수요 축이라고 정리할 수 있다.


생각정리 177 (* Nvidia Rubin Ultra Kyber Rack)

지난밤 일부 기사에서 Micron이 Nvidia의 HBM4 경쟁에서 탈락했다는 내용을 접했다.

한편 업계에서는 HBM4가 과도기적(중간다리) 성격이 강하고, 실질적인 경쟁의 본무대는 HBM4E부터 시작될 것이라는 관측이 나온다. 

Micron이 집중하겠다는 HBM4E 시장은 HBM4 시장과 얼마나 왜 어떻게 다를까?

HBM4와 HBM4E의 차이를 비교·분석
한 내용을 정리해 글로 남겨본다.  


Rubin Ultra NVL576: HBM4E 시대의 진짜 격전지


Rubin 세대에서 Vera Rubin NVL72**Rubin Ultra NVL576(Kyber Rack)**는 겉으로 보면 “같은 세대의 큰/작은 랙”처럼 보이지만, HBM 관점·전력 인프라 관점·데이터센터 경제성 관점에서 보면 완전히 다른 급의 제품이다.


특히 NVL576은 랙 하나에 들어가는 HBM4E 용량이 NVL72 대비 약 7배, 랙 전력은 약 5배까지 올라가면서, 자연스럽게 **HBM4E 공급사(삼성전자·SK하이닉스·마이크론)**의 “진짜 승부처”가 될 수밖에 없는 구조이다.

이 글은 다음 순서로 정리한다.

  1. Blackwell → Vera Rubin: 기본 개념 정리

  2. NVL72·NVL576 숫자의 의미

  3. Vera Rubin NVL72 vs Rubin Ultra NVL576 스펙 비교

  4. HBM 관점: 용량·대역폭·세대(HBM4 vs HBM4E)

  5. 전력·냉각·배전 구조의 차이

  6. 데이터센터 운영자 입장에서의 경제성

  7. HBM 공급사(삼성·SK·마이크론) 입장에서 NVL576의 의미


1. Blackwell vs Vera Rubin: “지금 AI 공장” vs “다음 세대 AI 공장”


아주 단순화하면 다음과 같다.

Blackwell 세대는 “지금 돌아가는 AI 공장”을 만든 세대이고,
Vera Rubin 세대는 “다음 세대 AI 공장”을 염두에 두고, 데이터센터 전체를 단위로 다시 설계한 세대이다.


1) GPU·CPU 조합 자체가 바뀐다

  • Blackwell 세대

  • Vera Rubin 세대

    • Rubin GPU + Vera CPU라는 완전히 새로운 조합으로 랙을 설계한다.

    • 엔비디아 공식 제품 페이지에 따르면 Vera Rubin NVL72는 랙 하나에 Rubin GPU 72개, Vera CPU 36개, NVLink 6 스위치, ConnectX-9, BlueField-4를 통합한 랙 스케일 시스템이다.
      NVIDIA Vera Rubin NVL72 (NVIDIA)

겉으로는 이름이 바뀐 수준처럼 보이지만, 실제로는 GPU·CPU·인터커넥트 세대가 통째로 교체되는 변화이다.

2) 메모리 세대: HBM3E → HBM4 → HBM4E

  • GB200/GB300 NVL72HBM3E 기반이다.(Hewlett Packard Enterprise)

  • Vera Rubin NVL72부터는 HBM4가 올라간다.

  • Rubin Ultra NVL576에서는 한 단계 더 나아가 HBM4E가 채택된다.

    • GTC 2025 발표를 정리한 여러 기사에 따르면 NVL576은 랙 기준 4.6PB/s의 HBM4E 대역폭수백 TB급 “fast memory”(HBM4E + CPU 메모리)를 제공하는 것으로 소개된다.(데이터 센터 다이나믹스)


즉 Rubin 세대의 큰 축은 **GPU의 연산 성능 향상 + HBM 세대 교체(HBM4 → HBM4E)**이다.

3) NVLink: 5세대 → 6세대 → 7세대

  • GB200/GB300 NVL72는 NVLink 5 기반이다.(Hewlett Packard Enterprise)

  • Vera Rubin NVL72는 NVLink 6를 사용하며,
    GPU당 3.6TB/s, 랙 전체 260TB/s NVLink 대역폭이 공식 사양에 명시되어 있다.(NVIDIA)

  • Rubin Ultra NVL576에서는 NVLink 7으로 올라가며,
    랙 단위 1.5PB/s급 NVLink 패브릭을 제공한다는 분석이 나온다.(데이터 센터 다이나믹스)


NVLink 세대가 올라갈수록 GPU 간 통신 레이턴시·대역폭이 좋아지고, 랙 내부를 하나의 거대한 가속기처럼 쓰기 쉬워진다.

4) “토큰당 비용”을 기준으로 다시 설계된 Rubin

엔비디아는 Vera Rubin NVL72 소개 페이지에서, Rubin 플랫폼이 Blackwell NVL72 대비:

  • 같은 규모의 MoE 학습에 필요 GPU 수를 최대 4배까지 줄이고,

  • 에이전틱 AI 추론에서 100만 토큰당 비용을 1/10 수준까지 낮출 수 있다고 설명한다.(NVIDIA)

이는 단순히 GPU 클럭·코어만 늘린 것이 아니라,

GPU·CPU·HBM·NVLink·네트워크·소프트웨어를 “토큰당 비용” 관점에서 재조합한 세대라는 뜻이다.

 


2. NVL72·NVL576 숫자는 무엇을 의미하나


1) NVL72

  • Vera Rubin NVL72 제품 페이지에서 구성은 다음과 같이 명시된다.(NVIDIA)

    • Rubin GPU 72개

    • Vera CPU 36개

  • Blackwell 세대의 GB200/GB300와 마찬가지로,
    “72”는 랙 안에서 NVLink로 묶이는 GPU 패키지(또는 GPU 모듈)의 개수로 이해하면 자연스럽다.

2) NVL576 (Kyber Rack)


Rubin Ultra NVL576은 코드명 **“Kyber Rack”**으로 불리며, GTC 2025에서 공개된 차세대 랙 설계이다.(데이터 센터 다이나믹스)

  • 여러 기술 기사와 Morgan Stanley 리포트 요약을 보면,
    NVL576 랙에는 Rubin Ultra GPU 패키지 144개가 들어가고,
    각 패키지 안에 4개의 컴퓨트 다이 + 여러 HBM4E 스택이 들어가는 구조로 설명된다.(Tom's Hardware)

  • 여기서 **“576”은 GPU 다이(die) 수(144패키지 × 4다이)**를 반영한 이름으로 보는 해석이 지배적이다.

정리하면, 세대와 표기 방식 변화까지 감안할 때 현실적으로는 이렇게 이해하는 것이 좋다.

  • NVL72: “GPU 패키지 72개짜리 랙”

  • NVL576: “GPU 패키지 144개(총 576개 다이)짜리 초고밀도 랙”

초보자에게 설명할 때는 그냥

“NVL72는 큰 GPU 72개, NVL576은 그걸 2배 패키지 × 4배 다이로 올려버린 괴물 랙”


이라고 이해시켜도 무리가 없다.


3. Vera Rubin NVL72 vs Rubin Ultra NVL576: 랙 스펙 비교


아래 표는 랙 1대 기준으로, 공개·보도된 수치를 정리한 것이다.
Rubin Ultra 쪽은 아직 최종 양산 전이므로 “예상치·분석치”라는 점을 전제로 본다.

3-1. 랙 수준 주요 스펙 비교



여기서 눈에 들어오는 포인트는 세 가지이다.

  1. HBM 용량: 20.7TB → 144TB (약 7배)

  2. HBM 대역폭: 1.58PB/s → 4.6PB/s (약 3배)

  3. 랙 전력: 130kW대(Blackwell 기준) → 600kW급 (약 4.5~5배)


4. HBM 관점: “용량 7배 vs 대역폭 3배”의 의미


4-1. 왜 용량은 7배인데, 대역폭은 3배인가

수치만 다시 보자.

단순 비율은 다음과 같다.

  • 용량: 144 ÷ 20.7 ≒ 6.96배 (약 7배)

  • 대역폭: 4.6 ÷ 1.58 ≒ 2.9배 (약 3배)

왜 이렇게 차이가 날까?

핵심 이유를 정리하면 다음과 같다.

  1. HBM4 → HBM4E는 “핀 속도 중심” 진화

    • HBM4와 HBM4E 모두 2048bit 인터페이스를 유지하는 것으로 알려져 있다.

    • HBM4E는 같은 폭에서 클럭(핀 속도)을 더 올려서 스택당 대역폭을 키우는 구조라, “스택 개수 × 폭”보다는 “속도”를 주로 올린다.

  2. NVL576은 용량을 극단적으로 키운 시스템

    • NVL576은 **GPU 패키지 수(144개)**와 패키지당 HBM4E 용량을 동시에 키우면서 총 용량을 크게 늘린 설계이다.

    • 다만, 랙 전체 전력·전압·배전 한도를 맞추기 위해 대역폭/용량 비율은 NVL72보다 낮게 설계될 수밖에 없다.

  3. 메모리 계층 구조의 변화

    • NVL576에서는 HBM4E + CPU쪽 LPDDR + NVLink 패브릭이 함께 동작하는 복합 메모리 계층 구조를 전제로 한다.

    • 즉, HBM 하나만으로 모든 병목을 풀기보다는, 램 + 네트워크 + NVLink를 합쳐 종합적인 “토큰당 비용”을 줄이도록 설계된다.

다시 말해,

NVL576은 “총 메모리 용량을 극단적으로 늘려 초대형·초장기 시퀀스 모델을 수용”하는 방향,
**대역폭은 전력·배선 한도 내에서 최대한 높인 수준(약 3배)**로 보는 것이 현실적이다.

 

4-2. HBM4 vs HBM4E: 세대 차이를 직관적으로 요약하면

  • HBM4

    • HBM3E 대비 속도·전력 효율이 개선된 차세대 HBM

    • Rubin GPU 1개에 288GB HBM4, 22TB/s 대역폭을 붙이는 설계가 대표적이다.(NVIDIA)

  • HBM4E

    • 같은 2048bit 인터페이스 기반에서 핀 속도·스택당 대역폭을 한 번 더 밀어붙인 확장 버전

    • SK하이닉스·삼성 로드맵에서는 HBM4 양산(2026년 전후), HBM4E 상용화(2027년 전후)를 목표로 한다는 보도가 이어지고 있다.(SK hynix Newsroom -)

Rubin Ultra NVL576는 이 HBM4E를 랙당 약 144TB 규모로 집어넣는 플랫폼이라,
수주 1건당 HBM 물량이 매우 큰 시스템이라는 점에서 HBM 공급사들에 특별한 의미를 갖는다.


5. 전력·냉각·배전: 130kW대 랙 vs 600kW 랙


5-1. 랙 전력

  • Blackwell GB200 NVL72 (참고 기준)

    • HPE QuickSpecs에 따르면 랙 TDP가 132kW(정격), 피크 설계 전력(EDPp)은 그 1.5배인 약 192kW이다.(Hewlett Packard Enterprise)

    • Vera Rubin NVL72도 **비슷한 수준(100~150kW대)**로 설계될 가능성이 높지만, 아직 엔비디아가 공식 수치를 공개하진 않았다.

  • Rubin Ultra NVL576 (Kyber)

    • DatacenterDynamics, Network World 등 GTC 2025 현장 기사들은 Kyber Rack(NVL576)의 랙당 전력을 600kW급으로 정리하고 있다.(데이터 센터 다이나믹스)

단순 배수로 보면,

NVL576 한 랙은 GB200 NVL72 기준 약 4.5~5배 전력을 먹는 초고밀도 랙이다.


5-2. 냉각: 수랭 필수 → 침지·2상 냉각 가능성

전력은 거의 그대로 **열(열부하)**이 된다.

  • Blackwell Ultra NVL72(GB300 기준)에서도, Morgan Stanley 리포트를 인용한 Tom’s Hardware 기사에 따르면
    랙 하나에 들어가는 수랭 시스템 BOM이 약 5만 달러 수준으로 추정된다.(Tom's Hardware)

  • 같은 기사에서, Vera Rubin NVL144로 가면 GPU TDP 증가로 인해 냉각 BOM이 약 17% 추가 상승할 것이라는 전망이 나온다.(Tom's Hardware)

  • Rubin Ultra GPU 패키지는 TDP가 3,600W 수준까지 올라갈 것으로 예상되며, 이 때문에 특수 콜드플레이트 혹은 침지식/임베디드 냉각이 필요할 것이라는 분석이 많다.(Tom's Hardware)

즉,

NVL72에서 “본격 수랭 시대”가 열렸다면, NVL576부터는 “침지·2상 냉각까지 검토하는 초고밀도 랙 시대”로 넘어간다고 정리할 수 있다.

 

5-3. 배전: 54V DC → 800V HVDC


엔비디아는 별도의 기술 블로그에서, AI 팩토리용 800V HVDC 전력 아키텍처를 공식 발표했다.(NVIDIA 开发者)

핵심 포인트는 다음과 같다.

  • 지금의 NVL72 랙(GB200/GB300)은 랙 내부 54V DC 버스바를 기준으로 설계돼 있다.(Hewlett Packard Enterprise)

  • 하지만 200kW를 넘어 1MW까지 가는 랙에서 54V를 그대로 쓰면

    • 구리 버스바가 수백 kg 단위로 필요하고,

    • 전압이 낮아 전류가 크게 늘어나면서 손실·발열·공간 문제 모두 커진다.(NVIDIA 开发者)

  • 그래서 2027년부터 800V HVDC로 전력 인프라를 전환해,
    1MW급 Kyber 랙(= Rubin Ultra NVL576)을 운영하겠다는 로드맵을 제시한다.(NVIDIA 开发者)

이 구조의 효과는 다음과 같이 정리된다.

  • 전력 효율: 54V 대비 엔드투엔드 효율 최대 +5%

  • 유지보수비: PSU 수·복잡성 감소로 유지보수 비용 최대 –70%

  • 구리 사용량: 고전압 직류로 전류를 줄여 버스바 구리 사용량 감소(NVIDIA 开发者)

따라서 전력 관점에서 본다면,

NVL72는 “기존 54V 인프라를 최대한 활용하는 세대”,
NVL576은 “800V HVDC를 전제로 한 600kW~1MW급 차세대 AI 공장 세대”라고 구분하는 것이 정확하다.

 


6. 데이터센터 운영자 입장에서의 경제성


6-1. 성능 밀도: NVL72 vs NVL576

  • Vera Rubin NVL72

    • NVFP4 기준 3,600 PFLOPS(= 3.6 EFLOPS), HBM4 20.7TB(NVIDIA)

  • Rubin Ultra NVL576

Rubin NVL72 자체도 이미 Blackwell 대비 “토큰당 비용 1/10”을 목표로 한 세대이지만,(NVIDIA)
NVL576은 거기서 다시 수 배 더 높은 랙당 성능 밀도훨씬 큰 메모리 풀을 제공하는 구조이다.

6-2. Capex: 설비투자 문턱

  • NVL72

    • 130kW 전후의 랙을 수랭으로 받는 것은, 기존 데이터센터 인프라를 강화하는 수준에서 대응이 가능하다.

    • 전용 1MW급 모듈형 변전·800V HVDC까지는 가지 않아도 된다.

  • NVL576

    • 600kW 랙 하나를 기준으로 보면,

      • 전용 800V HVDC 전력 인프라,

      • 고가의 침지·2상 냉각 혹은 초고성능 콜드플레이트,

      • 고밀도 랙을 받기 위한 전용 건물·수배전 설계가 필요하다.

    • 사실상 **하이퍼스케일러급(미국·중국 빅테크, 일부 초대형 클라우드)**만 감당 가능한 레벨이다.

6-3. Opex: 전력·냉각·유지보수

  • NVL72

    • kW당 비용이 높아도, 개별 랙 전력 자체는 아직 100kW대라
      현행 시설에서 조금씩 확장하며 운영하기 좋은 스윗스팟이다.

  • NVL576

    • 초기 인프라 투자는 크지만,

    • 800V HVDC 전환과 고효율 냉각으로 전력 손실·냉각비를 줄이고,

    • 같은 부지에서 훨씬 많은 토큰·파라미터를 처리하는 것이 가능해진다.(NVIDIA 开发者)

즉 TCO(Total Cost of Ownership) 관점에서는,

  • 중소형 사업자·호스팅 업체: NVL72가 현실적인 상한

  • 하이퍼스케일러: NVL576을 전제로 전력·냉각 인프라를 같이 재설계하면서,
    장기적으로 토큰당 비용을 최소화하는 쪽으로 갈 인센티브가 크다.


7. HBM 공급사(SK하이닉스·삼성전자·마이크론) 입장에서 NVL576의 의미


7-1. NVL72 ↔ NVL576, 1년 남짓의 텀

출시 시점을 다시 보면 다음과 같다.

두 세대 사이의 텀은 1년 남짓이다.

이 말은 곧,

  1. NVL72는 Rubin/HBM4 조합의 “초기도입·전환기 모델” 역할을 하고,

  2. NVL576에서 HBM4E 기반 대규모 도입이 본격화된다고 해석할 수 있다.

7-2. 랙당 HBM 수요의 점프


HBM 관점에서 수치만 보면 더욱 극적이다.

  • Vera Rubin NVL72: 20.7TB HBM4, 1.58PB/s

  • Rubin Ultra NVL576: 144TB HBM4E(추정), 4.6PB/s


→ 랙 한 대 기준으로 HBM 용량은 약 7배, 대역폭은 약 3배 증가한다.

이 구조는 HBM 공급사 입장에서는 다음을 의미한다.

  1. NVL72

    • HBM4 세대의 성능·전력 특성이 실제 워크로드에서 어떻게 나오는지 검증하는 시범 무대

    • 엔비디아·고객사·HBM 공급사가 툴체인·패키지·수랭 설계를 튜닝하는 단계

  2. NVL576

    • 같은 고객이, 같은 Rubin 계열 플랫폼 안에서 랙당 HBM 수요를 7배까지 늘리는 업그레이드

    • NVL576 수주를 많이 확보하는 HBM 업체일수록 HBM4E 매출·마켓쉐어를 크게 가져갈 가능성

여기에 HBM4·HBM4E 로드맵까지 겹친다.

  • SK하이닉스·삼성전자는 2026년 HBM4 양산, 2027년 HBM4E 상용화를 목표로 하고 있으며,(SK hynix Newsroom -)

  • 엔비디아 Rubin Ultra NVL576의 출하 시점(2H27)과 거의 맞물린다.

결국,

Vera Rubin NVL72는 Rubin/HBM4 생태계를 다지는 “전환기 모델”에 가깝고,
Rubin Ultra NVL576부터가 **HBM4E를 둘러싼 삼성·SK·마이크론의 “진짜 전장(격전지)”**가 될 가능성이 높다.

 

  • NVL72에서 만족스러운 안정성·성능·전력 특성을 제공한 HBM 공급사일수록
    NVL576·그 이후 1MW급 Kyber 계열 랙에서 우선적으로 채택될 확률이 커진다.

  • 반대로 NVL576에서 특정 업체의 HBM4E가 패키징·전력·온도에서 문제를 일으킬 경우,
    한 랙에서 수십~수백억 원 규모의 HBM 공급 계약이 통째로 경쟁사로 넘어갈 수 있다.


8. 정리: 왜 NVL576이 “HBM4E 격전지”인가


요약하면 다음과 같다.

  1. 아키텍처

    • Blackwell → Vera Rubin은 GPU·CPU·HBM·NVLink 세대를 통째로 교체하면서
      “토큰당 비용”을 기준으로 재설계한 세대 전환이다.

  2. 명칭

    • NVL72: Rubin GPU 72개인 랙

    • NVL576: Rubin Ultra GPU 패키지 144개(총 576개 다이)인 Kyber 랙

  3. HBM 스펙

    • NVL72: 20.7TB HBM4, 1.58PB/s

    • NVL576: 약 144TB HBM4E, 4.6PB/s
      용량 7배, 대역폭 3배

  4. 전력·냉각·배전

    • NVL72: 130kW대 랙(GB200 기준), 수랭 필수

    • NVL576: 600kW 랙, 800V HVDC + 침지/2상 냉각까지 요구되는 초고밀도 랙

  5. 데이터센터 경제성

    • 중·소형 사업자: 현실적 상한은 NVL72

    • 하이퍼스케일러: NVL576을 전제로 전력·냉각 인프라를 재설계하면서 장기적인 토큰당 비용 최소화를 추구

  6. HBM 공급사 관점

    • 2H26: Vera Rubin NVL72로 HBM4 생태계 검증

    • 2H27: Rubin Ultra NVL576에서 HBM4E 대규모 도입 본격화
      NVL576 랙 설계·수주를 누가 선점하느냐가 HBM4E 시장 판도를 좌우할 가능성이 크다.


이 구조를 염두에 두고 보면,
**“차세대 HBM 시장의 격전지는 어디인가?”**라는 질문에 대한 답은 자연스럽게 하나로 수렴한다.

Rubin Ultra NVL576 (Kyber Rack)
여기서의 성패가, HBM4E 시대의 승자와 패자를 가르는 분수령이 될 가능성이 크다.


=끝 

2026년 2월 5일 목요일

생각정리 176 (* Agent AI, VRAM)

Claude가 증명한 것, 그리고 2030년까지 VRAM 수요가 폭증할 수밖에 없는 이유


0. 왜 다시 “메모리”인가


CHATGPT와 Gemini만 쓰다가, Claude 4.5 Sonnet을 하루 종일 써본 소감은 단순했다.
긴 이전 컨텍스트에 대한 이해를 유지함(*맥락의 이해)과 동시에, 추론의 깊이·정교함이 한 단계 위에 있다는 느낌이었다.
개발자들이 말하는 “클로드가 프로젝트 전체를 이해한다”, “개인 최적화가 잘 되어 있다”는 이야기도 결국

  • 긴 컨텍스트에 대한 이해(*맥락의 이해)를 안정적으로 유지하고

  • 그 위에서 여러 번 생각하고, 고쳐 쓰고, 검증하는 추론 구조


에서 나온 결과라고 보는 것이 자연스럽다.

여기에 더해, Claude가 법률 SaaS로 진출하며 보여주는 모습은 분명한 시그널이다.

  • 이런 강화된 추론 능력이 실제 돈 버는 실무에 투입되기 시작했다는 것,

  • LLM 기반 SaaS의 수익화(monetization)가 “이론”이 아니라 현실이 되었다는 것.

이 사실은 단순히 Anthropic 하나의 문제가 아니라,
AI 하드웨어 전반의 CAPEX(훈련·추론 인프라 투자)를 더 공격적으로 늘려도 된다는 근거가 된다.

지금 금융시장에서 관측되는

  • 원자재,

  • 암호화폐,

  • 주식·채권 시장에서의 자금 유출

을, 단순히 “투기적 광풍”이 아니라

AI 하드웨어·데이터센터 같은 실물투자의 더 높은 ROIC를 향한 자본 재배치로 해석해 볼 수도 있다.
(혹은 AI SaaS·PaaS 초기 투자 PE들의 일시적인 패닉셀에 기인한 일시적 수급 왜곡일 수도 있고.)

돌이켜보면, 2023년 해외 펀드 런칭 당시만 해도
우리 역시 관성에 따라 “AI 시대 승자는 SaaS·PaaS 레이어”라고 생각하곤 했다.
그러나 이후 기술의 진화 방향은

  • LLM 사업자가 기존 SaaS·PaaS를 대체하거나 내재화하기 시작했고,

  • 점차 AI 하드웨어, 특히 메모리, 그중에서도 VRAM으로 귀결되는 구조를 드러내고 있다.

그리고 오늘 아침 발표된 ChatGPT 5.3의 Agent 기능은,
이러한 흐름 위에서 또 한 번의 VRAM 수요 레벨업 이벤트가 될 수 있다는 생각이 들어,
복잡한 생각들을 아래와 같이 정리해 본다.


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


(클로드를 다시 앞서기 시작한 GPT 5.3)


1. Claude가 증명한 것: “LLM 기반 SaaS는 당장 돈이 된다”


1-1. 더 이상 “미래의 이야기”가 아니다


Anthropic은 Claude Code / Claude Cowork를 앞세워 엔터프라이즈 시장을 파고들고 있다.
대표 사례로 자주 언급되는 곳이 **IG Group(파생상품 트레이딩 회사)**이다.

공식 고객 스토리에 따르면 IG Group은 Claude 도입 후:

  • 애널리틱스 팀 기준 주당 약 70시간의 업무 시간을 절감

  • 일부 유즈케이스에서 생산성이 100% 이상 개선

  • 약 3개월 만에 ROI(투자금 회수) 달성
    (출처: https://claude.ai/customers/ig-group)

Anthropic은 별도의 리포트에서 실제 사용자 대화 10만 건을 분석해,
Claude가 노동 생산성을 어떻게 끌어올리는지 경제적 효과를 추정하기도 했다.
(출처: https://www.anthropic.com/research/estimating-productivity-gains)

이 정도면,

“LLM 기반 SaaS(코딩, 애널리틱스, 마케팅, 법률 등)는
더 이상 먼 미래의 Monetization이 아니라 이미 실무에서 돈이 되는 툴”


이라고 말해도 무리가 없다.

1-2. 이게 왜 CAPEX(훈련·추론 인프라 투자)를 정당화하나


구조는 단순하다.

  • Claude, ChatGPT, Kimi 같은 서비스는 토큰 단위로 과금한다.

  • 사용자는 **“사람이 할 일보다 AI가 하게 하는 것이 더 싸고 빠르다”**고 믿는 한,
    더 많은 토큰을 기꺼이 쓴다.

  • 기업 입장에서는 모델이 더 똑똑하고, 더 긴 문맥을 보고, 더 자동으로 일을 잘할수록
    유료 사용량이 자연스럽게 올라간다.

따라서,

더 큰 모델, 더 긴 컨텍스트, 더 많은 에이전트
= 더 높은 VRAM/HBM CAPEX
→ 동시에 더 많은 유료 SaaS 매출


이라는 구조가, 이미 실무 데이터로 입증되기 시작한 셈이다.


2. 메모리가 왜 병목이 되었나: KV 캐시 한 번만 짚고 가자


LLM 내부에서 일어나는 일을 아주 단순하게 줄이면 다음과 같다.

  1. 입력 텍스트를 토큰으로 쪼갠다.

  2. 각 레이어·어텐션 헤드마다 **Key/Value 벡터(K, V)**를 만든다.

  3. 새 토큰을 만들 때마다,
    지금까지 나온 토큰들의 K/V를 참조해 다음 토큰 확률을 계산한다.

이때 쌓이는 것이 바로 **KV 캐시(KV cache)**이다.

  • 컨텍스트가 4K → 128K가 되면
    KV 캐시는 컨텍스트 길이에 비례해 선형 증가한다.

  • 여기에 **배치 크기(동시 사용자 수)**가 곱해지면,
    총 KV 메모리는 컨텍스트 × 동시성에 비례해 커진다.

  • GPU VRAM(HBM)은 한정적이기 때문에,
    긴 컨텍스트 + 대량 동시 처리에서 KV 캐시가 결정적인 병목이 된다.

이 때문에 엔비디아는

핵심은 한 줄이다.

“더 오래 생각하고, 더 많은 문서를 한 번에 보고,
더 많은 사용자를 동시에 받으려면,
VRAM/HBM에 쌓아야 할 KV 캐시가 폭증한다.”


그래서 예전처럼 **FLOPS(연산량)**만이 아니라,
**VRAM/HBM(고속 메모리)**이 AI 인프라의 핵심 자원으로 올라온 것이다.


3. 에이전트 경쟁이 시작되면, 메모리는 어떻게 달라지나


3-1. Kimi K2.5: Agent Swarm과 VRAM 폭증의 구조

중국 Moonshot AI의 Kimi K2.5는 기술 블로그에서
자신들의 핵심 차별점으로 Agent Swarm을 내세웠다.

  • 복잡한 태스크를 처리할 때
    최대 100개의 서브 에이전트를 동적으로 생성하고
    최대 1,500번의 도구 호출을 병렬로 수행한다.

  • 이 덕분에 전통적인 단일 에이전트 구조 대비 최대 4.5배 빠른 처리 시간을 달성했다고 주장한다.
    (출처: https://www.kimi.ai/blog/kimi-k2-5)

직관적으로는 “똑똑한 비서 1명”이 아니라
**“작은 비서실 100명이 동시에 달라붙는 구조”**에 가깝다.

여기서 중요한 질문은 하나이다.

“왜 에이전트 수가 늘어나면 VRAM이 그렇게 많이 필요해지는가?”


3-1-1. 에이전트가 많아지면 추가로 드는 메모리들


에이전트가 1개일 때는 단순하다.

  • 한 모델에 일을 맡기고

  • 입력 → 출력만 주고받으면 된다.


이때 메모리의 대부분은

  • 모델 파라미터

  • 해당 세션의 KV 캐시

가 차지한다.


그러나 에이전트가 10개, 100개로 늘어나는 순간,
“분배하고, 중간 결과를 나누고, 다시 합치는” 시스템 전체가 추가로 필요해진다.
이 과정에서 다음 항목들이 VRAM을 더 갉아먹는다.

  1. 라우팅 정보

    • 어떤 토큰/서브태스크를 어느 에이전트에게 보낼지,
      각 에이전트에 주는 게이트 값(가중치) 등을 저장하는 메모리.

  2. 보내기용 버퍼(dispatch buffer)

    • 토큰을 “에이전트별로 묶어서” 보내기 위해
      데이터를 재배열해 담아두는 임시 공간.

  3. 되돌리기/합치기용 버퍼(combine buffer)

    • 여러 에이전트가 계산한 결과를
      원래 순서대로 재배열하고
      가중합으로 합쳐 하나의 출력으로 만드는 임시 공간.

  4. 패딩 메모리

    • 어떤 에이전트에는 토큰이 많이 가고,
      어떤 에이전트에는 거의 안 갈 수 있다.

    • GPU는 정형화된 크기를 선호하기 때문에
      토큰이 적게 배정된 에이전트 쪽에 **빈칸(패딩)**을 넣어 크기를 맞추고,
      이 패딩도 VRAM을 차지한다.

  5. 각 에이전트 내부의 activation 텐서

    • 각 에이전트가 계산하는 동안 잠깐씩 생겼다 사라지는 중간 결과 텐서들.

    • 에이전트 수와 배치 크기가 커질수록 이 activation도 함께 커진다.

정리하면,

  • KV 캐시는 원래도 필요하던 “대화 기록용 메모리”이고,

  • 에이전트가 많아지면 여기에
    “분배·통신·재조립”을 위한 추가 메모리 층이 한 겹 더 올라간다.


그래서 Agent Swarm 같은 구조는

“KV 캐시 폭발 + 라우팅/버퍼/패딩/activation 폭발”


이라는 이중 부담을 VRAM에 준다고 이해하면 된다.

이 때문에 엔비디아는

  • HBM 용량을 키우고

  • NVLink/NVSwitch로 수십~수백 개 GPU를 하나의 거대한 메모리 풀처럼 묶는
    GB200 NVL72 같은 랙 단위 시스템을 내놓고 있다.
    (GB200 NVL72 소개: https://www.nvidia.com/en-us/data-center/gb200/)


3-2. OpenAI Frontier: 회사 전체를 에이전트로 깔겠다는 선언

OpenAI의 Frontier는 아예 엔터프라이즈용 에이전트 플랫폼이다.

  • 기업이 여러 에이전트를 정의·온보딩·권한 관리·평가하고

  • 기존 시스템(SaaS, DB, 내부툴)에 붙여
    **“AI 동료(coworker)”**처럼 쓰게 하는 것이 목표이다.

  • Frontier는 에이전트에게
    공유 비즈니스 컨텍스트, 메모리, 평가·피드백 루프, 권한·경계를 제공해
    조직 내 파편화된 AI 도입을 통합하는 허브가 되겠다고 한다.
    (출처: https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)


핵심 문장은 대략 이런 취지이다.

“앞서가는 기업에서는 올해 말이면
대부분의 디지털 업무가
**‘사람 + 다수의 에이전트’**에 의해 수행될 것이다.”


즉 Frontier는 모델 성능 자체보다,
**“에이전트를 얼마나 많이·넓게 깔아서 실제 업무에 투입하느냐”**에 초점을 둔 플랫폼이다.

3-3. Claude Code / Cowork: 이미 돌아가는 에이전트 팀


Anthropic의 Claude Code는 개발자 IDE 안에서
사실상 “코드 담당 에이전트 팀”처럼 동작한다.

  • 더버지에 따르면, Anthropic 내부 개발자는
    5개 이상의 Claude 에이전트를 클라우드에서 상시로 돌리며
    한 달에 300개 이상의 PR을 날리는 수준
    까지 도달했다고 한다.

  • 엔터프라이즈 고객 중에는
    코드 작성의 70~90%를 Claude가 담당하는 사례도 보고되고 있다.
    (출처: https://www.theverge.com/2025/1/10/claude-code-opus-4-6-release)


이 사례들이 공통으로 보여주는 것은 명확하다.

앞으로의 경쟁은 “모델 하나 vs 모델 하나”가 아니라
“에이전트 네트워크 vs 에이전트 네트워크”가 된다.


그리고 이 구조에서 VRAM·KV 캐시 수요는 곱셈 효과를 갖게 된다.


4. VRAM 수요를 위한 개념 모델: L × A × T × V × U


이제부터는 **엄밀한 수식이 아니라, 직관을 위한 “개념 모델”**임을 먼저 밝힌다.

LLM/에이전트 시스템의 VRAM 수요는 대략 다음 요소들에 비례한다고 볼 수 있다.

  • L: Context length

    • 한 에이전트가 한 번에 보는 토큰 길이

    • 예: 8K, 32K, 128K, 1M …

  • A: Number of agents

    • 같은 업무를 위해 동시에 돌아가는 에이전트 수

    • 예: 단일 모델 1개 vs Swarm 10~100개

  • T: Session length

    • 한 세션(티켓·프로젝트·케이스)이 유지되는 턴 수/시간

    • 단발 Q&A냐, 며칠짜리 업무냐

  • V: Verification loops

    • 에이전트가 자기 검증·재시도·평가를 위해
      내부적으로 답을 여러 번 고쳐 쓰는 루프 수

  • U: Concurrent sessions

    • 동시에 돌아가는 세션 수(동시 사용자·동시 업무량)

개념적으로는 이렇게 쓸 수 있다.

VRAM 수요 ∝ L × A × T × V × U


실제 시스템의 메모리 사용량은 이보다 훨씬 복잡하고,
양자화·KV 캐시 공유·오프로딩 같은 최적화가 이 곱을 많이 깎아낸다.

그러나 **“어떤 항이 커질수록 VRAM 수요가 왜 폭증하는지”**를 이해하는 데에는
이 정도 단순화로도 충분하다.


5. 2025→2030, 세 가지 시나리오 (개념적 밴드)


이제 2025년을 기준으로 세 가지 시나리오를 설정해 본다.
(모든 수치는 **“가능한 범위를 가늠하기 위한 가설”**이지, 예측이 아니다.)

5-1. 기준선: 2025년 전통 LLM 서비스

  • L₀ ≈ 8K

  • A₀ = 1

  • T₀ = 1 (짧은 Q&A)

  • V₀ = 1 (재검증 거의 없음)

  • U₀ = 1 (정규화된 동시성)

이때 VRAM 수요를 1로 정한다.

5-2. 시나리오 ① 보수적 (Conservative)

에이전트는 일부 고급 업무에만 쓰이고,
대부분의 서비스는 여전히 “단일 에이전트 + 짧은 컨텍스트” 중심인 경우.

  • L: 8K → 32K (4배)

  • A: 1 → 3

  • T: 1 → 3

  • V: 1 → 2

  • U: 1 → 2


에이전트형 고급 워크로드 1개당 VRAM 계수는
수십~100배까지 늘어날 수 있다.

그러나 전체 워크로드 중 에이전트형 비중이 제한적이라고 보면,
AI 데이터센터용 고속 메모리(주로 HBM+DRAM) 수요는
2025→2030 동안 대략 5~10배 증가

보수적 밴드로 둘 수 있다.

5-3. 시나리오 ② 기준 (Base)


에이전트가 코딩, 리서치, 데이터 분석, 법률/컴플라이언스, 고객지원
고부가 지식 노동에서 **“기본 도구”**가 되는 경우.

  • L: 8K → 128K (16배)

  • A: 1 → 10 (여러 역할의 에이전트 팀)

  • T: 1 → 5 (티켓·프로젝트 단위 세션)

  • V: 1 → 3 (초안→검증→재작성)

  • U: 1 → 3 (에이전트 기반 워크로드 비중 증가)


이 경우, 에이전트형 고급 워크로드 1개당 VRAM 수요는
100~1,000배 수준까지 올라갈 수 있다.

최적화와 비에이전트 업무 비중을 감안하면,
AI 데이터센터용 고속 메모리 전체 수요는
10~20배 성장
정도를
“가능한 중심 시나리오 밴드”로 볼 수 있다.

5-4. 시나리오 ③ 공격적 (Aggressive)


“에이전트가 사실상 OS/업무 인터페이스가 된다”고 가정하는 상단 밴드이다.


이론상 개별 워크로드 VRAM 계수는
수천 배 이상까지도 치솟을 수 있다.

현실에서는 최적화·역할 분리·비에이전트 업무 등을 고려해야 하므로,
전체 AI 메모리 수요로 환산하면
20~30배 이상 정도를 상단 밴드로 열어두는 정도가 적절하다.

참고로, OpenAI의 “Stargate” 데이터센터 프로젝트에 대한 외부 분석에서는
2025년 기준으로만도 글로벌 DRAM 생산의 최대 40%를 OpenAI 한 회사가 쓸 수 있다는 전망이 나온 바 있다.

(출처: https://www.forbes.com/sites/janakirammsv/2024/04/12/openai-stargate-and-the-future-of-ai-infrastructure/)


이런 흐름이 여러 하이퍼스케일러로 확산된다고 가정하면,
20~30배 수준의 상단 밴드는
“과장”이라기보다 공격적이지만 상상 가능한 구간으로 해석할 수 있다.


6. “Frontier급 에이전트를 모두가 미친 듯이 쓰기 시작하면” VRAM 병목은 어떻게 터질까


이제, 질문 하나를 정면으로 들어보자.

“Frontier급 에이전트가 너무 좋아서,
OpenAI 전체 사용자들이 동시에 에이전트를 미친 듯이 쓰기 시작하면
VRAM 병목은 어떻게 될까?”


앞서 정의한 VRAM 개념식에서 보면,
이 상황은 사실상 **U(동시 세션 수)**가 갑자기 폭증하는 경우이다.

  • L, A, T, V는 이미 에이전트 도입으로 커진 상태

  • 여기에 U가 한 번에 튀어 오르면
    전체 VRAM 수요는 순식간에 “곱셈 결과”로 치솟는다.

6-1. 인프라 관점: 순서대로 벌어지는 일

  1. GPU HBM이 먼저 꽉 찬다

    • 각 GPU에는 이미

      • 모델 파라미터

      • 일부 KV 캐시

      • 에이전트 상태
        가 올라가 있다.

    • 동시 세션 U가 폭증하면

      • 배치당 컨텍스트 수

      • 세션별 KV 캐시
        가 합쳐져 HBM 사용률이 100% 부근까지 오른다.

  2. HBM이 꽉 차면, 속도와 실패율이 튀기 시작한다

    • 더 넣을 자리가 없거나,

    • KV 캐시를 DRAM/SSD로 자주 밀어냈다 다시 읽어야 해서
      지연시간(latency)이 급격히 악화된다.

    • 이때부터는

      • 응답 딜레이 증가

      • 간헐적 에러

      • 타임아웃
        이 체감되기 시작한다.

  3. 서비스 레벨에서 품질/기능을 줄이는 방향으로 수축한다


클라우드 사업자가 쓸 수 있는 전형적인 카드:

  • Rate limit / 쿼터

    • 사용자·조직별 QPS, 토큰량, 동시 세션 수를 제한

    • 일부 요청을 “거절”해서 전체 시스템 붕괴를 막는다.

  • Degrade 모드(품질 저하 모드)

    • 긴 컨텍스트 대신 자동 요약 후 짧은 컨텍스트로 재질의

    • 에이전트 병렬 실행 A를 줄이고, 가능하면 순차 실행

    • 검증 루프 V를 줄여 초안→1회 검증 정도로 제한

    • Frontier 에이전트에서 일부 고급 기능(장기 히스토리, 복수 에이전트 협업)을 일시 봉쇄

  • 모델 다운그레이드

    • 동일한 요청이라도

      • 상위 요금제/엔터프라이즈: 큰 모델 유지

      • 무료/저가 요금제: 작은 모델로 fallback

    • GPU당 더 많은 세션을 태우기 위해 품질을 다운시킨다.

  • KV 캐시 오프로딩 강화

    • VRAM이 가득 차면
      KV를 DRAM/SSD/원격 스토리지로 더 많이 밀어내고,
      필요할 때마다 다시 올려쓴다.

    • VRAM 병목은 완화되지만, 지연시간은 더 늘어난다.

정리하면, Frontier급 에이전트 사용량이 갑자기 폭발할 경우:

단기적으로는 VRAM 병목 → 속도 저하·에러·기능 제한이 나타나고,
중기적으로는 “HBM/VRAM이 절대적으로 부족하다”는 실측 데이터가 쌓이면서
다음 세대 CAPEX(메모리 증설)의 트리거로 작용하게 된다.


6-2. 에이전트 구조라서 더 심각한 이유

전통적인 챗봇이라면 U만 문제인데,
에이전트 구조에서는 이미 A, T, V까지 커져 있는 상태라 병목이 더 심각해진다.

  • 하나의 “요청”이 사실상

    • 플래너 에이전트

    • 다수의 서브 에이전트

    • 도구 호출

    • 재귀적 재질문·검증 루프
      로 쪼개져 있다.

  • 사용량이 폭증하면

    • U(요청 수)만 늘어나는 것이 아니라

    • 각 요청마다 내부에서 발생하는 에이전트 콜 수까지
      기하급수적으로 늘어난다.

그래서 백엔드 오케스트레이션 레이어는 피크 상황에서 보통 이렇게 조정할 수밖에 없다.

  • A(병렬 에이전트 수) 상한: 태스크당 에이전트 최대 N개, 그 이상은 순차

  • T(세션 길이)·재귀 깊이 제한: 너무 긴 에이전트 체인은 중간 요약 후 재시작

  • V(검증 루프) 축소: 평소 2~3회 돌리던 자기평가·재작성을 1회로 줄이거나 생략

즉, 피크에서 시스템이 하는 일은

L, A, T, V를 인위적으로 눌러
U 폭증을 겨우 감당하는 것


이라고 해석할 수 있다.

이 현상이 반복될수록,
**“에이전트 시대의 병목은 연산이 아니라 VRAM/HBM”**이라는 사실이
운영 데이터로 계속 확인되며,
결국 메모리·인터커넥트·데이터센터 CAPEX를 더 키우는 방향으로
경영진의 의사결정을 밀어붙이게 된다.


7. 그래프로 보는 직관: 2025→2030 VRAM 지수 시나리오


앞의 세 가지 시나리오(보수·기준·공격)를
단순한 지수 함수로 이어서 2025→2030 그래프로 그려보면 다음과 같다.

  • 2025년 AI 데이터센터용 VRAM 수요를 1.0으로 정규화하고,

  • 2030년에

    • 보수적: 7.5배,

    • 기준: 15배,

    • 공격적: 25배
      수준이 되도록 지수곡선을 맞춘 것이다.

세 곡선의 공통 특징은:

  • 2025→2027 구간에서는 비교적 완만하다.

  • 2028~2030 구간에서 기울기가 눈에 띄게 가팔라진다.

  • 이것이 바로 **“에이전트 시대에 메모리 수요가 선형이 아닌 지수곡선을 탈 수 있다”**는 구조를 직관적으로 보여준다.

자세히 보면,

  • Conservative:

    • 2027년 ≈ 2.7배, 2029년 ≈ 5배, 2030년 7.5배

  • Base:

    • 2027년 ≈ 3.6배, 2029년 ≈ 8.7배, 2030년 15배

  • Aggressive:

    • 2027년 ≈ 4배, 2028년 ≈ 7배, 2029년 13배+, 2030년 25배

이 그래프의 목적은 정확한 예측이 아니라,

“에이전트 도입 강도에 따라
같은 5년(2025→2030)이라도
메모리 수요 레벨이 1자릿수 배에서 25배 이상까지
크게 벌어질 수 있다.”


구조를 시각적으로 설명하는 데 있다.





8. 정리: Claude가 연 “현재형 수익”, Frontier·Kimi가 여는 “에이전트 시대”, 그리고 메모리


핵심을 다시 모으면 다음과 같다.

  1. Claude는 LLM 기반 SaaS가 이미 “지금 돈이 되는 사업”임을 증명했다.

  2. 이는 더 큰 모델·더 긴 컨텍스트·더 많은 추론 패스에 투자해도
    그만큼 매출로 회수 가능하다는 경제적 근거
    를 제공한다.

  3. 동시에 Kimi K2.5의 Agent Swarm, Anthropic의 Claude Code/팀,
    OpenAI의 Frontier/ChatGPT 5.3 Agents가 보여주듯,
    경쟁의 축은 **“모델”에서 “에이전트 네트워크”**로 이동하고 있다.
    (예: https://www.kimi.ai/blog/kimi-k2-5,
    https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)

  4. 에이전트 구조에서는
    컨텍스트 길이(L), 에이전트 수(A), 세션 길이(T), 검증 루프(V), 동시성(U)
    다섯 항이 모두 커지면서,
    VRAM/KV 캐시 수요는 단순 선형을 넘어 곱셈 구조로 커진다.
    (KV 캐시 및 오프로딩:
    https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/
    https://blocksandfiles.com/2026/01/06/nvidia-standardizes-gpu-cluster-kv-cache-offload-to-nvme-ssds/)

  5. 2025→2030에 대해

물론 실제 결과는

  • 규제 환경,

  • 모델·시스템 최적화 속도,

  • 클라우드 사업자 CAPEX 계획,

  • 경기 사이클

에 따라 크게 달라질 수 있을 것이다.

그럼에도,

“에이전트 경쟁이 본격화되는 한,
메모리는 연산보다 더 중요한 전략 자원이 된다.”


는 방향성 자체는
지금 나온 기술 발표·고객 사례·CAPEX 시그널들과 매우 잘 들어맞는다.

Claude와 같은 LLM 기반 SaaS 사업자

  • “VRAM을 태워 얻은 추론 능력”이
    실무와 수익으로 곧바로 연결되는 현재형 증거
    이고,


OpenAI·Google·엔비디아·메모리 업체들은

  • 이 구조를 전제로
    훈련·추론 인프라 CAPEX를 한 단계 더 올려도 된다
    정당성을 확보해 가는 중이라고 볼 수 있다.


Yahoofinance

#글을 마치며


" 맥락은 사고의 원동력입니다.
마치 사람이 기억하기 위해 메모를 하듯이,
AI 에이전트도 학습한 내용을 재사용할 수 있도록 작업을 저장해야 합니다(=메모리)."


- Kevin Deierling,
  Senior Vice President of Networking, NVIDIA.


만약 이 가설이 맞다면, 에너지 수요는 어떤 방향으로 재편될까?
생각만 더 복잡해진다.

투자 세계도 AI 확산으로 인해,
‘스토리’나 ‘감’에 기대기보다
과학계처럼 가설을 세우고, 데이터를 통해 검증하며,
논리적으로 반증 가능성을 점검하는 능력
이 점점 더 중요해지는 국면에 들어서는 듯하다.

=끝

2026년 2월 4일 수요일

생각정리 175 (* Anthropic Claude AI)

0. 메모리 급락을 맞고 나서야 보이기 시작한 것들


전날 미국장에서 메모리·반도체가 크게 밀린 뒤, 다시 Anthropic Claude를 처음부터 공부하게 됐다.

처음 아래 같은 차트와 기사들을 봤을 때는 솔직히
“그래서 뭐 어쩌라는 건데?” 정도의 느낌이었는데,
이제는 “아, 이게 진짜 시장이 반응할 만큼 중요한 이벤트였구나” 하는 정도의 감이 생겼달까..




어쨌든 **“시장이 실제로 움직였다”**는 사실이 중요하다.
그래서 이번 기회에 관련된 생각과 리서치를 한 번에 정리해 둔다.


1. 1월 말 소프트웨어·메모리 급락의 출발점: Anthropic와 ‘SaaS-pocalypse’


1-1. 촉발 요인: Cowork 플러그인 11개, 그중 “법률 플러그인”


2026년 1월 30일, Claude를 만든 Anthropic은 데스크톱 에이전트 앱인 Claude Cowork에 붙일 수 있는 오픈소스 플러그인 11개를 공개했다.
특히 시장을 자극한 것이 법률 업무 자동화 플러그인(Legal) 이다.

Anthropic 공식 플러그인 설명에 따르면, 이 플러그인은 다음을 자동화한다.

  • 계약서·문서 검토

  • 위험 조항(Harmful Clauses) 표시

  • NDA(비밀유지계약) 분류·검토

  • 컴플라이언스(규정 준수) 워크플로

  • 정형화된 법률 브리핑·답변 템플릿 작성

Anthropic Legal 플러그인 소개 페이지 (Claude)
GitHub 오픈소스 템플릿 (GitHub)

즉, “기업 내 인하우스 변호사 팀이 돈 받고 하는 반복적인 법률 실무”의 상당 부분을 에이전트가 처리하기 시작했다는 신호로 읽힌 것이다.


Cowork 플러그인 런칭을 다룬 기사들에서는, Anthropic이 판매 중인 플러그인 템플릿을 통해
법률, 재무, 세일즈, 마케팅 등 9~11개 직무에서 Claude가 “도메인 전문가처럼” 행동하도록 만들 수 있다고 설명한다. (Blockchain News)

1-2. 하루 만에 2,850억 달러 증발, “SaaS-pocalypse”

이 발표 직후 하루 동안, 글로벌 소프트웨어·데이터·IT 서비스 주식에서 약 2,850억 달러 시가총액이 증발했다는 분석이 나왔다.

이는 The Times of India가 요약한 기사에서 “하루 만에 소프트웨어 주식에서 2,850억 달러가 사라졌다”고 직접 언급된다. (The Times of India)




유럽 시장에서는 가디언 보도처럼, RELX(LexisNexis), Sage, Wolters Kluwer, Pearson, London Stock Exchange Group(LSEG) 등 법률·데이터·출판·거래소 소프트웨어 기업들이 **10% 안팎, 톰슨로이터는 18%**까지 급락했다. (가디언)




미국에서는 WSJ

  • S&P Global

  • FactSet

  • Intercontinental Exchange(ICE)

  • MSCI

  • LSEG


같은 금융·법률 데이터 업체들까지 두 자릿수 하락을 기록했다고 정리한다. (월스트리트저널)

이 일련의 움직임은 여러 매체에서 **“SaaS-pocalypse(소프트웨어 종말론)”**이라는 별칭으로 불렸다. (The Times of India)

투자자가 읽은 메시지는 매우 단순하다.

“이제 AI는 초급 변호사·애널리스트·컨설턴트가 하던 실무
직접 수행하는 단계로 들어섰다.”


그래서 매도는,

  1. 법률·데이터 소프트웨어

  2. → 일반 SaaS

  3. → 나스닥 성장주 전반

  4. 그리고 AI 인프라·반도체(메모리 포함)


까지 연쇄적으로 번졌다. 블룸버그·WSJ·NYPost·가디언 등은 이번 충격을 **“Anthropic의 새 AI 도구가 소프트웨어·금융·자산운용 섹터 전반에 걸친 2,800억 달러 매도 랠리를 촉발했다”**고 요약한다. (뉴욕 포스트)

따라서 어제(한국 기준) 메모리·반도체가 큰 폭으로 밀린 것은,

  • 메모리 업황이 갑자기 나빠져서가 아니라,

  • **“AI가 기존 소프트웨어·전문직 비즈니스 모델을 부숴버릴지 모른다”**는 공포가
    AI 인프라 주까지 확산된 결과에 가깝다고 보는 편이 타당하다.


2. Claude AI는 무엇이고, 왜 VS Code에서 Copilot과 다른가


2-1. Claude: “채팅봇”이 아니라 “업무 에이전트 플랫폼”으로


Claude는 처음에는 ChatGPT와 비슷한 대화형 LLM으로 시작했다.
그런데 2025~2026년 들어 방향이 명확히 “업무 에이전트 플랫폼” 쪽으로 이동하고 있다.

특히 개발 영역에서는 두 가지 축이 중요하다.

  1. Claude Code: VS Code용 확장(Extension)

  2. Cowork: 데스크톱 에이전트(지정한 폴더 안에서 파일을 읽고, 수정하고, 작업을 자동화)


Claude Code는 단순히 “코드 자동완성”을 넘어서서, 다음에 가까운 기능을 지향한다.

  • 프로젝트 단위로 전체 파일 구조를 이해하고

  • 구현 계획(Plan)을 세운 뒤

  • 여러 파일을 직접 수정하고

  • 터미널 명령(테스트·빌드)을 실행하고

  • 실패하면 로그를 읽고 다시 수정하는 반복 루프를 수행

Anthropic의 개발자 문서와 블로그는 Claude Code를 “코드베이스 전체를 탐색하고, 파일을 읽고·쓰기·실행까지 하는 자율형 개발 에이전트”로 포지셔닝한다. (Anthropic)

반면, GitHub Copilot은 출발점이 다르다.

  • 내가 지금 치고 있는 한 줄·한 함수의 자동완성

  • IDE 안에서의 “스마트한 코드 추천”에 최적화된 보조 도구

따라서 VS Code 안에서의 체감은 대략 이렇게 정리할 수 있다.

  • Copilot = 키보드 옆에 앉아 있는 똑똑한 비서

  • Claude Code = “이 기능 구현해 놔”라고 통째로 일을 맡길 수 있는 대리인(에이전트)

실제 기사들에서도 Claude Code를
“에이전트형 코딩 도구(agentic coding tool)”로 부르고,
Anthropic 내부 코드의 상당 부분이 이미 Claude로 작성되고 있다고 전한다. (Financial Times)

2-2. MS가 “당장 똑같이 못 따라붙는” 이유 (그러나 장기적으로는 따라갈 여지는 있음)


여기서 중요한 포인트는 **“MS가 기술이 없어서 뒤처진다”**는 식의 단순한 구도가 아니라는 점이다.

  1. 철학·거버넌스의 차이

  • MS는 거대 엔터프라이즈 고객(은행, 정부, 대기업)을 상대로 한다.
    이런 고객 입장에서 “AI가 코드 전체를 마음대로 수정한다”는 것은
    보안·감사·책임(Responsibility) 측면에서 매우 민감한 이슈다.

  • 그래서 Copilot은 지금까지 **“보조 도구 → 점진적 자율성 확대”**라는
    매우 점진적 전략을 택해 온 것으로 보인다.

  • 반대로 Anthropic은 **“실제 업무를 대행하는 에이전트”**까지
    비교적 빠른 속도로 실험하고 있다. Cowork 플러그인 구조 자체가
    “역할(role)·도구·절차를 한 번에 번들로 묶어, Claude가 ‘직군별 동료’처럼 행동하게 만드는 것”이다. (Creati.ai)

  1. 생태계 구조

  • VS Code는 MS가 만든 IDE지만, 확장은 누구나 올릴 수 있는 개방형 마켓이다.
    따라서 “VS Code = 곧 Copilot 독점”이 아니며,
    Claude Code 같은 경쟁자가 빠르게 뚫고 들어올 수 있다. (Visual Studio Marketplace)

  1. 엔터프라이즈 통제 vs 개발자 경험

  • MS 강점: 계정·보안·권한·온프레미스·컴플라이언스 같은 거버넌스·통합 능력

  • Anthropic 강점: **“개발자 경험(DX)”과 “에이전트 자율성”**을
    전면에 내세워 빠르게 점유율을 올리고 있다는 점

다만, MS는 여전히

  • GitHub 코드 허브

  • Azure 클라우드

  • 대규모 엔터프라이즈 계약·보안 체계

를 모두 쥐고 있다.
따라서 중장기적으로는 **“통제가 가능한 에이전트형 Copilot”**이라는 방향으로
충분히 반격이 가능한 구조이다.
지금은 VS Code 내에서 Claude가 에이전트 경험을 선도하고 있지만,
**“구조적으로 MS가 영원히 따라잡지 못한다”**고 말할 단계는 아직 아니다.


3. 법률 플러그인이 던진 메시지: “기능을 파는 SaaS”가 AI 플러그인으로 깎일 수 있다


이번 쇼크는 법률 업계만의 이야기가 아니다.


Anthropic의 Legal 플러그인은 요약하면:

  • 계약 검토

  • 위험 조항 하이라이트

  • 사내 규정·정책에 맞춘 자동 체크

  • 반복적인 질의응답·브리핑 자동화


를 하는 법률 실무 에이전트이다. (Claude)

중요한 점은,

  • 플러그인 템플릿이 오픈소스로 깔려 있고, (GitHub)

  • 비(非)개발자도 Cowork 앱 안에서 어느 정도 수정·설정이 가능하도록 설계됐다는 점이다. (Creati.ai)

투자자 입장에서는 이렇게 보인다.

“과거에는 특정 법률·컴플라이언스 업무를 효율화하는 SaaS를
비싼 구독료 받고 팔 수 있었다.
그런데 이제는 클라우드 LLM + 오픈소스 플러그인 조합으로
이 기능의 상당 부분을 대체할 수 있지 않나?”

 

실제로

  • 유럽의 RELX, Wolters Kluwer, Pearson, Sage, LSEG 등 출판·데이터·법률 기반 SaaS 기업이 10% 안팎으로 급락했고, (가디언)

  • 미국에서는 S&P Global, FactSet, ICE, MSCI 같은
    금융·법률 데이터 대기업들까지 주가가 크게 빠졌다. (월스트리트저널)

결국 이번 이벤트는,

“특정 기능(function)을 파는 SaaS”가
“범용 LLM + 도메인 특화 플러그인”으로 재조합될 수 있다

 

는 시나리오를 처음으로 시장이 체감한 사례라고 볼 수 있다.
그래서 소프트웨어 섹터 전체 밸류에이션에 구조적인 질문이 던져졌다.


4. 에이전트 강화 → AI 추론 가속 → VRAM·인프라 투자 확대


그리고 다보스에서 젠슨 황이 말한 “5계층 AI 케이크” + 제번스 역설


이제 핵심 질문으로 들어간다.

“VS Code에서 Claude 같은 에이전트가 강해질수록,
왜 AI 추론 시장이 가속되고,
GPU 메모리(VRAM)·HBM·서버 DRAM 수요에
구조적인 상방 압력이 생기는가?”


4-1. 에이전트형 코딩이 만드는 추론 패턴


에이전트형 코딩(Claude Code, Cowork)은 전통적인 “한 번 묻고 한 번 답하는 챗봇”이 아니다.
흐름은 보통 다음과 같다.

  1. 긴 컨텍스트 읽기

    • 프로젝트 전체 파일 구조, 스펙 문서, 로그, 이슈, 기존 코드 등

  2. 계획 수립

    • 어떤 파일을 어떤 순서로 바꿀지, 어떤 테스트를 돌릴지 계획

  3. 다중 파일 수정

    • 여러 파일을 동시에 열어 수정, 리팩토링, 테스트 코드 생성

  4. 테스트·빌드 실행 → 실패 원인 분석

  5. 다시 수정·재테스트 (반복 루프)

이 과정에서 모델은

  • **모델 파라미터(본체)**와

  • 지금까지의 대화·컨텍스트를 담는 KV 캐시(Key-Value Cache)

를 GPU 메모리(VRAM)에 올려 놓고 계속 계산한다.

NVIDIA와 여러 기술 리포트는, 긴 컨텍스트·대규모 배치·여러 에이전트가 동시에 돌아가는 환경에서
KV 캐시가 LLM 추론 비용과 메모리 사용량의 핵심 병목이라고 지적한다.

요약하면,

  • 에이전트형 코딩·법률 작업은
    “짧은 자동완성”보다 훨씬 더 긴 문맥 + 반복 추론 + 다중 도구 호출을 요구한다.

  • 이는 곧 **추론 시점에 필요한 GPU 메모리(VRAM, 특히 HBM + 서버 DRAM)**를
    지속적으로 끌어올리는 방향으로 작용한다.

4-2. 젠슨 황의 다보스 발언: “5계층 AI 케이크”와 인프라 선순환


2026년 다보스 포럼에서 NVIDIA CEO 젠슨 황은 AI를

  1. 에너지·전력 인프라

  2. 칩·메모리·컴퓨팅

  3. 데이터센터·클라우드

  4. 모델

  5. 애플리케이션


으로 이루어진 **“5계층 AI 케이크(five-layer cake)”**로 설명했다.

https://www.instagram.com/reel/DR229DXkhZe/


그는 AI를 **“인류 역사상 가장 큰 인프라 구축(the largest infrastructure buildout in human history)”**라고 부르면서,

핵심을 이렇게 정리한다.

  • AI는 단일 소프트웨어가 아니라 에너지 → 하드웨어 → 데이터센터 → 모델 → 애플리케이션에 이르는 풀 스택 인프라이다.

  • **가장 윗층(애플리케이션)**에서 추론이 활발해질수록,
    그 아래의 모델 운영,
    더 아래의 데이터센터·클라우드,
    다시 그 밑의 GPU·HBM·DRAM,
    최하단의 전력·냉각·송전망
    전부에 **추가적인 Capex(설비투자)**가 필요해진다.

다시 말해,

“위에서 추론이 늘수록 아래층 H/W·에너지 투자가 더 커지고,
그 인프라가 다시 위의 S/W 생태계를 키우는 선순환”

 

이라는 구조이다.

여기까지는 “위에서 많이 쓰면, 아래를 더 깔아야 한다”는 직관적인 이야기다.
하지만 이 선순환에는 하나가 더 붙는다. 바로 **“더 싸지면 더 많이 쓴다”**는 효과, 즉 제번스 역설이다.


https://blog.naver.com/lskjhc/223835246228


4-2-1. 토큰당 가격 하락과 제번스 역설: 더 싸질수록 더 많이 쓰게 된다


현재 대부분의 LLM API·AI SaaS는 “토큰당(per-token) 과금” 구조를 쓴다.
텍스트는 일정 길이의 토큰 단위로 쪼개지고,
1,000토큰당 얼마 식으로 사용량을 측정해 요금을 받는다.
(OpenAI, Anthropic, Google 등 주요 업체 모두 같은 구조를 사용한다.)

여기서 중요한 것은 **“토큰당 가격이 얼마나 빨리 떨어지고 있는가”**이다.

  • OpenAI CEO 샘 알트먼은 2025년 초 블로그에서
    “동일 수준의 AI를 쓰는 비용이 1년에 10배 정도씩 떨어지고 있고,
    GPT-4(2023 초)에서 GPT-4o(2024 중)까지 토큰당 가격이 약 150배 하락했다”고 밝혔다.
    그리고 “가격이 떨어지면 사용량은 훨씬 더 크게 늘어난다”고 직접 썼다.
    관련 보도 – Business Insider

  • 여러 분석 사이트는 2024~2025년 사이
    주요 LLM들의 토큰 단가가 계속 인하되고 있고,
    더 저렴한 모델(Flash, Haiku, Mini 등)이 쏟아져 나오면서
    **“AI 토큰이 거의 미터기 찍기 힘들 정도로 싸질 수 있다(too cheap to meter)”**는
    논의까지 하고 있다.

경제학에서 **제번스 역설(Jevons paradox)**은,
**“어떤 자원을 더 효율적으로 쓰게 되면, 단위 비용이 떨어져서 오히려 전체 소비가 더 늘어나는 현상”**을 말한다.

  • 석탄을 더 효율적으로 쓰는 증기기관이 나오면,
    석탄 단위당 비용이 내려가면서 석탄 총소비량은 되레 증가한다.

  • 연비 좋은 차가 나오면, km당 연료비가 떨어져서 사람들이 더 많이 이동하고,
    전체 연료 소비는 더 늘어날 수 있다.

이 논리를 AI 토큰에 그대로 대입하면 구조가 명확해진다.

  1. 토큰당 가격이 1/10, 1/100로 떨어진다.

  2. 기업·개발자는

    • “조금만 시험적으로 써보자”에서

    • “아예 서비스 전체를 AI 중심으로 재설계하자”로 태도를 바꾸게 된다.

  3. 한 번에 쓰는 토큰 수가 늘고,
    기능별·서비스별로 AI 호출이 붙으면서
    전체 토큰 사용량은 폭발적으로 증가한다.

즉, **“토큰 1개당 VRAM·전기·GPU 소모는 더 줄어들었을지 몰라도,
토큰 개수가 훨씬 더 많이 쓰이면서, 총 VRAM·총 전력 사용량은 오히려 증가”**하는 구조가 된다.
이게 바로 제번스 역설에 부합하는 AI 버전이다.

젠슨 황의 5계층 케이크와 합치면 그림이 이렇게 바뀐다.

  • 윗층(애플리케이션)에서 가격 인하 + 품질 개선이 동시에 일어나고,

  • 제번스 역설 때문에 사용량(토큰·쿼리 수)이 더 빠르게 늘어나며,

  • 그 결과 아래층(모델·데이터센터·GPU·메모리·전력)에 대한
    총 수요는 시간이 갈수록 더 커진다.

즉, Claude AI와 같은 에이전트형 애플리케이션이  늘어날수록 인프라 수요는,
AI 사용을 폭발시키면서 오히려 VRAM·HBM·서버 DRAM 수요를 장기적으로 키우는 쪽에 더 가깝다.


정리하면,

  • 에이전트형 애플리케이션이 늘수록
    GPU당 메모리 탑재량(HBM·서버 DRAM)은 더 필요해지고,

  • 이미 타이트한 공급·가격 환경에서
    토큰 단가 하락(효율 개선) + 제번스식 사용량 폭증이 겹치면,
    메모리 가격·투자에는 구조적인 상방 압력이 생길 가능성이 크다.


5. Blue Owl 같은 대체투자까지 왜 같이 얻어맞았는가


5-1. “소프트웨어 비즈니스 모델 → 프라이빗 크레딧 포트폴리오”의 연쇄


이번 소동은 소프트웨어·데이터 회사에 돈을 빌려주거나 투자한
프라이빗 크레딧(Private Credit)·대체투자 운용사까지 번졌다.

WSJ 마켓 라이브에 따르면,

  • Ares Management

  • Blue Owl Capital


같은 프라이빗 크레딧 운용사 주가가
“AI가 소프트웨어 기업 가치와 상환능력을 훼손할 수 있다”는 우려
동시에 큰 폭으로 하락했다.

논리는 단순하다.

  1. 소프트웨어·데이터 기업 가치 하락

  2. → 이들 기업에 대한 대출·지분 투자 포트폴리오 가치 하락

  3. → 프라이빗 크레딧·사모펀드 운용사(Blue Owl 등)에 대한
    “대출 회수·재융자 리스크” 우려 확대

여기에 이미 진행 중이던

  • AI 데이터센터 프로젝트의
    자금 조달 구조·수익성에 대한 의문,

  • 일부 대체투자 딜에서
    투자자 보호 조건을 강화하려는 움직임

이 겹치면서,

**“AI 수익화·Capex 지속성에 대한 의심

  • 과열된 AI 테마 포지션 언와인드

  • 시장 전반 리스크오프”**

 

가 한꺼번에 터진 장면으로 볼 수 있다.

5-2. 이 과정에서 메모리까지 같이 매도됐다면, 왜 “기회” 논리도 성립하는가


메모리 섹터에 대해서는 다음과 같이 나눌 수 있다.

  1. 단기 심리

  • “AI 소프트웨어 비즈니스 모델이 흔들리면,
    AI 인프라 투자도 생각만큼 오래 지속되지 않을 수 있다”는 불안

  • → AI 테마 전반에 대한 리스크오프

  • → 메모리·HBM까지 포괄적으로 매도

  1. 펀더멘털

하지만 펀더멘털을 보면,

  • AI 데이터센터 수요로 인한 DRAM·HBM 공급 부족

  • 2025~26년 서버 DRAM·HBM 가격의 급등

  • 2025년 메모리 시장이 2,000억 달러 수준에 접근하고,
    HBM 비중이 빠르게 커지고 있다는 Yole Group의 분석

  • 주요 업체·애널리스트가 **“2027년 이후까지 공급 타이트가 지속될 것”**이라고 보는 점

을 감안할 때,
이번 충격의 1차 원인은 메모리 수요 붕괴가 아니라
소프트웨어·법률·데이터 SaaS 비즈니스 모델 불확실성
이었다고 보는 것이 더 합리적이다.

따라서 논리적으로는 이런 해석도 가능하다.

  1. 주가 하락의 직접 원인
    소프트웨어·전문직 비즈니스 모델에 대한 공포

  2. 메모리 펀더멘털은 여전히

    • AI 인프라 수요

    • HBM·서버 DRAM 공급 타이트

    • 소수 업체 과점 구조
      에 기반한 구조적 타이트 스토리에 가깝다.

  3. 그렇다면
    **“심리적 리스크오프와 테마 언와인드 때문에 같이 얻어맞은 메모리/HBM 업체들”**은
    중장기 관점에서 기술적·심리적 조정 = 매수 기회로 해석할 여지가 있다.


즉, “이번 급락이 메모리 수요 붕괴 때문이 아니라
Claude 에이전트가 촉발한 소프트웨어 공포와 AI 가격 구조 변화에서 출발했다”**는 점은 분명히 짚을 필요가 있다.


6. 한 문단 요약

  • Anthropic이 Claude Cowork용 법률 플러그인을 포함한 플러그인 세트를 공개하자,
    “AI가 초급 변호사·애널리스트·컨설턴트가 하던 화이트칼라 실무를 직접 대체할 수 있다”는 공포가 커졌고,
    그 결과 글로벌 소프트웨어·데이터·법률 SaaS 기업에서 약 2,850~3,000억 달러 시총 증발이 발생했다.

  • 개발 쪽에서는 Claude Code가 VS Code에서
    “한 줄 자동완성”이 아니라 목표를 주면 프로젝트 단위로 수정·테스트를 반복하는 에이전트형 코딩 도구로 진화하며,
    GitHub Copilot과 다른 영역을 파고들고 있다. MS도 따라갈 여지는 있지만,
    엔터프라이즈 보안·책임 이슈 때문에 Anthropic만큼 빠르게 자율성을 열지는 못하고 있다.

  • 법률 플러그인은 “특정 기능을 파는 SaaS”가
    “클라우드 LLM + 플러그인”으로 재구성될 수 있다는 가능성을 보여주며,
    기존 SaaS의 가격결정력과 장기 성장성에 대한 의문을 키웠다.

  • 이런 에이전트형 애플리케이션은 긴 컨텍스트를 들고 반복·병렬 추론을 수행하기 때문에,
    추론 시 GPU 메모리(KV 캐시 등) 사용량과 서버당 메모리 탑재량을 끌어올린다.
    여기에 더해, AI API·SaaS가 토큰당 과금 구조를 쓰는 상황에서,
    토큰당 가격이 빠르게 떨어지면(샘 알트먼의 표현대로 “1년에 10배씩 비용이 감소”)
    사용량이 더 빠르게 폭증하는 제번스 역설이 작동
    한다.
    결과적으로 토큰 단가 하락 + 에이전트 확산 → 전체 추론량·VRAM 사용량 증폭이라는 구조가 만들어진다.

  • 젠슨 황은 다보스에서 AI를 에너지→칩·메모리→데이터센터·클라우드→모델→애플리케이션의 5계층 인프라로 설명하며, 상단의 추론·애플리케이션이 활성화될수록
    하단의 GPU·VRAM·에너지 인프라 투자가 더 많이 필요하고,
    이 인프라가 두꺼워질수록 다시 소프트웨어·서비스 생태계가 더 커지는 선순환이라고 정리했다.

  • Blue Owl 같은 대체투자·프라이빗 크레딧까지 매도된 것은,
    소프트웨어·데이터 기업 가치 하락 → 이들 기업에 대한 대출·지분투자 회수 리스크 확대라는 연쇄 때문이며,
    이 과정에서 메모리까지 함께 팔렸다면,
    AI 인프라 수요·HBM 공급 타이트·메모리 가격 상승이라는 펀더멘털을 감안할 때
    일정 부분은 **“공포에 의한 과도한 할인”**으로 평가할 수 있다.

#글을 마치며 

며칠전 군 생활 때 알게 된 동생을 오랜만에 만나 저녁을 먹으며 이야기를 나누다가, 초급 회계사가 담당하던 전표 정리·엑셀 입력 업무가 이미 한 번에 AI로 대체되었고, 이제는 감사보고서 초안 작성까지 AI가 해내는 수준으로 발전했다는 다소 섬뜩한 이야기를 들은 기억이 있으며,


그 동생 말로는, 자신들이 벌어다 주는 회계법인의 수익 상당 부분이 당장의 성과급으로 돌아오지 않고, 오히려 이런 자동화 업무용 AI 툴을 개발·도입하는 데 필요한 자금으로 재투자되고 있다고 했다.

좀 더 직관적인 비유는 30~40만원짜리 월 구독료  LLM기반 S/W가 초임 월급 400만원 선의 신입 전문직들을 대체하기 시작한것이다.

이번에 글을 정리하면서 다시 느낀 바는, 언젠가 지금의 우리(=나 자신)가 하고 있는 사무직 업무가 순차적으로 AI에게 대체될 가능성을 인정한다면, 그 위험을 헤지하기 위한 수단으로서 H/W 칩, 특히 AI 인프라에 연관된 반도체 자산에 대한 투자는 이런 조정 매수기회가 왔을때마다 지속해야 하지 않을까 싶었다.


=끝