2026년 2월 9일 월요일

이모저모

오늘같이 연기금 리밸런싱 수급으로 주가가 크게 흔들리는 날이면, 이상하게도 손이 잘 움직이지 않는다.

해야 할 일이 없어서라기보다, 이런 날엔 내가 할 수 있는 일이 애초에 많지 않다는 걸 너무 잘 알기 때문이다.

그래서인지 시장을 보고 있는 시간보다, 멍하니 과거를 떠올리는 시간이 더 길어진다. 오늘은 날도 우중충하고 갑자기 추워졌다. 업계에 처음 들어왔던 시절의 공기와 감정이 겹쳐 올라와, 그냥 기록처럼 남겨본다.

처음 이 일을 시작했을 때 나는 ‘장기투자’와 ‘가치투자’라는 말에 깊게 취해 있었다. 정말 좋은 종목 하나만 찾으면 된다고 믿었다.

한 번만 제대로 찾으면, 나도 복리의 마법으로 금방 부자가 될 것 같았다. 지금 와서 보면 너무 단순했고, 너무 순진했다.

그때의 나는 투자가 마치 정답이 있는 시험처럼 느껴졌던 것 같다. 답만 찾으면 끝나는 수학문제처럼.

그래서 나는 그해 대학 여름방학을 통째로 투자에 바쳤다. 집에 혼자 틀어박혀 상장기업 재무제표를 하나씩 뜯어봤다. 재무비율을 손으로 계산하고, 숫자 뒤에 있는 사업을 이해하려고 기업과 산업을 파고들었다.

그때는 그 시간이 쌓이면 언젠가 ‘딱 하나의 확신’이 생길 거라고 믿었다. 그런데 정신 차려보니 시간이 흘러 있었고, 어느새 나는 30대 중반이 되어 있다. 그때의 나는 마치 사막 한가운데서 길을 잃은 낙오자가 신기루에 홀려 낙원을 찾듯 무언가에 홀려있었지 않았었나 싶다.

초기에는 길고양이 마냥 여기저기 기웃거렸다. 스터디도 기웃거리고, 부띠끄도 기웃거리고, 증권사와 운용사도 기웃거렸다. 어딘가에는 답이 있을 것 같았다. 누군가는 더 높은 곳에서 정답을 내려다보고 있을 것 같았다.

하지만 시간이 지날수록 선명해진 건, 투자에 정답이란 존재하지 않는다는 사실이었다. 결국 사람들은 각자 다른 투자철학이라는 이름으로, 자기만의 방식으로 버티고 있다는 것. 어떤 철학은 멋있어 보였고, 어떤 철학은 위험해 보였지만, 돌아보면 그 어떤것도 애초에 이상적인 투자정답이란 없었던것이 아닐까 싶다. 

나 역시 고집이 있는 편이었다. 처음엔 그 고집이 내 무기라고 믿었다. 남들이 흔들릴 때 나는 끝까지 버텨 내가 맞았다는걸 증명해내고 싶은 사람이 되고 싶었다. 

그런데 시간이 지나면서 깨달았다. 고집은 무기가 아니라 편향이 될 수 있다는 걸. 투자 종목의 풀을 넓히고, 산업을 넓히고, 그 너머의 정치·경제·사회·지정학까지 사고의 폭을 넓히다 보니, 내가 붙들고 있던 확신들이 하나둘씩 흔들렸다. 

더 많이 볼수록, 한 가지 관점으로 끝까지 우기는 일이 얼마나 위험한지 보이기 시작했다. 결국 내 고집은 ‘사라졌다’기보다, 현실에 의해 깎여나갔다라는 표현이 좀 더 정확한 것 같다.

그런데 고집이 줄어드니, 또 다른 문제가 생겼다. 요즘의 나는 ‘반짝이병’에 걸린 사람 같다. 어제 좋아 보이던 종목도, 오늘 더 좋아 보이는 종목이 나타나면 별 미련 없이 갈아탄다. 

예전의 나는 한 번 고른 종목을 끝까지 밀고 가며 내 선택을 증명하려 했는데, 지금의 나는 그 증명 욕구가 약해진 대신, ‘더 좋아 보이는 것’에 쉽게 끌린다. 이게 유연함인지, 아니면 집중력의 붕괴인지 스스로도 헷갈릴 때가 있다.

와이프는 내 이런 성향을 생활에서 먼저 이해한 것 같다. 우리는 외식을 하러 나갈 때 메뉴를 미리 정하고 나가지 않는다. 정해봤자 의미가 없다.

길 가다가 더 맛있어 보이거나, 사람들이 꽉 차 있는 곳을 보면 나는 홀린 듯 그쪽으로 들어가 버린다. 투자도 비슷하다. 더 좋은 투자처가 나타나면, 나는 그 순간 마음을 바꿔버린다.

이 성향이 나를 살린 순간도 있었겠지만, 분명 나를 불필요한 매매로 몰고 간 순간도 많았을 것이다.

그러던 내가 크게 달라진 지점은 매크로 공부였다. 솔직히 말하면, 매크로를 공부하는 이유는 더 공격적으로 매매를 하기 위해서가 아니라, 매매를 덜 하기 위해서다.

투자를 하면서 진짜 적은 시장이 아니라, ‘무지에서 오는 공포’라는 걸 깨달았기 때문이다. 아무것도 모르는 상태에서 시장이 흔들리면, 그 흔들림은 곧 내 감정의 흔들림으로 번진다.

마치 어두컴컴한 동굴 속에서 오감에만 의지한 채 앞으로 나아가는 느낌이다. 보이지 않으니 상상만 커지고, 상상은 대부분 공포로 바뀐다.

그래서 나는 먼저 이해하려고 했다. 글로벌 자산시장에 무슨 일이 벌어졌고, 그 일이 한국시장과 내 포트폴리오에 어떤 영향을 주는지, 혹은 줄 예정인지. 그 연결고리를 이해해두면 최소한 중심은 잡힌다.

중심이 잡히면 전략을 다시 세울 수 있다. 그러려면 어떤 이슈라도 시간과 노력을 들여 하나하나 공부해야 한다. 매크로·정치·경제·사회 같은 분야는 특히 그렇다. 아는 만큼 보이고, 그 ‘보이는 범위’가 넓어질수록 같은 사건을 받아들이는 방식이 달라진다.

최근 케빈 워시의 B/S 축소 충격을 이해하려고 21세기 통화정책 책을 다시 펼쳐 읽었던 일이 떠오른다. 첫 회독 때와는 달리 글이 한 번에 읽혔고, 이해의 폭도 훨씬 넓어져 있었다. 그때 느꼈다. 지식이 쌓이면, 사건의 크기가 줄어드는 게 아니라 사건을 해석하는 내 시야가 넓어진다는 걸. 같은 흔들림도 덜 두렵게 받아들이게 된다는 걸.

돌이켜보면, 내가 처음 품었던 “최고의 기업 하나, 최고의 산업 하나” 같은 꿈은 너무 낭만적이었다. 최고의 것을 찾으려면 비교분석이 선행되어야 하고, 비교를 하려면 산업 전체를 알아야 하고, 산업을 알려면 그 산업을 흔드는 외부변수들을 이해해야 한다. 

결국 ‘하나’를 찾는 일이 아니라 ‘전체를 보는 과정’을 견디는 일이었다. 그런데 나는 그 과정을 모르고 너무 순진하게 이 업에 들어왔다. 그래서 초반에는 열심히만 하면 답이 나온다고 믿었고, 그 믿음 때문에 오히려 더 오래 헤맸지 않나 싶다.

모든것을 알고자 할수록, 그 어떤 지식에도 매여선 안된다는 교훈이 동시에 떠오른다.

지난 한 해를 돌아보면, 또 다른 반성이 남는다. 운용수익률 자체는 좋았다. 하지만 “돈을 직접적으로 어떻게 더 벌 것인가”라는 실무적 질문 앞에서는 생각과 확신이 행동으로 이어지지 못했다. 

머리로는 알고 있었다. 수익률만 좋다고 돈이 벌리는 게 아니라는 걸. 결국 돈은 행동에서 나온다는 걸. 그런데 나는 그걸 아는 수준에서 멈춰버렸다. 

체력의 문제였을 수도 있고, 나라는 투자자의 한계였을 수도 있다. 분명한 건, 나는 ‘조급할 필요 없다’는 말 뒤에 숨어 실질적인 실행을 미뤄온 부분이 있다는 사실이다.

그리고 마지막으로, 요즘 들어 가장 자주 떠오르는 후회가 있다. 개인적인 아카이브 정도로 생각했던 블로그에, 남에 대한 비평 아닌 비평을 너무 생각 없이 써버렸던 일이다. 

그때는 그저 내 생각을 정리한 기록이라고 여겼다. 하지만 시간이 지나고 다른 투자자들의 블로그를 돌아다니다 보면 가끔 뜨끔할 때가 있다. 내가 남긴 말들이 누군가에게는 가볍지 않았을 수도 있겠다는 생각이 든다. 특히 투자라는 업을 진지하게 대하고, 자신의 많은 열정과 노력을 쏟아부어온 사람일수록 더 민감할 수밖에 없다. 

나와 다른 투자철학에 대해, 내가 굳이 언급할 필요가 있었을까 싶다. 결국 그건 내 그릇이 작았던 탓에 생각이 타인의 감정까지 미치지 못한것이 아닐까 한다. 

예전에 한 운용사 이사님이 자진퇴사를 앞둔 내 앞에서 조용히 하셨었던 말이 갑자기 떠오른다. 투자는 담금질하듯 시간을 들여 스스로를 알아가는 과정이라는 이야기였다.

글로 생각을 정리해보니, 정말 그때의 그 이사님의 말씀이 꼭 맞는것 같다라는 생각이 든다. 

돌아보면 어느 순간 나는 너무 깊이 매몰되어, 그날그날의 수익률이 내 기분을 좌우하고, 운용 중인 포트폴리오와 나 자신이 한 몸처럼 동일시되는 착각에 빠질 때가 있었다. 숫자가 흔들리면 마음이 흔들리고, 마음이 흔들리면 다시 판단이 좁아지는 식이었다.

그래서 요즘은 그런 순간일수록 일부러 한 발짝 물러서보려고 한다. 그게 결국 예전처럼 고집을 내세우며 시야를 좁히던 나로 되돌아가려는 습관에서 벗어나는, 가장 현실적인 방법일지도 모른다는 생각이 든다.

=끝


2026년 2월 8일 일요일

생각정리 179 (* Agent AI, 낸드의 경제학)

이전에 봐두었던 김정호 교수님의 HBF 관련 내용 중, 내가 주목했었던 포인트는 AI 시대에 NAND의 사용처가 변화하면서 SSD의 가속상각 가능성이 함께 부각될 수 있다는 점이다.

또한 NAND와 DRAM의 본질적 성질 차이에 대한 설명은 김정호 교수님이 비교적 명확하게 정리해주는 편이라고 느꼈다.

입자성..파동성... 슈뢰딩거방정식 뭐시기 ..

https://www.youtube.com/watch?v=uJWZQb9rWUk&t=1738s


https://www.youtube.com/watch?v=uJWZQb9rWUk&t=1738s




1. 문제의식: AGENT AI 시대, 왜 갑자기 낸드 경제학이 중요해졌는가


지금까지 AI 인프라를 이야기할 때 중심은 주로 GPU·HBM·DRAM이었다.
낸드(NAND)는 “싸고 큰 저장공간(SSD)” 정도로 취급되었다.

그런데 최근 한 GPU 업체가 BlueField-4 기반의 Inference Context Memory Storage Platform(ICMSP) 를 공개하면서 상황이 바뀌었다. 이 플랫폼은 KV 캐시 같은 추론 컨텍스트를 NVMe SSD 기반의 별도 메모리 계층에 보관하고, 재사용 가능한 컨텍스트를 미리 GPU 근처로 프리스테이징해 GPU 활용도를 높인다는 아이디어를 전면에 내세운다.(NVIDIA Developer)


여기에 여러 연구·백서들이 KV 캐시/컨텍스트를 스토리지로 오프로딩하는 구조를 제안하고 있고, 특히 agentic AI(멀티스텝 에이전트) 가 확산될수록 이 컨텍스트 데이터가 기하급수적으로 늘어난다고 지적한다.(arXiv)


이 흐름을 종합하면:

  • 낸드는 더 이상 “가끔 쓰고 주로 읽기만 하는 저장소”가 아니라

  • 에이전트 컨텍스트를 계속 읽고 쓰는 외부 메모리 계층으로 올라가고 있고,

  • 따라서 낸드의 쓰기 내구성·상각·공급제약이 AI 인프라 경제학에서 점점 핵심 변수가 되고 있다.

이 글은 바로 이 지점,

“AGENT AI 시대에 컨텍스트가 늘어날수록 왜 낸드가 더 빨리 상각될 수 있는지,
그리고 수급 불균형·초과수요 국면에서 그 위험이 어떻게 증폭되는지”


를 구조적으로 정리해 보려는 시도이다.


2. AGENT AI가 왜 낸드 쓰기를 늘리는가: 컨텍스트 폭증의 메커니즘


2-1. 단순 LLM 질의 vs AGENT 워크로드


단순 LLM 질의
에서는:

  • 사용자 질문 1회 → 모델 한 번 추론 → KV 캐시는 세션 안에서만 쓰이고 사라지는 경우가 많다.

  • SSD는 주로 모델 가중치·데이터셋을 저장하는 쪽에 쓰이고,
    추론 중에는 read 비중이 압도적으로 크다.

반면 AGENT AI 워크로드에서는 상황이 완전히 달라진다.

  • 하나의 요청이

    • 여러 번의 툴 호출,

    • 내부 검증/재시도/교차 검증,

    • 다른 에이전트와의 상태 공유,
      를 포함하는 멀티스텝 체인(chain) 구조가 된다.

  • 에이전트는 단발성이 아니라,
    장기간 유지되는 “작업 세션/작업 공간” 을 다루게 된다.

삼성 반도체의 KV 캐시 오프로딩 백서도,
에이전트형 AI 시스템이 보편화될수록 대화·작업 컨텍스트가 길어지고, KV 캐시·상태 정보를 외부 스토리지 계층으로 오프로딩해야 할 필요성이 커진다고 정리한다.(download.semiconductor.samsung.com)


이 말은 곧,

  1. 생성되는 컨텍스트의 총량이 증가하고,

  2. 여러 스텝·여러 에이전트 간에 공유해야 하는 컨텍스트가 늘어나며,

  3. 이를 GPU HBM만으로 감당하기 어려워 SSD와 같은 외부 계층에 내려놓는 비율이 커진다는 뜻이다.

즉, AGENT AI = 컨텍스트 폭증 → SSD(낸드) 쓰기 트래픽 증가라는 방향성은
여러 기술자료들에서 공통적으로 지적하는 흐름이다.(NVIDIA Developer)

2-2. “저장소”에서 “외부 메모리”로: 워크로드 성격 변화


이때 SSD 위의 워크로드는 크게 두 가지로 나뉜다.

  • 쓰기(write)

    • 길어진 세션, 여러 에이전트가 사용하는 컨텍스트를
      GPU HBM에서 외부 컨텍스트 티어(SSD)로 내릴 때 발생

  • 읽기(read)

    • 같은 컨텍스트를

      • 후속 단계에서 다시 참조하거나,

      • 다른 GPU/노드가 이어받아 추론할 때
        SSD에서 다시 읽어와 HBM으로 Prefetch할 때 발생

즉, 앞으로의 SSD는:

“한 번 써 두고 계속 읽는 저장소”가 아니라,
“새 컨텍스트를 쓰고, 재사용하고, 지우는 read/write 혼합 외부 메모리”


라는 성격을 점점 강하게 띠게 된다.
여기서부터 낸드 수명·상각 문제가 본격적인 분석 대상이 된다.


3. 낸드 수명·상각의 기본: DWPD 관점에서 본다


낸드 기반 SSD의 내구성은 일반적으로
P/E 사이클(Program/Erase), TBW(Terabytes Written), DWPD(Drive Writes Per Day) 같은 지표로 표현된다.(Kingston Technology Company)

핵심만 추리면:

  • 낸드 플래시는 셀당 쓰기/지우기 횟수가 유한하다.

  • 제조사는 SSD가 보증 기간 동안 버틸 수 있는 총 쓰기량을

    • TBW(총 몇 TB를 쓸 수 있는지),

    • DWPD(드라이브 전체 용량을 하루에 몇 번까지 쓸 수 있는지)
      형태로 명시한다.(Kingston Technology Company)


예를 들어,

  • 5년 보증, 1 DWPD SSD라면
    → “5년 동안 매일 이 드라이브 전체를 1번씩 모두 써도 견딘다”는 뜻이고,

  • 같은 조건에서 3 DWPD SSD라면
    → “매일 3번씩 전체를 덮어써도 된다”는 의미다.

경제학적으로 보면,
SSD 한 개의 CAPEX를 수명 동안 쓸 수 있는 총 쓰기량(TBW) 으로 나누면,

“1TB를 쓸 때마다 실제로는 얼마를 상각하는가”


라는 단위 비용으로 볼 수 있다.(Sandisk Documents)

따라서:

  • 하루당 쓰기량(DWPD)이 올라가면

    • SSD 교체 시점이 앞당겨지거나(수명 단축),

    • 더 높은 DWPD 등급의 SSD를 도입해야 하고(초기 CAPEX 증가),

    • 어떤 경우든 낸드 관련 상각·투자 부담은 증가한다.


4. 수식으로 보는 상각 가속: 수요 폭증 + 공급 제약


이제 AGENT 워크로드와 메모리 공급을 함께 보자.하루 전체 SSD 쓰기량을 

Wtotal\text{W}_{\text{total}}
SSD 한 개 용량을 CSSD\text{C}_{\text{SSD}},
전체 SSD 개수를 NSSD\text{N}_{\text{SSD}} 라고 하면

DWPDWtotalCSSD×NSSD\text{DWPD} \approx \frac{\text{W}_{\text{total}}}{\text{C}_{\text{SSD}} \times \text{N}_{\text{SSD}}}

라고 볼 수 있다(단순 평균 모델).


4-1. AGENT AI가 바꾸는 것은 Wtotal\text{W}_{\text{total}}


앞서 본 것처럼 AGENT AI 도입이 본격화되면:

  • 세션 길이,

  • 에이전트 체인 깊이,

  • 컨텍스트 종류(중간 상태·검증 로그·툴 결과 등),


이 모두 늘어나고, KV 캐시/컨텍스트를 외부 계층으로 오프로딩하는 비율도 올라간다는 점에서
하루 전체 쓰기량 Wtotal\text{W}_{\text{total}} 이 증가하는 방향성은 상당히 확실하다.

게다가, 최근 연구들도 KV 캐시를 스토리지·CSD(Computational Storage Drive)로 오프로딩하는 방안이 긴 컨텍스트·대규모 LLM 추론에서 점점 유력한 접근이 되고 있음을 보여준다.

4-2. DRAM·NAND 공급은 단기에 기하급수적으로 늘어나기 어렵다


반대로 메모리 공급은 물리적·투자적 제약을 받는다.

  • DRAM·NAND는 대규모 팹 투자와 공정 전환이 필요하고,
    설비 리드타임·공정 안정화까지 고려하면 수년 단위 사이클로 움직인다.(SemiAnalysis)

  • 최근 메모리 리포트들은

    • AI 데이터센터 수요가 메모리(특히 HBM·DRAM·낸드)에 강한 상방 압력을 주고,

    • 일부 구간에서 공급 부족·리드타임 증가·가격 상승이 동시에 나타나고 있다고 지적한다.(Barron's)


즉, 전방 수요는 기하급수에 가깝게 늘고 있는데, 후방 공급은 긴 리드타임을 가진 완만한 곡선이다.
이 간극에서 수급 불균형(특히 초과수요 구간) 이 발생한다.

이런 시기에는:

  • SSD를 더 많이 깔고 싶어도

    • 공급 부족,

    • 높은 가격,

    • 납기 지연 때문에
      (\text{N}_{\text{SSD}}) 를 충분히 늘리기 어렵다.

4-3. 그 결과: SSD 한 개당 DWPD 상승 압력


수식을 다시 보면,

  • Wtotal\text{W}_{\text{total}} 는 AGENT 수요로 인해 ,

  • NSSD\text{N}_{\text{SSD}} 는 공급 제약으로 인해 단기적으로 제한,

  • CSSD\text{C}_{\text{SSD}} 역시 공정 전환·비용 때문에 급격히 키우기 어렵다.


이때 평균 DWPD는

DWPDWtotalNSSD

에 가깝게 움직인다.

따라서 수급 불균형·초과수요 국면에서는

“AGENT AI가 만들어내는 총 쓰기량 증가분을
충분히 많은 SSD/낸드로 나눠 다루지 못해,
SSD 1개당 쓰기 부담이 증가하고(DWPD 상승),
그만큼 낸드 상각이 가속될 위험이 커진다.”


고 보는 것이 논리적으로 자연스럽다.

이건

  • “항상 그렇게 된다”가 아니라

  • **“그럴 압력이 구조적으로 커진다”**는 의미다.


5. 완충 장치와 한계: 상각 가속을 얼마나 완화할 수 있나


현실의 시스템·사업자는 이런 상각 압력을 그대로 방치하지 않는다.
대표적인 완충 메커니즘은 다음과 같다.

5-1. 아키텍처·정책 차원

  • 모든 상태를 SSD에 내리지 않고,

    • 짧게 쓰고 끝나는 노이즈 컨텍스트는 HBM/DRAM/로컬 캐시에서만 처리하고,

    • 재사용 가치가 높은 컨텍스트만 외부 컨텍스트 티어로 오프로딩한다.

  • TTL, eviction 정책을 조절해
    SSD에 오래 남을 필요가 없는 데이터는 빨리 제거해, 불필요한 쓰기·갱신을 줄인다.

즉, AGENT로 컨텍스트가 늘어난다고 해서 그만큼 SSD 쓰기가 선형으로 늘어나지 않도록 정책을 튜닝하는 것이다.

5-2. 스토리지 플릿·제품 선택

  • 외부 컨텍스트 계층에는

    • DWPD가 높은 엔터프라이즈급 SSD를 우선 배치하고,(Sandisk Documents)

    • 오버프로비저닝을 키워 실효 수명을 확보한다.

  • 동일한 Wtotal\text{W}_{\text{total}}

    • 더 많은 SSD,

    • 더 큰 용량,

    • 더 높은 내구성 등급 제품으로 나누어 받도록 설계해
      개별 SSD의 DWPD를 1 이하로 관리하려 한다.

5-3. 가격·비즈니스 모델

  • 컨텍스트를 많이 쓰는 워크로드,
    장기간 상태를 유지해야 하는 에이전트에는
    더 높은 과금 혹은 별도 요금제를 적용해
    낸드 상각 비용을 가격에 반영할 수 있다.

  • 반대로, 비용 민감한 워크로드는
    컨텍스트 보존 기간을 줄이거나, 외부화 비율을 낮추는 옵션을 통해
    낸드 부담을 줄이는 식의 상품 설계가 가능하다.

이러한 대응 덕분에,
“AGENT AI → NAND가 무조건 몇 년 안에 타버린다” 같은 극단적인 상황은 피할 수 있다.

그러나 동시에,
AGENT AI가 없던 시기보다 낸드 상각 압력이 구조적으로 커진다는 방향성 자체는 바뀌지 않는다.

  • 컨텍스트 외부화 비중이 높아지고,

  • 총 쓰기량이 늘어나며,

  • 수급이 타이트한 구간에서는 SSD 1개당 부담이 커질 가능성이 크기 때문이다.


6. 결론: AGENT AI 시대, 낸드는 “외부 메모리 + 상각 자산”으로 봐야 한다


정리하면 다음과 같다.

  1. AGENT AI 확산 → 컨텍스트 폭증

    • 멀티스텝 체인, 툴 호출, 내부 검증, 에이전트 간 상태 공유로
      KV 캐시·중간 상태·에이전트 컨텍스트 총량이 크게 증가한다.(download.semiconductor.samsung.com)

  2. HBM만으로는 이 컨텍스트를 다 품기 어려워, 외부 컨텍스트 메모리 계층(SSD/NVMe)로의 오프로딩이 늘어난다.

    • ICMSP 같은 플랫폼은 KV 캐시를 NVMe SSD로 확장된 컨텍스트 티어에 저장·공유하는 구조를 이미 제시하고 있다.(NVIDIA Developer)

  3. SSD는 더 이상 “거의 읽기 전용 저장소”가 아니라, “컨텍스트를 계속 읽고 쓰는 외부 메모리”가 된다.

    • 이로 인해 낸드의 하루당 쓰기량(DWPD) 이 구조적으로 상승할 압력이 생긴다.(arXiv)

  4. 동시에 DRAM·NAND 공급은 팹 리드타임·공정 난도 때문에 단기에 기하급수적으로 늘어나기 어렵다.

    • AI 데이터센터 수요 급증 국면에서,
      메모리 시장은 공급 부족·리드타임 증가·가격 상승을 경험하고 있다.(Barron's)

  5. 수요는 빠르게 늘고(Wtotal\text{W}_{\text{total}} ↑), SSD 개수를 마음대로 못 늘리면(NSSD\text{N}_{\text{SSD}} 제한), SSD 1개당 DWPD가 올라가고, 낸드 상각이 가속될 가능성이 커진다.

    • 이는 수식으로도, 시장 구조상으로도 합리적인 추론이다.

  6. 물론 아키텍처 최적화·고내구성 SSD·가격 체계 설계로 이 상각을 완화할 여지는 크다.

    • 하지만 “AGENT AI가 없던 시기보다 낸드 상각이 덜 중요해진다”고 말하기는 어렵고,

    • 오히려 에이전트 시대에는 낸드가 “토큰당 비용(J/token, $/token)”을 결정하는 핵심 자산 중 하나로 부상한다고 보는 편이 현실에 가깝다.

요약하면,

AGENT AI 시대의 낸드 경제학
“얼마나 큰 SSD를 사느냐”를 넘어서,
**“얼마나 자주 쓰고 지우게 될지, 그 쓰기 횟수를 어떤 아키텍처와 공급망으로 감당할지”**에 관한 문제이다.

 

#글을 마치며


예전에 린홍원의 『TSMC, 세계 1위의 비밀』를 읽으면서 “NAND가 의외로 AI 시대에 중요한 역할을 할 것”이라는 대목이 인상에 남아 있었다.

이제는 한 걸음 더 나아가, Agent AI 시대의 진짜 주인공은 어쩌면 DRAM이 아니라 NAND일지도 모른다는 생각으로 글을 마무리해본다.

-끝

생각정리 178 (* VAST Data, Optical Interconnect)

CES 2026에서 젠슨 황이 상당한 시간을 할애했던 BlueField-4를 공부하는 과정에서 VAST Data를 알게 되었고, 이제 그 기술적·산업적 함의를 정리한 뒤, 앞으로 광 네트워킹이 얼마나 중요해질지를 함께 짚어보려 한다.



0. 서론: 차세대 DPU(BlueField-4급)가 의미하는 것


먼저 이번 구조의 출발점이 되는 차세대 DPU(4세대급 DPU) 가 무엇인지부터 정리할 필요가 있다.

이 DPU는 한마디로 이렇게 이해하면 된다.

**“GPU가 계산에만 집중하도록, 네트워크·스토리지·보안 같은 ‘데이터 이동과 인프라 잡일’을 옆에서 전담하는 인프라용 프로세서”**이다. (NVIDIA Blog Korea)


기존 NIC(네트워크 카드) 가 “패킷을 잘 보내고 받는 장치”였다면, 이 DPU는 여기에

  • Arm 계열 코어(작은 CPU들)

  • 네트워크·스토리지·암호화·보안 가속기 를 붙여,


네트워크/스토리지/보안 처리를 서버 CPU 대신 맡는 ‘인프라 전용 컴퓨터’ 로 만든 개념이다.


특히 한 GPU 업체는 이 DPU 기반으로 ICMSP(Inference Context Memory Storage Platform) 라는 개념을 제시했다. 여기서 이 DPU는

“KV 캐시·에이전트 컨텍스트를 SSD 풀에 저장·공유하고, RDMA·NVMe-oF를 통해 저지연·저지터로 GPU와 데이터를 주고받는 컨텍스트 메모리 매니저”


역할을 한다고 정의된다. (NVIDIA Developer)


이제 이 DPU를 전제로, SSD=외부 컨텍스트 메모리 계층과 이를 운영하는 스토리지 플랫폼 이야기를 이어가 보겠다.


1. SSD가 갑자기 중요해진 이유: 저장장치에서 “외부 메모리”로


AI 인프라는 한동안 “GPU가 얼마나 빠르냐” 가 핵심이었다.
하지만 LLM·에이전트 추론이 커지자, 진짜 승부처는 이렇게 바뀌고 있다.

“GPU가 얼마나 빠른가”보다, “GPU를 얼마나 멈추지 않고 계속 돌릴 수 있는가”


즉, GPU 활용도(Utilization) 가 더 중요해진 것이다.


GPU가 멈추는 대표 이유가 바로 컨텍스트(context) 이다.
컨텍스트는 단순 텍스트 이력뿐 아니라, 다음 토큰을 빠르게 만들기 위해 저장해 두는 계산 결과까지 포함한다.

  • KV 캐시(KV cache):
    LLM이 다음 토큰을 만들 때, 이전 토큰에서 계산한 중간 결과를 저장해 두는 “임시 메모리”이다. 같은 계산을 반복하지 않고 속도를 내는 데 필수적이다.

  • 에이전트 컨텍스트(agent context):
    에이전트가 멀티스텝 작업을 수행할 때 “무엇을 했고, 무엇을 하려는지, 중간 결과는 무엇인지” 같은 작업 상태를 유지하는 정보이다.

문제는 이 컨텍스트가 커질수록, GPU 옆 초고속 메모리인 HBM 에 다 올려두기 어렵다는 점이다.

장문맥 대화, 멀티 에이전트, 롱런 세션이 늘어날수록 KV 캐시/컨텍스트가 HBM을 잠근다.

그러면:

  • 새 작업을 올리기 어렵고(배치 확장이 막히고),

  • 컨텍스트 때문에 데이터 이동·재계산·대기가 반복되면서,
    GPU가 멈추는 유휴 시간이 늘고 토큰 처리량이 떨어진다.

핵심은 “HBM이 논다”가 아니라,

HBM에 컨텍스트를 붙잡아 두느라 GPU가 제대로 일을 못 하고, 활용도가 떨어진다는 점이다.

NVIDIA가 CES에서 내놓은 Vera/Rubin 계열 설계의 메시지는 명확하다. (Tom's Hardware)

컨텍스트를 GPU 내부 HBM만으로 감당하지 말고, 랙/클러스터 전체가 공유하는 ‘외부 메모리 계층(External Memory Tier)’을 만들자.
그리고 그 역할을 SSD가 맡게 하자.


이 순간 SSD는 단순 “저장장치”가 아니라, 추론을 위한 외부 메모리 계층으로 성격이 바뀐다.


2. DPU + RDMA + NVMe-oF: SSD를 메모리처럼 쓰는 통로


컨텍스트를 SSD로 내려보내고(offload),
다시 필요할 때 빠르게 가져오려면(fetch),


그 사이의 데이터 경로
가 병목이 되면 안 된다.

그래서 제시된 조합이 DPU + RDMA + NVMe-oF 이다. (NVIDIA Developer)

  • DPU(Data Processing Unit)
    네트워크/스토리지/보안 등 “데이터 이동” 작업을 서버 CPU 대신 전담 하는 인프라용 프로세서이다. GPU가 계산에 집중하도록 데이터 경로 부담을 분리한다.

  • RDMA(Remote Direct Memory Access)
    네트워크로 데이터를 옮길 때 CPU 개입과 메모리 복사를 줄여, 지연(latency)지터(jitter, 지연의 흔들림) 를 낮추는 기술이다.

  • NVMe-oF(NVMe over Fabrics)
    NVMe SSD 접근을 네트워크로 확장해, 멀리 있는 SSD도 고속·저지연 으로 접근하는 방식이다.


이 조합의 목적은 단순히 “SSD를 빨리 읽자”가 아니라,

“SSD에 있는 컨텍스트를, HBM 옆 메모리처럼 예측 가능하게 다루자”


는 데 있다.

그래야 SSD가 진짜로 “외부 컨텍스트 메모리 계층” 이 될 수 있기 때문이다.

실제 한 GPU 업체의 설명에서도, 이 DPU 기반 플랫폼이 재사용 가능한 추론 컨텍스트(KV 캐시)를 보관하고 GPU 근처로 프리스테이징해, GPU 활용도를 높인다고 밝히고 있다. (NVIDIA Developer)


3. (중간 요약) HBM에 묶여 있던 컨텍스트를 SSD로 빼고, 다시 Prefetch로 당겨오는 구조


여기까지를 한 번에 요약하면 다음과 같다.

예전에는 LLM이 다음 토큰을 빠르게 만들기 위해
KV 캐시(이전 계산 결과)에이전트 컨텍스트(작업 상태)
GPU 옆 초고속 메모리(HBM) 에 계속 붙잡아 두는 구조였다.
그런데 대화가 길어지고 에이전트가 많아지면 이 컨텍스트가 커져서 HBM을 많이 잠가 버린다.
그러면 GPU가 새 작업을 올리거나 배치를 키우기 어려워지고, 컨텍스트 때문에 데이터 이동·재계산·대기 같은 일이 늘면서 GPU가 멈추는 시간(유휴) 이 생기거나 처리량이 떨어진다.
즉 문제의 핵심은 “HBM이 논다”가 아니라 GPU 활용도가 떨어진다는 점이다.

새로운 구조(차세대 DPU + ICMSP 방향)는 이 컨텍스트를 HBM에만 두지 않고 외부 메모리 계층으로 빼는 방식이다.
구체적으로는 HBM을 많이 잡아먹는 KV 캐시/컨텍스트를 RDMA(빠른 전송)
DPU(데이터 이동 전담 칩) 가 관리하는
SSD 풀(NVMe-oF로 접근되는 원격 SSD 묶음) 로 내려둔다.
이렇게 하면 HBM은 컨텍스트에 덜 잠기고, GPU는 더 자주 “계산”에 집중할 수 있다.

그리고 나중에 그 컨텍스트가 다시 필요해지면, SSD 풀의 데이터를 “그때그때 느리게 가져오는” 방식이 아니라 Prefetch(필요하기 전에 미리 당겨오기) 로 GPU HBM 쪽에 미리 올려둔다.
결과적으로 GPU는 컨텍스트를 기다리느라 멈추는 시간이 줄고, 같은 GPU로 더 많은 토큰을 안정적으로 뽑는 방향(=GPU 활용도 개선)으로 간다.

 

한 줄로 정리하면,
이 구조는 KV 캐시/컨텍스트를 HBM에만 묶어두지 않고 SSD 기반 외부 메모리 계층으로 오프로딩했다가, 필요할 때 Prefetch로 다시 HBM에 올려 GPU 유휴를 줄이는 아키텍처이다.






4. 스토리지 플랫폼의 역할: “고속도로 위의 운영체제”


여기서 한 스토리지 소프트웨어/데이터 플랫폼 업체가 맡는 역할은,
**“고속도로(하드웨어)를 깔아놓은 뒤, 그 위에서 컨텍스트가 끊기지 않고 잘 흘러가게 만드는 운영체제”**에 가깝다.


ICMSP가 제공하는 것은 요약하면 “컨텍스트를 SSD로 보내고 다시 가져올 수 있는 고속도로(DPU·RDMA·NVMe-oF)” 이다.


이 위에서 스토리지 플랫폼이 하는 일은 세 가지로 보고 정리할 수 있다.

  1. 컨텍스트를 개별 GPU의 로컬이 아니라, 클러스터 전체의 ‘컨텍스트 풀(pool)’로 운영하는 것

  2. 어떤 컨텍스트를 언제 SSD로 내리고(offload), 언제 HBM으로 미리 끌어올릴지(prefetch) 결정하는 정책을 구현하는 것

  3. 이 모든 것을 저지연·저지터 데이터 경로 위에서 안정적으로 돌리는 것


따라서 이런 스토리지 플랫폼은 “SSD 박스를 파는 회사”가 아니라,

SSD를 LLM/에이전트의 외부 컨텍스트 메모리 계층으로 쓰게 만들어 GPU 효율을 현금화하는 소프트웨어/데이터 플랫폼


이라고 보는 것이 정확하다. (NVIDIA Developer)


5. 한 페이지 요약: 외부 컨텍스트 메모리 시대의 수혜 밸류체인·병목·CAPEX 이동


ICMSP로 대표되는 “SSD=외부 컨텍스트 메모리” 전환은,
투자·산업의 초점을 GPU 단품 성능에서 클러스터 전체의 데이터 이동·컨텍스트 재사용 효율로 옮긴다.


병목은 “연산 부족”이 아니라 컨텍스트를 얼마나 빨리·일관되게(저지연·저지터) 옮기고 재사용하느냐로 이동하고, CAPEX는 GPU만이 아니라 네트워킹·DPU·스토리지 계층으로 구조적으로 확장된다.

(1) 광모듈 / 실리콘 포토닉스

  • 병목: 컨텍스트 공유(ICMSP)로 동서(East-West) 트래픽이 폭증하면, 전기 기반 링크만으로는 전력·발열·거리·신호무결성 측면에서 한계가 빨리 온다.

  • CAPEX 포인트: 트래픽이 늘수록 “몇 Tbps냐”보다 비트당 에너지(pJ/bit) 가 핵심이 되며, 광모듈·실리콘 포토닉스 비중이 커진다.

한 시장조사기관은 광트랜시버 시장이 **2024년 약 136억달러 → 2029년 250억달러(CAGR 약 13%)**로 성장할 것으로 본다. (MarketsandMarkets)

(2) CPO(Co-Packaged Optics) 패키징

  • 병목: 플러거블 광 트랜시버 + 전기 리치 구조에서는 고대역 스위치에서 I/O 밀도·전력·열 이 병목이 된다.

  • CAPEX 포인트: CPO는 스위치 ASIC과 광학을 한 패키지에 붙여 pJ/bit를 낮추고 전기 경로 손실을 줄이는 해법이다.

NVIDIA는 실리콘 포토닉스 기반 CPO 스위치로, 포트당 1.6Tb/s급·네트워크 전력 3.5배 절감·수백만 GPU 연결을 목표로 하는 로드맵을 공개했다. (NVIDIA Newsroom)

(3) 스위치 ASIC

  • 병목: ICMSP는 대역폭뿐 아니라 예측 가능한 지연(저지터) 를 요구한다. 네트워크 지연이 흔들리면 Prefetch가 깨지고 GPU 파이프라인이 비면서 전체 처리량이 떨어진다.

  • CAPEX 포인트: 단순 고성능 스위치가 아니라, AI 트래픽·RDMA·혼잡제어에 최적화된 스위치 ASIC 이 필요하며, 스위치 계층이 GPU와 동급의 핵심 설비로 올라간다. (NVIDIA Newsroom)

(4) DPU/NIC

  • 병목: 컨텍스트 Offload/Fetch/Prefetch의 핵심은 “데이터 이동”이며, 이것을 CPU가 처리하면 오버헤드와 지터가 커진다. 결국 데이터 경로의 결정론(determinism) 이 병목이다.

  • CAPEX 포인트: DPU/NIC는 단순 네트워크 카드가 아니라 컨텍스트 메모리 매니저 로 기능이 확장된다. ICMSP가 표준이 될수록 필수 부품으로 CAPEX 비중이 커진다. (NVIDIA Developer)

(5) NVMe SSD(External AI SSD, 컨텍스트 티어)

  • 병목: SSD는 이제 “용량”보다 지연·IOPS·일관성(QoS) 이 추론 품질(TTFT, 토큰/초)을 좌우한다. 컨텍스트 재사용률이 높아질수록 SSD는 사실상 메모리 계층이 된다.

  • CAPEX 포인트: 백업/저장용 스토리지가 아니라, “GPU당 필요한 외부 컨텍스트 메모리 티어” 로 NVMe CAPEX가 잡힌다.

(6) 스토리지 소프트웨어 / 데이터 플랫폼

  • 병목: 어떤 컨텍스트를 언제 오프로딩하고, 어디에 두고, 언제 Prefetch할지, 멀티 테넌트 환경에서 어떻게 격리·복구할지 같은 정책과 운영이 최종 병목이다.

  • CAPEX 포인트: “스토리지 관리 SW”가 아니라, GPU 효율을 현금화하는 컨텍스트 OS/플랫폼 으로 비용이 배정된다. GPU 투자 대비 수익률(토큰/초, J/token)을 좌우하는 레이어로 격상된다.


6. 2030년까지 광인터커넥트(광트랜시버·OCS·InP 웨이퍼) 시나리오


같은 맥락에서, 광인터커넥트 산업을 2030년까지 시나리오로 보면 다음과 같다.

6-1. 광트랜시버: 수요는 크고, 단기 성장은 “공급이 결정”


한 글로벌 시장조사기관은 광트랜시버 시장이 **2024년 100억달러대 중반 → 2029년 250억달러 수준(CAGR 10%대 중반)**으로 성장할 것으로 본다. (MarketsandMarkets)


하지만 실제 출하·매출은 부품 공급(특히 InP 기반 레이저·EML, 드라이버/TIA, SiPh 칩·패키징) 에 의해 제약될 수 있다. 즉 “총수요는 충분한데, 공급이 따라가느냐”가 2026년의 관전 포인트라는 것이다.

6-2. OCS(광회로스위치): 2028년 10억달러대, 2030년에는 ‘스텝 점프’ 가능


한 통신 특화 리서치사는 OCS(Optical Circuit Switch) 시장이 2028년에 10억달러를 넘을 것이라고 본다. (Cignal AI)

같은 내용을 보도한 업계 매체들도, AI 데이터센터에서 OCS가 전력 절감과 유연성을 동시에 확보하는 기술로 부상하고 있다고 정리한다. (Light Reading)

이를 2030년까지 단순 외삽하면, 연 15~30% 성장률을 가정할 때 2030년 13~20억달러 정도가 합리적인 범위 추정이다. 다만 OCS는 “완만한 성장”보다 아키텍처 전환이 임계점을 넘을 때 한 번에 점프하는 패턴을 보일 가능성이 크다.

6-3. CPO: 플러거블을 ‘대체’라기보다 ‘병존+점진적 잠식’

NVIDIA는 실리콘 포토닉스 기반 CPO 스위치를 통해 수백만 GPU를 1.6Tb/s 포트 스위치로 연결하면서, 네트워크 전력을 3배 이상 절감하는 방향을 제시한다. (NVIDIA Newsroom)

여러 시장조사기관은 CPO 스위치 시장이 2020년대 후반까지 20%대 중후반 CAGR으로 성장할 수 있다고 본다. (PW Consulting)

이를 종합하면,

  • 2025~26년: 여전히 플러거블(800G/1.6T) 중심 성장 구간

  • 2026~2030년: CPO가 플러거블을 완전히 “대체”하기보다는,
    **하이엔드·대규모 클러스터를 중심으로 “병존+점진적 잠식”**하는 구도가 될 가능성이 높다.

6-4. InP 웨이퍼(3인치 → 6인치): 병목 해소의 핵심 이벤트

코히런트는 세계 최초 6인치 InP(Indium Phosphide) 웨이퍼 팹을 구축했다고 발표했다. 이는 3인치 중심에서 6인치로 생산을 옮겨, 웨이퍼당 다이 수 증가·수율 개선·다이당 원가 절감을 동시에 노리는 전략이다. (Coherent Inc)

2030년까지 InP 수급은

  • 단순 웨이퍼 장수가 아니라 유효 다이 수(다이/웨이퍼 × 수율),

  • 3인치 → 6인치 전환 속도,

  • 고속 노드(200G→400G/lane) 수율 안정화

같은 변수에 의해 결정된다.

요약하면, InP 공급이 얼마나 빨리 “면적×수율”을 키우느냐에 따라, 2025~27년 EML 병목이 짧게 끝날지, 2030년 근처까지 길게 이어질지가 갈릴 수 있다.


7. 2030년까지의 두 가지 압축 시나리오


시나리오 A: 공급이 계속 타이트(병목 지속)

  • 6인치 전환·고속 노드 수율이 예상보다 느리게 안정화.

  • 결과:

    • EML(특히 고속 노드) 가격/마진 파워 지속

    • 트랜시버 업체는 SiPh 채택을 더 적극 활용해 InP 병목을 우회

    • OCS/CPO 도입은 빨라지지만, 광원(InP) 공급이 병목이라 “설치 속도”는 공급이 결정

시나리오 B: 6인치 전환 가속(2027~28년에 병목 완화)

  • 6인치 InP 전환이 업계에 빠르게 확산, 공정·수율이 빠르게 안정.

  • 결과:

    • 2025~26년은 타이트하지만, 2027~30년으로 갈수록 InP 병목 완화

    • 플러거블→CPO/ELS 전환이 수요측에서 빨라져도, 공급이 일정 부분 따라감

    • 가격 파워는 2025~26년 피크 후, 이후에는 제품 믹스·장기공급계약 구조가 수익성의 핵심

두 시나리오 모두 공통 메시지는 같다.

ICMSP/외부 컨텍스트 메모리 구조가 만들어낸 “동서 트래픽 폭증”과 “저지연·저지터 요구”는,
광트랜시버·OCS·CPO·InP 웨이퍼 전 밸류체인의 CAPEX와 기술 전환 속도를 2030년까지 꾸준히 끌어올리는 방향으로 작용한다.

 


8. 최종 정리


정리하면,

  • 차세대 DPU(BlueField-4급)는 “네트워크·스토리지·보안을 전담하는 인프라용 프로세서(DPU)”, ICMSP에서는 “컨텍스트 메모리 매니저” 역할을 한다. (NVIDIA Blog Korea)

  • SSD는 더 이상 단순 저장장치가 아니라, LLM/에이전트 컨텍스트를 담는 외부 메모리 계층이 된다.

  • 스토리지 플랫폼은 이 계층을 **클러스터 전체의 ‘공유 컨텍스트 풀’**로 운영하여, HBM에 묶여 있던 KV 캐시/에이전트 컨텍스트를 SSD로 빼고, 필요 시 Prefetch로 다시 HBM에 올려 GPU 유휴를 줄이는 역할을 한다.

  • 이 구조로 인해 병목은 GPU 연산에서 컨텍스트 데이터 이동·재사용 으로 옮겨가고, CAPEX는 GPU 단독에서
    광모듈/실리콘 포토닉스 → CPO 패키징 → 스위치 ASIC → DPU/NIC → NVMe SSD → 스토리지 SW
    전 구간으로 분산된다.

  • 2030년까지의 광인터커넥트 전망(광트랜시버·OCS·CPO·InP)을 겹쳐 보면, ICMSP/외부 컨텍스트 메모리 방향은 단순한 기술 옵션이 아니라,
    광·네트워크·스토리지 전 밸류체인의 CAPEX 재배치를 강제하는 거대한 수요 축이라고 정리할 수 있다.


생각정리 177 (* Nvidia Rubin Ultra Kyber Rack)

지난밤 일부 기사에서 Micron이 Nvidia의 HBM4 경쟁에서 탈락했다는 내용을 접했다.

한편 업계에서는 HBM4가 과도기적(중간다리) 성격이 강하고, 실질적인 경쟁의 본무대는 HBM4E부터 시작될 것이라는 관측이 나온다. 

Micron이 집중하겠다는 HBM4E 시장은 HBM4 시장과 얼마나 왜 어떻게 다를까?

HBM4와 HBM4E의 차이를 비교·분석
한 내용을 정리해 글로 남겨본다.  


Rubin Ultra NVL576: HBM4E 시대의 진짜 격전지


Rubin 세대에서 Vera Rubin NVL72**Rubin Ultra NVL576(Kyber Rack)**는 겉으로 보면 “같은 세대의 큰/작은 랙”처럼 보이지만, HBM 관점·전력 인프라 관점·데이터센터 경제성 관점에서 보면 완전히 다른 급의 제품이다.


특히 NVL576은 랙 하나에 들어가는 HBM4E 용량이 NVL72 대비 약 7배, 랙 전력은 약 5배까지 올라가면서, 자연스럽게 **HBM4E 공급사(삼성전자·SK하이닉스·마이크론)**의 “진짜 승부처”가 될 수밖에 없는 구조이다.

이 글은 다음 순서로 정리한다.

  1. Blackwell → Vera Rubin: 기본 개념 정리

  2. NVL72·NVL576 숫자의 의미

  3. Vera Rubin NVL72 vs Rubin Ultra NVL576 스펙 비교

  4. HBM 관점: 용량·대역폭·세대(HBM4 vs HBM4E)

  5. 전력·냉각·배전 구조의 차이

  6. 데이터센터 운영자 입장에서의 경제성

  7. HBM 공급사(삼성·SK·마이크론) 입장에서 NVL576의 의미


1. Blackwell vs Vera Rubin: “지금 AI 공장” vs “다음 세대 AI 공장”


아주 단순화하면 다음과 같다.

Blackwell 세대는 “지금 돌아가는 AI 공장”을 만든 세대이고,
Vera Rubin 세대는 “다음 세대 AI 공장”을 염두에 두고, 데이터센터 전체를 단위로 다시 설계한 세대이다.


1) GPU·CPU 조합 자체가 바뀐다

  • Blackwell 세대

  • Vera Rubin 세대

    • Rubin GPU + Vera CPU라는 완전히 새로운 조합으로 랙을 설계한다.

    • 엔비디아 공식 제품 페이지에 따르면 Vera Rubin NVL72는 랙 하나에 Rubin GPU 72개, Vera CPU 36개, NVLink 6 스위치, ConnectX-9, BlueField-4를 통합한 랙 스케일 시스템이다.
      NVIDIA Vera Rubin NVL72 (NVIDIA)

겉으로는 이름이 바뀐 수준처럼 보이지만, 실제로는 GPU·CPU·인터커넥트 세대가 통째로 교체되는 변화이다.

2) 메모리 세대: HBM3E → HBM4 → HBM4E

  • GB200/GB300 NVL72HBM3E 기반이다.(Hewlett Packard Enterprise)

  • Vera Rubin NVL72부터는 HBM4가 올라간다.

  • Rubin Ultra NVL576에서는 한 단계 더 나아가 HBM4E가 채택된다.

    • GTC 2025 발표를 정리한 여러 기사에 따르면 NVL576은 랙 기준 4.6PB/s의 HBM4E 대역폭수백 TB급 “fast memory”(HBM4E + CPU 메모리)를 제공하는 것으로 소개된다.(데이터 센터 다이나믹스)


즉 Rubin 세대의 큰 축은 **GPU의 연산 성능 향상 + HBM 세대 교체(HBM4 → HBM4E)**이다.

3) NVLink: 5세대 → 6세대 → 7세대

  • GB200/GB300 NVL72는 NVLink 5 기반이다.(Hewlett Packard Enterprise)

  • Vera Rubin NVL72는 NVLink 6를 사용하며,
    GPU당 3.6TB/s, 랙 전체 260TB/s NVLink 대역폭이 공식 사양에 명시되어 있다.(NVIDIA)

  • Rubin Ultra NVL576에서는 NVLink 7으로 올라가며,
    랙 단위 1.5PB/s급 NVLink 패브릭을 제공한다는 분석이 나온다.(데이터 센터 다이나믹스)


NVLink 세대가 올라갈수록 GPU 간 통신 레이턴시·대역폭이 좋아지고, 랙 내부를 하나의 거대한 가속기처럼 쓰기 쉬워진다.

4) “토큰당 비용”을 기준으로 다시 설계된 Rubin

엔비디아는 Vera Rubin NVL72 소개 페이지에서, Rubin 플랫폼이 Blackwell NVL72 대비:

  • 같은 규모의 MoE 학습에 필요 GPU 수를 최대 4배까지 줄이고,

  • 에이전틱 AI 추론에서 100만 토큰당 비용을 1/10 수준까지 낮출 수 있다고 설명한다.(NVIDIA)

이는 단순히 GPU 클럭·코어만 늘린 것이 아니라,

GPU·CPU·HBM·NVLink·네트워크·소프트웨어를 “토큰당 비용” 관점에서 재조합한 세대라는 뜻이다.

 


2. NVL72·NVL576 숫자는 무엇을 의미하나


1) NVL72

  • Vera Rubin NVL72 제품 페이지에서 구성은 다음과 같이 명시된다.(NVIDIA)

    • Rubin GPU 72개

    • Vera CPU 36개

  • Blackwell 세대의 GB200/GB300와 마찬가지로,
    “72”는 랙 안에서 NVLink로 묶이는 GPU 패키지(또는 GPU 모듈)의 개수로 이해하면 자연스럽다.

2) NVL576 (Kyber Rack)


Rubin Ultra NVL576은 코드명 **“Kyber Rack”**으로 불리며, GTC 2025에서 공개된 차세대 랙 설계이다.(데이터 센터 다이나믹스)

  • 여러 기술 기사와 Morgan Stanley 리포트 요약을 보면,
    NVL576 랙에는 Rubin Ultra GPU 패키지 144개가 들어가고,
    각 패키지 안에 4개의 컴퓨트 다이 + 여러 HBM4E 스택이 들어가는 구조로 설명된다.(Tom's Hardware)

  • 여기서 **“576”은 GPU 다이(die) 수(144패키지 × 4다이)**를 반영한 이름으로 보는 해석이 지배적이다.

정리하면, 세대와 표기 방식 변화까지 감안할 때 현실적으로는 이렇게 이해하는 것이 좋다.

  • NVL72: “GPU 패키지 72개짜리 랙”

  • NVL576: “GPU 패키지 144개(총 576개 다이)짜리 초고밀도 랙”

초보자에게 설명할 때는 그냥

“NVL72는 큰 GPU 72개, NVL576은 그걸 2배 패키지 × 4배 다이로 올려버린 괴물 랙”


이라고 이해시켜도 무리가 없다.


3. Vera Rubin NVL72 vs Rubin Ultra NVL576: 랙 스펙 비교


아래 표는 랙 1대 기준으로, 공개·보도된 수치를 정리한 것이다.
Rubin Ultra 쪽은 아직 최종 양산 전이므로 “예상치·분석치”라는 점을 전제로 본다.

3-1. 랙 수준 주요 스펙 비교



여기서 눈에 들어오는 포인트는 세 가지이다.

  1. HBM 용량: 20.7TB → 144TB (약 7배)

  2. HBM 대역폭: 1.58PB/s → 4.6PB/s (약 3배)

  3. 랙 전력: 130kW대(Blackwell 기준) → 600kW급 (약 4.5~5배)


4. HBM 관점: “용량 7배 vs 대역폭 3배”의 의미


4-1. 왜 용량은 7배인데, 대역폭은 3배인가

수치만 다시 보자.

단순 비율은 다음과 같다.

  • 용량: 144 ÷ 20.7 ≒ 6.96배 (약 7배)

  • 대역폭: 4.6 ÷ 1.58 ≒ 2.9배 (약 3배)

왜 이렇게 차이가 날까?

핵심 이유를 정리하면 다음과 같다.

  1. HBM4 → HBM4E는 “핀 속도 중심” 진화

    • HBM4와 HBM4E 모두 2048bit 인터페이스를 유지하는 것으로 알려져 있다.

    • HBM4E는 같은 폭에서 클럭(핀 속도)을 더 올려서 스택당 대역폭을 키우는 구조라, “스택 개수 × 폭”보다는 “속도”를 주로 올린다.

  2. NVL576은 용량을 극단적으로 키운 시스템

    • NVL576은 **GPU 패키지 수(144개)**와 패키지당 HBM4E 용량을 동시에 키우면서 총 용량을 크게 늘린 설계이다.

    • 다만, 랙 전체 전력·전압·배전 한도를 맞추기 위해 대역폭/용량 비율은 NVL72보다 낮게 설계될 수밖에 없다.

  3. 메모리 계층 구조의 변화

    • NVL576에서는 HBM4E + CPU쪽 LPDDR + NVLink 패브릭이 함께 동작하는 복합 메모리 계층 구조를 전제로 한다.

    • 즉, HBM 하나만으로 모든 병목을 풀기보다는, 램 + 네트워크 + NVLink를 합쳐 종합적인 “토큰당 비용”을 줄이도록 설계된다.

다시 말해,

NVL576은 “총 메모리 용량을 극단적으로 늘려 초대형·초장기 시퀀스 모델을 수용”하는 방향,
**대역폭은 전력·배선 한도 내에서 최대한 높인 수준(약 3배)**로 보는 것이 현실적이다.

 

4-2. HBM4 vs HBM4E: 세대 차이를 직관적으로 요약하면

  • HBM4

    • HBM3E 대비 속도·전력 효율이 개선된 차세대 HBM

    • Rubin GPU 1개에 288GB HBM4, 22TB/s 대역폭을 붙이는 설계가 대표적이다.(NVIDIA)

  • HBM4E

    • 같은 2048bit 인터페이스 기반에서 핀 속도·스택당 대역폭을 한 번 더 밀어붙인 확장 버전

    • SK하이닉스·삼성 로드맵에서는 HBM4 양산(2026년 전후), HBM4E 상용화(2027년 전후)를 목표로 한다는 보도가 이어지고 있다.(SK hynix Newsroom -)

Rubin Ultra NVL576는 이 HBM4E를 랙당 약 144TB 규모로 집어넣는 플랫폼이라,
수주 1건당 HBM 물량이 매우 큰 시스템이라는 점에서 HBM 공급사들에 특별한 의미를 갖는다.


5. 전력·냉각·배전: 130kW대 랙 vs 600kW 랙


5-1. 랙 전력

  • Blackwell GB200 NVL72 (참고 기준)

    • HPE QuickSpecs에 따르면 랙 TDP가 132kW(정격), 피크 설계 전력(EDPp)은 그 1.5배인 약 192kW이다.(Hewlett Packard Enterprise)

    • Vera Rubin NVL72도 **비슷한 수준(100~150kW대)**로 설계될 가능성이 높지만, 아직 엔비디아가 공식 수치를 공개하진 않았다.

  • Rubin Ultra NVL576 (Kyber)

    • DatacenterDynamics, Network World 등 GTC 2025 현장 기사들은 Kyber Rack(NVL576)의 랙당 전력을 600kW급으로 정리하고 있다.(데이터 센터 다이나믹스)

단순 배수로 보면,

NVL576 한 랙은 GB200 NVL72 기준 약 4.5~5배 전력을 먹는 초고밀도 랙이다.


5-2. 냉각: 수랭 필수 → 침지·2상 냉각 가능성

전력은 거의 그대로 **열(열부하)**이 된다.

  • Blackwell Ultra NVL72(GB300 기준)에서도, Morgan Stanley 리포트를 인용한 Tom’s Hardware 기사에 따르면
    랙 하나에 들어가는 수랭 시스템 BOM이 약 5만 달러 수준으로 추정된다.(Tom's Hardware)

  • 같은 기사에서, Vera Rubin NVL144로 가면 GPU TDP 증가로 인해 냉각 BOM이 약 17% 추가 상승할 것이라는 전망이 나온다.(Tom's Hardware)

  • Rubin Ultra GPU 패키지는 TDP가 3,600W 수준까지 올라갈 것으로 예상되며, 이 때문에 특수 콜드플레이트 혹은 침지식/임베디드 냉각이 필요할 것이라는 분석이 많다.(Tom's Hardware)

즉,

NVL72에서 “본격 수랭 시대”가 열렸다면, NVL576부터는 “침지·2상 냉각까지 검토하는 초고밀도 랙 시대”로 넘어간다고 정리할 수 있다.

 

5-3. 배전: 54V DC → 800V HVDC


엔비디아는 별도의 기술 블로그에서, AI 팩토리용 800V HVDC 전력 아키텍처를 공식 발표했다.(NVIDIA 开发者)

핵심 포인트는 다음과 같다.

  • 지금의 NVL72 랙(GB200/GB300)은 랙 내부 54V DC 버스바를 기준으로 설계돼 있다.(Hewlett Packard Enterprise)

  • 하지만 200kW를 넘어 1MW까지 가는 랙에서 54V를 그대로 쓰면

    • 구리 버스바가 수백 kg 단위로 필요하고,

    • 전압이 낮아 전류가 크게 늘어나면서 손실·발열·공간 문제 모두 커진다.(NVIDIA 开发者)

  • 그래서 2027년부터 800V HVDC로 전력 인프라를 전환해,
    1MW급 Kyber 랙(= Rubin Ultra NVL576)을 운영하겠다는 로드맵을 제시한다.(NVIDIA 开发者)

이 구조의 효과는 다음과 같이 정리된다.

  • 전력 효율: 54V 대비 엔드투엔드 효율 최대 +5%

  • 유지보수비: PSU 수·복잡성 감소로 유지보수 비용 최대 –70%

  • 구리 사용량: 고전압 직류로 전류를 줄여 버스바 구리 사용량 감소(NVIDIA 开发者)

따라서 전력 관점에서 본다면,

NVL72는 “기존 54V 인프라를 최대한 활용하는 세대”,
NVL576은 “800V HVDC를 전제로 한 600kW~1MW급 차세대 AI 공장 세대”라고 구분하는 것이 정확하다.

 


6. 데이터센터 운영자 입장에서의 경제성


6-1. 성능 밀도: NVL72 vs NVL576

  • Vera Rubin NVL72

    • NVFP4 기준 3,600 PFLOPS(= 3.6 EFLOPS), HBM4 20.7TB(NVIDIA)

  • Rubin Ultra NVL576

Rubin NVL72 자체도 이미 Blackwell 대비 “토큰당 비용 1/10”을 목표로 한 세대이지만,(NVIDIA)
NVL576은 거기서 다시 수 배 더 높은 랙당 성능 밀도훨씬 큰 메모리 풀을 제공하는 구조이다.

6-2. Capex: 설비투자 문턱

  • NVL72

    • 130kW 전후의 랙을 수랭으로 받는 것은, 기존 데이터센터 인프라를 강화하는 수준에서 대응이 가능하다.

    • 전용 1MW급 모듈형 변전·800V HVDC까지는 가지 않아도 된다.

  • NVL576

    • 600kW 랙 하나를 기준으로 보면,

      • 전용 800V HVDC 전력 인프라,

      • 고가의 침지·2상 냉각 혹은 초고성능 콜드플레이트,

      • 고밀도 랙을 받기 위한 전용 건물·수배전 설계가 필요하다.

    • 사실상 **하이퍼스케일러급(미국·중국 빅테크, 일부 초대형 클라우드)**만 감당 가능한 레벨이다.

6-3. Opex: 전력·냉각·유지보수

  • NVL72

    • kW당 비용이 높아도, 개별 랙 전력 자체는 아직 100kW대라
      현행 시설에서 조금씩 확장하며 운영하기 좋은 스윗스팟이다.

  • NVL576

    • 초기 인프라 투자는 크지만,

    • 800V HVDC 전환과 고효율 냉각으로 전력 손실·냉각비를 줄이고,

    • 같은 부지에서 훨씬 많은 토큰·파라미터를 처리하는 것이 가능해진다.(NVIDIA 开发者)

즉 TCO(Total Cost of Ownership) 관점에서는,

  • 중소형 사업자·호스팅 업체: NVL72가 현실적인 상한

  • 하이퍼스케일러: NVL576을 전제로 전력·냉각 인프라를 같이 재설계하면서,
    장기적으로 토큰당 비용을 최소화하는 쪽으로 갈 인센티브가 크다.


7. HBM 공급사(SK하이닉스·삼성전자·마이크론) 입장에서 NVL576의 의미


7-1. NVL72 ↔ NVL576, 1년 남짓의 텀

출시 시점을 다시 보면 다음과 같다.

두 세대 사이의 텀은 1년 남짓이다.

이 말은 곧,

  1. NVL72는 Rubin/HBM4 조합의 “초기도입·전환기 모델” 역할을 하고,

  2. NVL576에서 HBM4E 기반 대규모 도입이 본격화된다고 해석할 수 있다.

7-2. 랙당 HBM 수요의 점프


HBM 관점에서 수치만 보면 더욱 극적이다.

  • Vera Rubin NVL72: 20.7TB HBM4, 1.58PB/s

  • Rubin Ultra NVL576: 144TB HBM4E(추정), 4.6PB/s


→ 랙 한 대 기준으로 HBM 용량은 약 7배, 대역폭은 약 3배 증가한다.

이 구조는 HBM 공급사 입장에서는 다음을 의미한다.

  1. NVL72

    • HBM4 세대의 성능·전력 특성이 실제 워크로드에서 어떻게 나오는지 검증하는 시범 무대

    • 엔비디아·고객사·HBM 공급사가 툴체인·패키지·수랭 설계를 튜닝하는 단계

  2. NVL576

    • 같은 고객이, 같은 Rubin 계열 플랫폼 안에서 랙당 HBM 수요를 7배까지 늘리는 업그레이드

    • NVL576 수주를 많이 확보하는 HBM 업체일수록 HBM4E 매출·마켓쉐어를 크게 가져갈 가능성

여기에 HBM4·HBM4E 로드맵까지 겹친다.

  • SK하이닉스·삼성전자는 2026년 HBM4 양산, 2027년 HBM4E 상용화를 목표로 하고 있으며,(SK hynix Newsroom -)

  • 엔비디아 Rubin Ultra NVL576의 출하 시점(2H27)과 거의 맞물린다.

결국,

Vera Rubin NVL72는 Rubin/HBM4 생태계를 다지는 “전환기 모델”에 가깝고,
Rubin Ultra NVL576부터가 **HBM4E를 둘러싼 삼성·SK·마이크론의 “진짜 전장(격전지)”**가 될 가능성이 높다.

 

  • NVL72에서 만족스러운 안정성·성능·전력 특성을 제공한 HBM 공급사일수록
    NVL576·그 이후 1MW급 Kyber 계열 랙에서 우선적으로 채택될 확률이 커진다.

  • 반대로 NVL576에서 특정 업체의 HBM4E가 패키징·전력·온도에서 문제를 일으킬 경우,
    한 랙에서 수십~수백억 원 규모의 HBM 공급 계약이 통째로 경쟁사로 넘어갈 수 있다.


8. 정리: 왜 NVL576이 “HBM4E 격전지”인가


요약하면 다음과 같다.

  1. 아키텍처

    • Blackwell → Vera Rubin은 GPU·CPU·HBM·NVLink 세대를 통째로 교체하면서
      “토큰당 비용”을 기준으로 재설계한 세대 전환이다.

  2. 명칭

    • NVL72: Rubin GPU 72개인 랙

    • NVL576: Rubin Ultra GPU 패키지 144개(총 576개 다이)인 Kyber 랙

  3. HBM 스펙

    • NVL72: 20.7TB HBM4, 1.58PB/s

    • NVL576: 약 144TB HBM4E, 4.6PB/s
      용량 7배, 대역폭 3배

  4. 전력·냉각·배전

    • NVL72: 130kW대 랙(GB200 기준), 수랭 필수

    • NVL576: 600kW 랙, 800V HVDC + 침지/2상 냉각까지 요구되는 초고밀도 랙

  5. 데이터센터 경제성

    • 중·소형 사업자: 현실적 상한은 NVL72

    • 하이퍼스케일러: NVL576을 전제로 전력·냉각 인프라를 재설계하면서 장기적인 토큰당 비용 최소화를 추구

  6. HBM 공급사 관점

    • 2H26: Vera Rubin NVL72로 HBM4 생태계 검증

    • 2H27: Rubin Ultra NVL576에서 HBM4E 대규모 도입 본격화
      NVL576 랙 설계·수주를 누가 선점하느냐가 HBM4E 시장 판도를 좌우할 가능성이 크다.


이 구조를 염두에 두고 보면,
**“차세대 HBM 시장의 격전지는 어디인가?”**라는 질문에 대한 답은 자연스럽게 하나로 수렴한다.

Rubin Ultra NVL576 (Kyber Rack)
여기서의 성패가, HBM4E 시대의 승자와 패자를 가르는 분수령이 될 가능성이 크다.


=끝 

2026년 2월 5일 목요일

생각정리 176 (* Agent AI, VRAM)

Claude가 증명한 것, 그리고 2030년까지 VRAM 수요가 폭증할 수밖에 없는 이유


0. 왜 다시 “메모리”인가


CHATGPT와 Gemini만 쓰다가, Claude 4.5 Sonnet을 하루 종일 써본 소감은 단순했다.
긴 이전 컨텍스트에 대한 이해를 유지함(*맥락의 이해)과 동시에, 추론의 깊이·정교함이 한 단계 위에 있다는 느낌이었다.
개발자들이 말하는 “클로드가 프로젝트 전체를 이해한다”, “개인 최적화가 잘 되어 있다”는 이야기도 결국

  • 긴 컨텍스트에 대한 이해(*맥락의 이해)를 안정적으로 유지하고

  • 그 위에서 여러 번 생각하고, 고쳐 쓰고, 검증하는 추론 구조


에서 나온 결과라고 보는 것이 자연스럽다.

여기에 더해, Claude가 법률 SaaS로 진출하며 보여주는 모습은 분명한 시그널이다.

  • 이런 강화된 추론 능력이 실제 돈 버는 실무에 투입되기 시작했다는 것,

  • LLM 기반 SaaS의 수익화(monetization)가 “이론”이 아니라 현실이 되었다는 것.

이 사실은 단순히 Anthropic 하나의 문제가 아니라,
AI 하드웨어 전반의 CAPEX(훈련·추론 인프라 투자)를 더 공격적으로 늘려도 된다는 근거가 된다.

지금 금융시장에서 관측되는

  • 원자재,

  • 암호화폐,

  • 주식·채권 시장에서의 자금 유출

을, 단순히 “투기적 광풍”이 아니라

AI 하드웨어·데이터센터 같은 실물투자의 더 높은 ROIC를 향한 자본 재배치로 해석해 볼 수도 있다.
(혹은 AI SaaS·PaaS 초기 투자 PE들의 일시적인 패닉셀에 기인한 일시적 수급 왜곡일 수도 있고.)

돌이켜보면, 2023년 해외 펀드 런칭 당시만 해도
우리 역시 관성에 따라 “AI 시대 승자는 SaaS·PaaS 레이어”라고 생각하곤 했다.
그러나 이후 기술의 진화 방향은

  • LLM 사업자가 기존 SaaS·PaaS를 대체하거나 내재화하기 시작했고,

  • 점차 AI 하드웨어, 특히 메모리, 그중에서도 VRAM으로 귀결되는 구조를 드러내고 있다.

그리고 오늘 아침 발표된 ChatGPT 5.3의 Agent 기능은,
이러한 흐름 위에서 또 한 번의 VRAM 수요 레벨업 이벤트가 될 수 있다는 생각이 들어,
복잡한 생각들을 아래와 같이 정리해 본다.


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


(클로드를 다시 앞서기 시작한 GPT 5.3)


1. Claude가 증명한 것: “LLM 기반 SaaS는 당장 돈이 된다”


1-1. 더 이상 “미래의 이야기”가 아니다


Anthropic은 Claude Code / Claude Cowork를 앞세워 엔터프라이즈 시장을 파고들고 있다.
대표 사례로 자주 언급되는 곳이 **IG Group(파생상품 트레이딩 회사)**이다.

공식 고객 스토리에 따르면 IG Group은 Claude 도입 후:

  • 애널리틱스 팀 기준 주당 약 70시간의 업무 시간을 절감

  • 일부 유즈케이스에서 생산성이 100% 이상 개선

  • 약 3개월 만에 ROI(투자금 회수) 달성
    (출처: https://claude.ai/customers/ig-group)

Anthropic은 별도의 리포트에서 실제 사용자 대화 10만 건을 분석해,
Claude가 노동 생산성을 어떻게 끌어올리는지 경제적 효과를 추정하기도 했다.
(출처: https://www.anthropic.com/research/estimating-productivity-gains)

이 정도면,

“LLM 기반 SaaS(코딩, 애널리틱스, 마케팅, 법률 등)는
더 이상 먼 미래의 Monetization이 아니라 이미 실무에서 돈이 되는 툴”


이라고 말해도 무리가 없다.

1-2. 이게 왜 CAPEX(훈련·추론 인프라 투자)를 정당화하나


구조는 단순하다.

  • Claude, ChatGPT, Kimi 같은 서비스는 토큰 단위로 과금한다.

  • 사용자는 **“사람이 할 일보다 AI가 하게 하는 것이 더 싸고 빠르다”**고 믿는 한,
    더 많은 토큰을 기꺼이 쓴다.

  • 기업 입장에서는 모델이 더 똑똑하고, 더 긴 문맥을 보고, 더 자동으로 일을 잘할수록
    유료 사용량이 자연스럽게 올라간다.

따라서,

더 큰 모델, 더 긴 컨텍스트, 더 많은 에이전트
= 더 높은 VRAM/HBM CAPEX
→ 동시에 더 많은 유료 SaaS 매출


이라는 구조가, 이미 실무 데이터로 입증되기 시작한 셈이다.


2. 메모리가 왜 병목이 되었나: KV 캐시 한 번만 짚고 가자


LLM 내부에서 일어나는 일을 아주 단순하게 줄이면 다음과 같다.

  1. 입력 텍스트를 토큰으로 쪼갠다.

  2. 각 레이어·어텐션 헤드마다 **Key/Value 벡터(K, V)**를 만든다.

  3. 새 토큰을 만들 때마다,
    지금까지 나온 토큰들의 K/V를 참조해 다음 토큰 확률을 계산한다.

이때 쌓이는 것이 바로 **KV 캐시(KV cache)**이다.

  • 컨텍스트가 4K → 128K가 되면
    KV 캐시는 컨텍스트 길이에 비례해 선형 증가한다.

  • 여기에 **배치 크기(동시 사용자 수)**가 곱해지면,
    총 KV 메모리는 컨텍스트 × 동시성에 비례해 커진다.

  • GPU VRAM(HBM)은 한정적이기 때문에,
    긴 컨텍스트 + 대량 동시 처리에서 KV 캐시가 결정적인 병목이 된다.

이 때문에 엔비디아는

핵심은 한 줄이다.

“더 오래 생각하고, 더 많은 문서를 한 번에 보고,
더 많은 사용자를 동시에 받으려면,
VRAM/HBM에 쌓아야 할 KV 캐시가 폭증한다.”


그래서 예전처럼 **FLOPS(연산량)**만이 아니라,
**VRAM/HBM(고속 메모리)**이 AI 인프라의 핵심 자원으로 올라온 것이다.


3. 에이전트 경쟁이 시작되면, 메모리는 어떻게 달라지나


3-1. Kimi K2.5: Agent Swarm과 VRAM 폭증의 구조

중국 Moonshot AI의 Kimi K2.5는 기술 블로그에서
자신들의 핵심 차별점으로 Agent Swarm을 내세웠다.

  • 복잡한 태스크를 처리할 때
    최대 100개의 서브 에이전트를 동적으로 생성하고
    최대 1,500번의 도구 호출을 병렬로 수행한다.

  • 이 덕분에 전통적인 단일 에이전트 구조 대비 최대 4.5배 빠른 처리 시간을 달성했다고 주장한다.
    (출처: https://www.kimi.ai/blog/kimi-k2-5)

직관적으로는 “똑똑한 비서 1명”이 아니라
**“작은 비서실 100명이 동시에 달라붙는 구조”**에 가깝다.

여기서 중요한 질문은 하나이다.

“왜 에이전트 수가 늘어나면 VRAM이 그렇게 많이 필요해지는가?”


3-1-1. 에이전트가 많아지면 추가로 드는 메모리들


에이전트가 1개일 때는 단순하다.

  • 한 모델에 일을 맡기고

  • 입력 → 출력만 주고받으면 된다.


이때 메모리의 대부분은

  • 모델 파라미터

  • 해당 세션의 KV 캐시

가 차지한다.


그러나 에이전트가 10개, 100개로 늘어나는 순간,
“분배하고, 중간 결과를 나누고, 다시 합치는” 시스템 전체가 추가로 필요해진다.
이 과정에서 다음 항목들이 VRAM을 더 갉아먹는다.

  1. 라우팅 정보

    • 어떤 토큰/서브태스크를 어느 에이전트에게 보낼지,
      각 에이전트에 주는 게이트 값(가중치) 등을 저장하는 메모리.

  2. 보내기용 버퍼(dispatch buffer)

    • 토큰을 “에이전트별로 묶어서” 보내기 위해
      데이터를 재배열해 담아두는 임시 공간.

  3. 되돌리기/합치기용 버퍼(combine buffer)

    • 여러 에이전트가 계산한 결과를
      원래 순서대로 재배열하고
      가중합으로 합쳐 하나의 출력으로 만드는 임시 공간.

  4. 패딩 메모리

    • 어떤 에이전트에는 토큰이 많이 가고,
      어떤 에이전트에는 거의 안 갈 수 있다.

    • GPU는 정형화된 크기를 선호하기 때문에
      토큰이 적게 배정된 에이전트 쪽에 **빈칸(패딩)**을 넣어 크기를 맞추고,
      이 패딩도 VRAM을 차지한다.

  5. 각 에이전트 내부의 activation 텐서

    • 각 에이전트가 계산하는 동안 잠깐씩 생겼다 사라지는 중간 결과 텐서들.

    • 에이전트 수와 배치 크기가 커질수록 이 activation도 함께 커진다.

정리하면,

  • KV 캐시는 원래도 필요하던 “대화 기록용 메모리”이고,

  • 에이전트가 많아지면 여기에
    “분배·통신·재조립”을 위한 추가 메모리 층이 한 겹 더 올라간다.


그래서 Agent Swarm 같은 구조는

“KV 캐시 폭발 + 라우팅/버퍼/패딩/activation 폭발”


이라는 이중 부담을 VRAM에 준다고 이해하면 된다.

이 때문에 엔비디아는

  • HBM 용량을 키우고

  • NVLink/NVSwitch로 수십~수백 개 GPU를 하나의 거대한 메모리 풀처럼 묶는
    GB200 NVL72 같은 랙 단위 시스템을 내놓고 있다.
    (GB200 NVL72 소개: https://www.nvidia.com/en-us/data-center/gb200/)


3-2. OpenAI Frontier: 회사 전체를 에이전트로 깔겠다는 선언

OpenAI의 Frontier는 아예 엔터프라이즈용 에이전트 플랫폼이다.

  • 기업이 여러 에이전트를 정의·온보딩·권한 관리·평가하고

  • 기존 시스템(SaaS, DB, 내부툴)에 붙여
    **“AI 동료(coworker)”**처럼 쓰게 하는 것이 목표이다.

  • Frontier는 에이전트에게
    공유 비즈니스 컨텍스트, 메모리, 평가·피드백 루프, 권한·경계를 제공해
    조직 내 파편화된 AI 도입을 통합하는 허브가 되겠다고 한다.
    (출처: https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)


핵심 문장은 대략 이런 취지이다.

“앞서가는 기업에서는 올해 말이면
대부분의 디지털 업무가
**‘사람 + 다수의 에이전트’**에 의해 수행될 것이다.”


즉 Frontier는 모델 성능 자체보다,
**“에이전트를 얼마나 많이·넓게 깔아서 실제 업무에 투입하느냐”**에 초점을 둔 플랫폼이다.

3-3. Claude Code / Cowork: 이미 돌아가는 에이전트 팀


Anthropic의 Claude Code는 개발자 IDE 안에서
사실상 “코드 담당 에이전트 팀”처럼 동작한다.

  • 더버지에 따르면, Anthropic 내부 개발자는
    5개 이상의 Claude 에이전트를 클라우드에서 상시로 돌리며
    한 달에 300개 이상의 PR을 날리는 수준
    까지 도달했다고 한다.

  • 엔터프라이즈 고객 중에는
    코드 작성의 70~90%를 Claude가 담당하는 사례도 보고되고 있다.
    (출처: https://www.theverge.com/2025/1/10/claude-code-opus-4-6-release)


이 사례들이 공통으로 보여주는 것은 명확하다.

앞으로의 경쟁은 “모델 하나 vs 모델 하나”가 아니라
“에이전트 네트워크 vs 에이전트 네트워크”가 된다.


그리고 이 구조에서 VRAM·KV 캐시 수요는 곱셈 효과를 갖게 된다.


4. VRAM 수요를 위한 개념 모델: L × A × T × V × U


이제부터는 **엄밀한 수식이 아니라, 직관을 위한 “개념 모델”**임을 먼저 밝힌다.

LLM/에이전트 시스템의 VRAM 수요는 대략 다음 요소들에 비례한다고 볼 수 있다.

  • L: Context length

    • 한 에이전트가 한 번에 보는 토큰 길이

    • 예: 8K, 32K, 128K, 1M …

  • A: Number of agents

    • 같은 업무를 위해 동시에 돌아가는 에이전트 수

    • 예: 단일 모델 1개 vs Swarm 10~100개

  • T: Session length

    • 한 세션(티켓·프로젝트·케이스)이 유지되는 턴 수/시간

    • 단발 Q&A냐, 며칠짜리 업무냐

  • V: Verification loops

    • 에이전트가 자기 검증·재시도·평가를 위해
      내부적으로 답을 여러 번 고쳐 쓰는 루프 수

  • U: Concurrent sessions

    • 동시에 돌아가는 세션 수(동시 사용자·동시 업무량)

개념적으로는 이렇게 쓸 수 있다.

VRAM 수요 ∝ L × A × T × V × U


실제 시스템의 메모리 사용량은 이보다 훨씬 복잡하고,
양자화·KV 캐시 공유·오프로딩 같은 최적화가 이 곱을 많이 깎아낸다.

그러나 **“어떤 항이 커질수록 VRAM 수요가 왜 폭증하는지”**를 이해하는 데에는
이 정도 단순화로도 충분하다.


5. 2025→2030, 세 가지 시나리오 (개념적 밴드)


이제 2025년을 기준으로 세 가지 시나리오를 설정해 본다.
(모든 수치는 **“가능한 범위를 가늠하기 위한 가설”**이지, 예측이 아니다.)

5-1. 기준선: 2025년 전통 LLM 서비스

  • L₀ ≈ 8K

  • A₀ = 1

  • T₀ = 1 (짧은 Q&A)

  • V₀ = 1 (재검증 거의 없음)

  • U₀ = 1 (정규화된 동시성)

이때 VRAM 수요를 1로 정한다.

5-2. 시나리오 ① 보수적 (Conservative)

에이전트는 일부 고급 업무에만 쓰이고,
대부분의 서비스는 여전히 “단일 에이전트 + 짧은 컨텍스트” 중심인 경우.

  • L: 8K → 32K (4배)

  • A: 1 → 3

  • T: 1 → 3

  • V: 1 → 2

  • U: 1 → 2


에이전트형 고급 워크로드 1개당 VRAM 계수는
수십~100배까지 늘어날 수 있다.

그러나 전체 워크로드 중 에이전트형 비중이 제한적이라고 보면,
AI 데이터센터용 고속 메모리(주로 HBM+DRAM) 수요는
2025→2030 동안 대략 5~10배 증가

보수적 밴드로 둘 수 있다.

5-3. 시나리오 ② 기준 (Base)


에이전트가 코딩, 리서치, 데이터 분석, 법률/컴플라이언스, 고객지원
고부가 지식 노동에서 **“기본 도구”**가 되는 경우.

  • L: 8K → 128K (16배)

  • A: 1 → 10 (여러 역할의 에이전트 팀)

  • T: 1 → 5 (티켓·프로젝트 단위 세션)

  • V: 1 → 3 (초안→검증→재작성)

  • U: 1 → 3 (에이전트 기반 워크로드 비중 증가)


이 경우, 에이전트형 고급 워크로드 1개당 VRAM 수요는
100~1,000배 수준까지 올라갈 수 있다.

최적화와 비에이전트 업무 비중을 감안하면,
AI 데이터센터용 고속 메모리 전체 수요는
10~20배 성장
정도를
“가능한 중심 시나리오 밴드”로 볼 수 있다.

5-4. 시나리오 ③ 공격적 (Aggressive)


“에이전트가 사실상 OS/업무 인터페이스가 된다”고 가정하는 상단 밴드이다.


이론상 개별 워크로드 VRAM 계수는
수천 배 이상까지도 치솟을 수 있다.

현실에서는 최적화·역할 분리·비에이전트 업무 등을 고려해야 하므로,
전체 AI 메모리 수요로 환산하면
20~30배 이상 정도를 상단 밴드로 열어두는 정도가 적절하다.

참고로, OpenAI의 “Stargate” 데이터센터 프로젝트에 대한 외부 분석에서는
2025년 기준으로만도 글로벌 DRAM 생산의 최대 40%를 OpenAI 한 회사가 쓸 수 있다는 전망이 나온 바 있다.

(출처: https://www.forbes.com/sites/janakirammsv/2024/04/12/openai-stargate-and-the-future-of-ai-infrastructure/)


이런 흐름이 여러 하이퍼스케일러로 확산된다고 가정하면,
20~30배 수준의 상단 밴드는
“과장”이라기보다 공격적이지만 상상 가능한 구간으로 해석할 수 있다.


6. “Frontier급 에이전트를 모두가 미친 듯이 쓰기 시작하면” VRAM 병목은 어떻게 터질까


이제, 질문 하나를 정면으로 들어보자.

“Frontier급 에이전트가 너무 좋아서,
OpenAI 전체 사용자들이 동시에 에이전트를 미친 듯이 쓰기 시작하면
VRAM 병목은 어떻게 될까?”


앞서 정의한 VRAM 개념식에서 보면,
이 상황은 사실상 **U(동시 세션 수)**가 갑자기 폭증하는 경우이다.

  • L, A, T, V는 이미 에이전트 도입으로 커진 상태

  • 여기에 U가 한 번에 튀어 오르면
    전체 VRAM 수요는 순식간에 “곱셈 결과”로 치솟는다.

6-1. 인프라 관점: 순서대로 벌어지는 일

  1. GPU HBM이 먼저 꽉 찬다

    • 각 GPU에는 이미

      • 모델 파라미터

      • 일부 KV 캐시

      • 에이전트 상태
        가 올라가 있다.

    • 동시 세션 U가 폭증하면

      • 배치당 컨텍스트 수

      • 세션별 KV 캐시
        가 합쳐져 HBM 사용률이 100% 부근까지 오른다.

  2. HBM이 꽉 차면, 속도와 실패율이 튀기 시작한다

    • 더 넣을 자리가 없거나,

    • KV 캐시를 DRAM/SSD로 자주 밀어냈다 다시 읽어야 해서
      지연시간(latency)이 급격히 악화된다.

    • 이때부터는

      • 응답 딜레이 증가

      • 간헐적 에러

      • 타임아웃
        이 체감되기 시작한다.

  3. 서비스 레벨에서 품질/기능을 줄이는 방향으로 수축한다


클라우드 사업자가 쓸 수 있는 전형적인 카드:

  • Rate limit / 쿼터

    • 사용자·조직별 QPS, 토큰량, 동시 세션 수를 제한

    • 일부 요청을 “거절”해서 전체 시스템 붕괴를 막는다.

  • Degrade 모드(품질 저하 모드)

    • 긴 컨텍스트 대신 자동 요약 후 짧은 컨텍스트로 재질의

    • 에이전트 병렬 실행 A를 줄이고, 가능하면 순차 실행

    • 검증 루프 V를 줄여 초안→1회 검증 정도로 제한

    • Frontier 에이전트에서 일부 고급 기능(장기 히스토리, 복수 에이전트 협업)을 일시 봉쇄

  • 모델 다운그레이드

    • 동일한 요청이라도

      • 상위 요금제/엔터프라이즈: 큰 모델 유지

      • 무료/저가 요금제: 작은 모델로 fallback

    • GPU당 더 많은 세션을 태우기 위해 품질을 다운시킨다.

  • KV 캐시 오프로딩 강화

    • VRAM이 가득 차면
      KV를 DRAM/SSD/원격 스토리지로 더 많이 밀어내고,
      필요할 때마다 다시 올려쓴다.

    • VRAM 병목은 완화되지만, 지연시간은 더 늘어난다.

정리하면, Frontier급 에이전트 사용량이 갑자기 폭발할 경우:

단기적으로는 VRAM 병목 → 속도 저하·에러·기능 제한이 나타나고,
중기적으로는 “HBM/VRAM이 절대적으로 부족하다”는 실측 데이터가 쌓이면서
다음 세대 CAPEX(메모리 증설)의 트리거로 작용하게 된다.


6-2. 에이전트 구조라서 더 심각한 이유

전통적인 챗봇이라면 U만 문제인데,
에이전트 구조에서는 이미 A, T, V까지 커져 있는 상태라 병목이 더 심각해진다.

  • 하나의 “요청”이 사실상

    • 플래너 에이전트

    • 다수의 서브 에이전트

    • 도구 호출

    • 재귀적 재질문·검증 루프
      로 쪼개져 있다.

  • 사용량이 폭증하면

    • U(요청 수)만 늘어나는 것이 아니라

    • 각 요청마다 내부에서 발생하는 에이전트 콜 수까지
      기하급수적으로 늘어난다.

그래서 백엔드 오케스트레이션 레이어는 피크 상황에서 보통 이렇게 조정할 수밖에 없다.

  • A(병렬 에이전트 수) 상한: 태스크당 에이전트 최대 N개, 그 이상은 순차

  • T(세션 길이)·재귀 깊이 제한: 너무 긴 에이전트 체인은 중간 요약 후 재시작

  • V(검증 루프) 축소: 평소 2~3회 돌리던 자기평가·재작성을 1회로 줄이거나 생략

즉, 피크에서 시스템이 하는 일은

L, A, T, V를 인위적으로 눌러
U 폭증을 겨우 감당하는 것


이라고 해석할 수 있다.

이 현상이 반복될수록,
**“에이전트 시대의 병목은 연산이 아니라 VRAM/HBM”**이라는 사실이
운영 데이터로 계속 확인되며,
결국 메모리·인터커넥트·데이터센터 CAPEX를 더 키우는 방향으로
경영진의 의사결정을 밀어붙이게 된다.


7. 그래프로 보는 직관: 2025→2030 VRAM 지수 시나리오


앞의 세 가지 시나리오(보수·기준·공격)를
단순한 지수 함수로 이어서 2025→2030 그래프로 그려보면 다음과 같다.

  • 2025년 AI 데이터센터용 VRAM 수요를 1.0으로 정규화하고,

  • 2030년에

    • 보수적: 7.5배,

    • 기준: 15배,

    • 공격적: 25배
      수준이 되도록 지수곡선을 맞춘 것이다.

세 곡선의 공통 특징은:

  • 2025→2027 구간에서는 비교적 완만하다.

  • 2028~2030 구간에서 기울기가 눈에 띄게 가팔라진다.

  • 이것이 바로 **“에이전트 시대에 메모리 수요가 선형이 아닌 지수곡선을 탈 수 있다”**는 구조를 직관적으로 보여준다.

자세히 보면,

  • Conservative:

    • 2027년 ≈ 2.7배, 2029년 ≈ 5배, 2030년 7.5배

  • Base:

    • 2027년 ≈ 3.6배, 2029년 ≈ 8.7배, 2030년 15배

  • Aggressive:

    • 2027년 ≈ 4배, 2028년 ≈ 7배, 2029년 13배+, 2030년 25배

이 그래프의 목적은 정확한 예측이 아니라,

“에이전트 도입 강도에 따라
같은 5년(2025→2030)이라도
메모리 수요 레벨이 1자릿수 배에서 25배 이상까지
크게 벌어질 수 있다.”


구조를 시각적으로 설명하는 데 있다.





8. 정리: Claude가 연 “현재형 수익”, Frontier·Kimi가 여는 “에이전트 시대”, 그리고 메모리


핵심을 다시 모으면 다음과 같다.

  1. Claude는 LLM 기반 SaaS가 이미 “지금 돈이 되는 사업”임을 증명했다.

  2. 이는 더 큰 모델·더 긴 컨텍스트·더 많은 추론 패스에 투자해도
    그만큼 매출로 회수 가능하다는 경제적 근거
    를 제공한다.

  3. 동시에 Kimi K2.5의 Agent Swarm, Anthropic의 Claude Code/팀,
    OpenAI의 Frontier/ChatGPT 5.3 Agents가 보여주듯,
    경쟁의 축은 **“모델”에서 “에이전트 네트워크”**로 이동하고 있다.
    (예: https://www.kimi.ai/blog/kimi-k2-5,
    https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)

  4. 에이전트 구조에서는
    컨텍스트 길이(L), 에이전트 수(A), 세션 길이(T), 검증 루프(V), 동시성(U)
    다섯 항이 모두 커지면서,
    VRAM/KV 캐시 수요는 단순 선형을 넘어 곱셈 구조로 커진다.
    (KV 캐시 및 오프로딩:
    https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/
    https://blocksandfiles.com/2026/01/06/nvidia-standardizes-gpu-cluster-kv-cache-offload-to-nvme-ssds/)

  5. 2025→2030에 대해

물론 실제 결과는

  • 규제 환경,

  • 모델·시스템 최적화 속도,

  • 클라우드 사업자 CAPEX 계획,

  • 경기 사이클

에 따라 크게 달라질 수 있을 것이다.

그럼에도,

“에이전트 경쟁이 본격화되는 한,
메모리는 연산보다 더 중요한 전략 자원이 된다.”


는 방향성 자체는
지금 나온 기술 발표·고객 사례·CAPEX 시그널들과 매우 잘 들어맞는다.

Claude와 같은 LLM 기반 SaaS 사업자

  • “VRAM을 태워 얻은 추론 능력”이
    실무와 수익으로 곧바로 연결되는 현재형 증거
    이고,


OpenAI·Google·엔비디아·메모리 업체들은

  • 이 구조를 전제로
    훈련·추론 인프라 CAPEX를 한 단계 더 올려도 된다
    정당성을 확보해 가는 중이라고 볼 수 있다.


Yahoofinance

#글을 마치며


" 맥락은 사고의 원동력입니다.
마치 사람이 기억하기 위해 메모를 하듯이,
AI 에이전트도 학습한 내용을 재사용할 수 있도록 작업을 저장해야 합니다(=메모리)."


- Kevin Deierling,
  Senior Vice President of Networking, NVIDIA.


만약 이 가설이 맞다면, 에너지 수요는 어떤 방향으로 재편될까?
생각만 더 복잡해진다.

투자 세계도 AI 확산으로 인해,
‘스토리’나 ‘감’에 기대기보다
과학계처럼 가설을 세우고, 데이터를 통해 검증하며,
논리적으로 반증 가능성을 점검하는 능력
이 점점 더 중요해지는 국면에 들어서는 듯하다.

=끝