지난밤 일부 기사에서 Micron이 Nvidia의 HBM4 경쟁에서 탈락했다는 내용을 접했다.

한편 업계에서는 HBM4가 과도기적(중간다리) 성격이 강하고, 실질적인 경쟁의 본무대는 HBM4E부터 시작될 것이라는 관측이 나온다.

Micron이 집중하겠다는 HBM4E 시장은 HBM4 시장과 얼마나 왜 어떻게 다를까?

HBM4와 HBM4E의 차이를 비교·분석한 내용을 정리해 글로 남겨본다.

Rubin Ultra NVL576: HBM4E 시대의 진짜 격전지

Rubin 세대에서 Vera Rubin NVL72와 **Rubin Ultra NVL576(Kyber Rack)**는 겉으로 보면 “같은 세대의 큰/작은 랙”처럼 보이지만, HBM 관점·전력 인프라 관점·데이터센터 경제성 관점에서 보면 완전히 다른 급의 제품이다.

특히 NVL576은 랙 하나에 들어가는 HBM4E 용량이 NVL72 대비 약 7배, 랙 전력은 약 5배까지 올라가면서, 자연스럽게 **HBM4E 공급사(삼성전자·SK하이닉스·마이크론)**의 “진짜 승부처”가 될 수밖에 없는 구조이다.

이 글은 다음 순서로 정리한다.

Blackwell → Vera Rubin: 기본 개념 정리
NVL72·NVL576 숫자의 의미
Vera Rubin NVL72 vs Rubin Ultra NVL576 스펙 비교
HBM 관점: 용량·대역폭·세대(HBM4 vs HBM4E)
전력·냉각·배전 구조의 차이
데이터센터 운영자 입장에서의 경제성
HBM 공급사(삼성·SK·마이크론) 입장에서 NVL576의 의미

1. Blackwell vs Vera Rubin: “지금 AI 공장” vs “다음 세대 AI 공장”

아주 단순화하면 다음과 같다.

Blackwell 세대는 “지금 돌아가는 AI 공장”을 만든 세대이고,
Vera Rubin 세대는 “다음 세대 AI 공장”을 염두에 두고, 데이터센터 전체를 단위로 다시 설계한 세대이다.

1) GPU·CPU 조합 자체가 바뀐다

Blackwell 세대
- Grace CPU + Blackwell GPU를 합친 GB200/GB300 슈퍼칩으로 랙을 구성한다.
- 랙 단위 제품이 GB200 NVL72 / GB300 NVL72이고, 5세대 NVLink로 72개의 GPU를 한 도메인으로 묶는다.
  NVIDIA GB200 NVL72 by HPE QuickSpecs 기준.(Hewlett Packard Enterprise)
Vera Rubin 세대
- Rubin GPU + Vera CPU라는 완전히 새로운 조합으로 랙을 설계한다.
- 엔비디아 공식 제품 페이지에 따르면 Vera Rubin NVL72는 랙 하나에 Rubin GPU 72개, Vera CPU 36개, NVLink 6 스위치, ConnectX-9, BlueField-4를 통합한 랙 스케일 시스템이다.
  NVIDIA Vera Rubin NVL72 (NVIDIA)

겉으로는 이름이 바뀐 수준처럼 보이지만, 실제로는 GPU·CPU·인터커넥트 세대가 통째로 교체되는 변화이다.

2) 메모리 세대: HBM3E → HBM4 → HBM4E

GB200/GB300 NVL72는 HBM3E 기반이다.(Hewlett Packard Enterprise)
Vera Rubin NVL72부터는 HBM4가 올라간다.
- Rubin GPU 1개당 288GB HBM4, 22TB/s 대역폭,
- NVL72 랙 전체로 **20.7TB HBM4, 1,580TB/s(≒1.58PB/s)**가 공식 스펙에 명시돼 있다.
  NVIDIA Vera Rubin NVL72 사양표 (NVIDIA)
Rubin Ultra NVL576에서는 한 단계 더 나아가 HBM4E가 채택된다.
- GTC 2025 발표를 정리한 여러 기사에 따르면 NVL576은 랙 기준 4.6PB/s의 HBM4E 대역폭과 수백 TB급 “fast memory”(HBM4E + CPU 메모리)를 제공하는 것으로 소개된다.(데이터 센터 다이나믹스)

즉 Rubin 세대의 큰 축은 **GPU의 연산 성능 향상 + HBM 세대 교체(HBM4 → HBM4E)**이다.

3) NVLink: 5세대 → 6세대 → 7세대

GB200/GB300 NVL72는 NVLink 5 기반이다.(Hewlett Packard Enterprise)
Vera Rubin NVL72는 NVLink 6를 사용하며,
GPU당 3.6TB/s, 랙 전체 260TB/s NVLink 대역폭이 공식 사양에 명시되어 있다.(NVIDIA)
Rubin Ultra NVL576에서는 NVLink 7으로 올라가며,
랙 단위 1.5PB/s급 NVLink 패브릭을 제공한다는 분석이 나온다.(데이터 센터 다이나믹스)

NVLink 세대가 올라갈수록 GPU 간 통신 레이턴시·대역폭이 좋아지고, 랙 내부를 하나의 거대한 가속기처럼 쓰기 쉬워진다.

4) “토큰당 비용”을 기준으로 다시 설계된 Rubin

엔비디아는 Vera Rubin NVL72 소개 페이지에서, Rubin 플랫폼이 Blackwell NVL72 대비:

같은 규모의 MoE 학습에 필요 GPU 수를 최대 4배까지 줄이고,
에이전틱 AI 추론에서 100만 토큰당 비용을 1/10 수준까지 낮출 수 있다고 설명한다.(NVIDIA)

이는 단순히 GPU 클럭·코어만 늘린 것이 아니라,

GPU·CPU·HBM·NVLink·네트워크·소프트웨어를 “토큰당 비용” 관점에서 재조합한 세대라는 뜻이다.

2. NVL72·NVL576 숫자는 무엇을 의미하나

1) NVL72

Vera Rubin NVL72 제품 페이지에서 구성은 다음과 같이 명시된다.(NVIDIA)
- Rubin GPU 72개
- Vera CPU 36개
Blackwell 세대의 GB200/GB300와 마찬가지로,
“72”는 랙 안에서 NVLink로 묶이는 GPU 패키지(또는 GPU 모듈)의 개수로 이해하면 자연스럽다.

2) NVL576 (Kyber Rack)

Rubin Ultra NVL576은 코드명 **“Kyber Rack”**으로 불리며, GTC 2025에서 공개된 차세대 랙 설계이다.(데이터 센터 다이나믹스)

여러 기술 기사와 Morgan Stanley 리포트 요약을 보면,
NVL576 랙에는 Rubin Ultra GPU 패키지 144개가 들어가고,
각 패키지 안에 4개의 컴퓨트 다이 + 여러 HBM4E 스택이 들어가는 구조로 설명된다.(Tom's Hardware)
여기서 **“576”은 GPU 다이(die) 수(144패키지 × 4다이)**를 반영한 이름으로 보는 해석이 지배적이다.

정리하면, 세대와 표기 방식 변화까지 감안할 때 현실적으로는 이렇게 이해하는 것이 좋다.

NVL72: “GPU 패키지 72개짜리 랙”
NVL576: “GPU 패키지 144개(총 576개 다이)짜리 초고밀도 랙”

초보자에게 설명할 때는 그냥

“NVL72는 큰 GPU 72개, NVL576은 그걸 2배 패키지 × 4배 다이로 올려버린 괴물 랙”

이라고 이해시켜도 무리가 없다.

3. Vera Rubin NVL72 vs Rubin Ultra NVL576: 랙 스펙 비교

아래 표는 랙 1대 기준으로, 공개·보도된 수치를 정리한 것이다.
Rubin Ultra 쪽은 아직 최종 양산 전이므로 “예상치·분석치”라는 점을 전제로 본다.

3-1. 랙 수준 주요 스펙 비교

여기서 눈에 들어오는 포인트는 세 가지이다.

HBM 용량: 20.7TB → 144TB (약 7배)
HBM 대역폭: 1.58PB/s → 4.6PB/s (약 3배)
랙 전력: 130kW대(Blackwell 기준) → 600kW급 (약 4.5~5배)

4. HBM 관점: “용량 7배 vs 대역폭 3배”의 의미

4-1. 왜 용량은 7배인데, 대역폭은 3배인가

수치만 다시 보자.

NVL72
- HBM4: 20.7TB, 1.58PB/s(NVIDIA)
NVL576
- HBM4E: 144TB, 4.6PB/s(데이터 센터 다이나믹스)

단순 비율은 다음과 같다.

용량: 144 ÷ 20.7 ≒ 6.96배 (약 7배)
대역폭: 4.6 ÷ 1.58 ≒ 2.9배 (약 3배)

왜 이렇게 차이가 날까?

핵심 이유를 정리하면 다음과 같다.

HBM4 → HBM4E는 “핀 속도 중심” 진화
- HBM4와 HBM4E 모두 2048bit 인터페이스를 유지하는 것으로 알려져 있다.
- HBM4E는 같은 폭에서 클럭(핀 속도)을 더 올려서 스택당 대역폭을 키우는 구조라, “스택 개수 × 폭”보다는 “속도”를 주로 올린다.
NVL576은 용량을 극단적으로 키운 시스템
- NVL576은 **GPU 패키지 수(144개)**와 패키지당 HBM4E 용량을 동시에 키우면서 총 용량을 크게 늘린 설계이다.
- 다만, 랙 전체 전력·전압·배전 한도를 맞추기 위해 대역폭/용량 비율은 NVL72보다 낮게 설계될 수밖에 없다.
메모리 계층 구조의 변화
- NVL576에서는 HBM4E + CPU쪽 LPDDR + NVLink 패브릭이 함께 동작하는 복합 메모리 계층 구조를 전제로 한다.
- 즉, HBM 하나만으로 모든 병목을 풀기보다는, 램 + 네트워크 + NVLink를 합쳐 종합적인 “토큰당 비용”을 줄이도록 설계된다.

다시 말해,

NVL576은 “총 메모리 용량을 극단적으로 늘려 초대형·초장기 시퀀스 모델을 수용”하는 방향,
**대역폭은 전력·배선 한도 내에서 최대한 높인 수준(약 3배)**로 보는 것이 현실적이다.

4-2. HBM4 vs HBM4E: 세대 차이를 직관적으로 요약하면

HBM4
- HBM3E 대비 속도·전력 효율이 개선된 차세대 HBM
- Rubin GPU 1개에 288GB HBM4, 22TB/s 대역폭을 붙이는 설계가 대표적이다.(NVIDIA)
HBM4E
- 같은 2048bit 인터페이스 기반에서 핀 속도·스택당 대역폭을 한 번 더 밀어붙인 확장 버전
- SK하이닉스·삼성 로드맵에서는 HBM4 양산(2026년 전후), HBM4E 상용화(2027년 전후)를 목표로 한다는 보도가 이어지고 있다.(SK hynix Newsroom -)

Rubin Ultra NVL576는 이 HBM4E를 랙당 약 144TB 규모로 집어넣는 플랫폼이라,
수주 1건당 HBM 물량이 매우 큰 시스템이라는 점에서 HBM 공급사들에 특별한 의미를 갖는다.

5. 전력·냉각·배전: 130kW대 랙 vs 600kW 랙

5-1. 랙 전력

Blackwell GB200 NVL72 (참고 기준)
- HPE QuickSpecs에 따르면 랙 TDP가 132kW(정격), 피크 설계 전력(EDPp)은 그 1.5배인 약 192kW이다.(Hewlett Packard Enterprise)
- Vera Rubin NVL72도 **비슷한 수준(100~150kW대)**로 설계될 가능성이 높지만, 아직 엔비디아가 공식 수치를 공개하진 않았다.
Rubin Ultra NVL576 (Kyber)
- DatacenterDynamics, Network World 등 GTC 2025 현장 기사들은 Kyber Rack(NVL576)의 랙당 전력을 600kW급으로 정리하고 있다.(데이터 센터 다이나믹스)

단순 배수로 보면,

NVL576 한 랙은 GB200 NVL72 기준 약 4.5~5배 전력을 먹는 초고밀도 랙이다.

5-2. 냉각: 수랭 필수 → 침지·2상 냉각 가능성

전력은 거의 그대로 **열(열부하)**이 된다.

Blackwell Ultra NVL72(GB300 기준)에서도, Morgan Stanley 리포트를 인용한 Tom’s Hardware 기사에 따르면
랙 하나에 들어가는 수랭 시스템 BOM이 약 5만 달러 수준으로 추정된다.(Tom's Hardware)
같은 기사에서, Vera Rubin NVL144로 가면 GPU TDP 증가로 인해 냉각 BOM이 약 17% 추가 상승할 것이라는 전망이 나온다.(Tom's Hardware)
Rubin Ultra GPU 패키지는 TDP가 3,600W 수준까지 올라갈 것으로 예상되며, 이 때문에 특수 콜드플레이트 혹은 침지식/임베디드 냉각이 필요할 것이라는 분석이 많다.(Tom's Hardware)

즉,

NVL72에서 “본격 수랭 시대”가 열렸다면, NVL576부터는 “침지·2상 냉각까지 검토하는 초고밀도 랙 시대”로 넘어간다고 정리할 수 있다.

5-3. 배전: 54V DC → 800V HVDC

엔비디아는 별도의 기술 블로그에서, AI 팩토리용 800V HVDC 전력 아키텍처를 공식 발표했다.(NVIDIA 开发者)

핵심 포인트는 다음과 같다.

지금의 NVL72 랙(GB200/GB300)은 랙 내부 54V DC 버스바를 기준으로 설계돼 있다.(Hewlett Packard Enterprise)
하지만 200kW를 넘어 1MW까지 가는 랙에서 54V를 그대로 쓰면
- 구리 버스바가 수백 kg 단위로 필요하고,
- 전압이 낮아 전류가 크게 늘어나면서 손실·발열·공간 문제 모두 커진다.(NVIDIA 开发者)
그래서 2027년부터 800V HVDC로 전력 인프라를 전환해,
1MW급 Kyber 랙(= Rubin Ultra NVL576)을 운영하겠다는 로드맵을 제시한다.(NVIDIA 开发者)

이 구조의 효과는 다음과 같이 정리된다.

전력 효율: 54V 대비 엔드투엔드 효율 최대 +5%
유지보수비: PSU 수·복잡성 감소로 유지보수 비용 최대 –70%
구리 사용량: 고전압 직류로 전류를 줄여 버스바 구리 사용량 감소(NVIDIA 开发者)

따라서 전력 관점에서 본다면,

NVL72는 “기존 54V 인프라를 최대한 활용하는 세대”,
NVL576은 “800V HVDC를 전제로 한 600kW~1MW급 차세대 AI 공장 세대”라고 구분하는 것이 정확하다.

6. 데이터센터 운영자 입장에서의 경제성

6-1. 성능 밀도: NVL72 vs NVL576

Vera Rubin NVL72
- NVFP4 기준 3,600 PFLOPS(= 3.6 EFLOPS), HBM4 20.7TB(NVIDIA)
Rubin Ultra NVL576
- FP4 기준 15 EFLOPS, FP8 기준 5 EFLOPS
- GB300 NVL72 대비 약 14배 랙당 성능으로 소개된다.(데이터 센터 다이나믹스)

Rubin NVL72 자체도 이미 Blackwell 대비 “토큰당 비용 1/10”을 목표로 한 세대이지만,(NVIDIA)
NVL576은 거기서 다시 수 배 더 높은 랙당 성능 밀도와 훨씬 큰 메모리 풀을 제공하는 구조이다.

6-2. Capex: 설비투자 문턱

NVL72
- 130kW 전후의 랙을 수랭으로 받는 것은, 기존 데이터센터 인프라를 강화하는 수준에서 대응이 가능하다.
- 전용 1MW급 모듈형 변전·800V HVDC까지는 가지 않아도 된다.
NVL576
- 600kW 랙 하나를 기준으로 보면,
  - 전용 800V HVDC 전력 인프라,
  - 고가의 침지·2상 냉각 혹은 초고성능 콜드플레이트,
  - 고밀도 랙을 받기 위한 전용 건물·수배전 설계가 필요하다.
- 사실상 **하이퍼스케일러급(미국·중국 빅테크, 일부 초대형 클라우드)**만 감당 가능한 레벨이다.

6-3. Opex: 전력·냉각·유지보수

NVL72
- kW당 비용이 높아도, 개별 랙 전력 자체는 아직 100kW대라
  현행 시설에서 조금씩 확장하며 운영하기 좋은 스윗스팟이다.
NVL576
- 초기 인프라 투자는 크지만,
- 800V HVDC 전환과 고효율 냉각으로 전력 손실·냉각비를 줄이고,
- 같은 부지에서 훨씬 많은 토큰·파라미터를 처리하는 것이 가능해진다.(NVIDIA 开发者)

즉 TCO(Total Cost of Ownership) 관점에서는,

중소형 사업자·호스팅 업체: NVL72가 현실적인 상한
하이퍼스케일러: NVL576을 전제로 전력·냉각 인프라를 같이 재설계하면서,
장기적으로 토큰당 비용을 최소화하는 쪽으로 갈 인센티브가 크다.

7. HBM 공급사(SK하이닉스·삼성전자·마이크론) 입장에서 NVL576의 의미

7-1. NVL72 ↔ NVL576, 1년 남짓의 텀

출시 시점을 다시 보면 다음과 같다.

Vera Rubin NVL72: 2026년 하반기(2H 2026) 출하 예정(NVIDIA)
Rubin Ultra NVL576 (Kyber): 2027년 하반기(2H 2027) 출하 예정(데이터 센터 다이나믹스)

즉 두 세대 사이의 텀은 1년 남짓이다.

이 말은 곧,

NVL72는 Rubin/HBM4 조합의 “초기도입·전환기 모델” 역할을 하고,
NVL576에서 HBM4E 기반 대규모 도입이 본격화된다고 해석할 수 있다.

7-2. 랙당 HBM 수요의 점프

HBM 관점에서 수치만 보면 더욱 극적이다.

Vera Rubin NVL72: 20.7TB HBM4, 1.58PB/s
Rubin Ultra NVL576: 144TB HBM4E(추정), 4.6PB/s

→ 랙 한 대 기준으로 HBM 용량은 약 7배, 대역폭은 약 3배 증가한다.

이 구조는 HBM 공급사 입장에서는 다음을 의미한다.

NVL72
- HBM4 세대의 성능·전력 특성이 실제 워크로드에서 어떻게 나오는지 검증하는 시범 무대
- 엔비디아·고객사·HBM 공급사가 툴체인·패키지·수랭 설계를 튜닝하는 단계
NVL576
- 같은 고객이, 같은 Rubin 계열 플랫폼 안에서 랙당 HBM 수요를 7배까지 늘리는 업그레이드
- NVL576 수주를 많이 확보하는 HBM 업체일수록 HBM4E 매출·마켓쉐어를 크게 가져갈 가능성

여기에 HBM4·HBM4E 로드맵까지 겹친다.

SK하이닉스·삼성전자는 2026년 HBM4 양산, 2027년 HBM4E 상용화를 목표로 하고 있으며,(SK hynix Newsroom -)
엔비디아 Rubin Ultra NVL576의 출하 시점(2H27)과 거의 맞물린다.

결국,

Vera Rubin NVL72는 Rubin/HBM4 생태계를 다지는 “전환기 모델”에 가깝고,
Rubin Ultra NVL576부터가 **HBM4E를 둘러싼 삼성·SK·마이크론의 “진짜 전장(격전지)”**가 될 가능성이 높다.

NVL72에서 만족스러운 안정성·성능·전력 특성을 제공한 HBM 공급사일수록
NVL576·그 이후 1MW급 Kyber 계열 랙에서 우선적으로 채택될 확률이 커진다.
반대로 NVL576에서 특정 업체의 HBM4E가 패키징·전력·온도에서 문제를 일으킬 경우,
한 랙에서 수십~수백억 원 규모의 HBM 공급 계약이 통째로 경쟁사로 넘어갈 수 있다.

8. 정리: 왜 NVL576이 “HBM4E 격전지”인가

요약하면 다음과 같다.

아키텍처
- Blackwell → Vera Rubin은 GPU·CPU·HBM·NVLink 세대를 통째로 교체하면서
  “토큰당 비용”을 기준으로 재설계한 세대 전환이다.
명칭
- NVL72: Rubin GPU 72개인 랙
- NVL576: Rubin Ultra GPU 패키지 144개(총 576개 다이)인 Kyber 랙
HBM 스펙
- NVL72: 20.7TB HBM4, 1.58PB/s
- NVL576: 약 144TB HBM4E, 4.6PB/s
  → 용량 7배, 대역폭 3배
전력·냉각·배전
- NVL72: 130kW대 랙(GB200 기준), 수랭 필수
- NVL576: 600kW 랙, 800V HVDC + 침지/2상 냉각까지 요구되는 초고밀도 랙
데이터센터 경제성
- 중·소형 사업자: 현실적 상한은 NVL72
- 하이퍼스케일러: NVL576을 전제로 전력·냉각 인프라를 재설계하면서 장기적인 토큰당 비용 최소화를 추구
HBM 공급사 관점
- 2H26: Vera Rubin NVL72로 HBM4 생태계 검증
- 2H27: Rubin Ultra NVL576에서 HBM4E 대규모 도입 본격화
  → NVL576 랙 설계·수주를 누가 선점하느냐가 HBM4E 시장 판도를 좌우할 가능성이 크다.

이 구조를 염두에 두고 보면,
**“차세대 HBM 시장의 격전지는 어디인가?”**라는 질문에 대한 답은 자연스럽게 하나로 수렴한다.

Rubin Ultra NVL576 (Kyber Rack)
여기서의 성패가, HBM4E 시대의 승자와 패자를 가르는 분수령이 될 가능성이 크다.

=끝

나만의 투자이야기

2026년 2월 8일 일요일

생각정리 177 (* Nvidia Rubin Ultra Kyber Rack)