그래서 GPU의 연산 병목을 덜어주기 위해 인근 메모리 기능의 계층화가 더 세분화되는 중이다. 한정된 물리적 공간 안에 최대한 효율적으로 메모리를 집적해야 하니, 연산 기능 분담과 메모리 계층 분화가 동시에 진행되는 양상이다.
1) 큰 그림: 지금 계층화가 왜 필요한가
대규모 모델 추론은 크게 **프리필(pre-fill, 컨텍스트 구성)**과 **디코드(decode, 토큰 생성)**로 나뉜다. 최근 엔비디아는 이 두 단계를 **분리형(disaggregated)**으로 처리해 HBM 병목을 낮추는 로드맵을 제시했고, 프리필을 전담하는 **전용 가속기(CPX)**까지 분리했다. Rubin CPX는 NVFP4 기준 30 PFLOPS, 128 GB GDDR7을 탑재하며, Vera Rubin NVL144 CPX(Rubin GPU 144 + Rubin CPX 144 + Vera CPU 36) 구성으로 장문 컨텍스트 추론 처리량을 끌어올린다는 공식 설명이 공개되어 있다. (NVIDIA Developer)
2) 왜 지금, 추론시장의 메모리 계층화가 더 빨라질 수밖에 없는가
(a) CoWoS 공급 병목이 구조적이다.
HBM은 **첨단 패키징(CoWoS)**과 TSV·서브스트레이트 등 복합 공정이 필수라 증설 리드타임이 길다. TSMC는 2024~2025년 연속 증설과 더불어 2024년·2025년에 용량을 두 배 수준으로 확대한다고 밝혔지만, 여전히 “수요가 공급을 앞선다”고 공식적으로 언급했다. 공급-수요 균형은 2025~2026년을 바라본다는 보도가 이어진다. 동시에 **외주(OSAT) 활용(ASE·SPIL·Amkor 등)**로 병목을 완화하려는 움직임이 확인된다. (TrendForce)
(b) ‘TSMC도 감당 못 하는’ 단위 수요가 가시화된다.
일부 투자기관 추정이 인용된 보도에 따르면 2026년 CoWoS 패키징 부족분 약 40만장, 2027년 약 70만장 수준의 격차가 발생할 수 있다는 전망이 있다(추정치·불확실성 유의). 이는 HBM만으로는 추론 수요를 따라가기 어렵다는 정량적 시그널로, HBM 외부 계층(GDDR7/CPX·SoCAMM2·HBF) 확장이 불가피함을 시사한다. (SMBOM)
(c) 전력·냉각·그리드 제약(TCO)**이 심화된다.
IEA는 **데이터센터 전력 소비가 2030년까지 약 두 배(945 TWh 수준)**로 증가할 것이라 본다. 가트너는 2027년까지 AI 데이터센터의 40%가 전력 제약으로 운영에 제약을 받을 수 있다고 경고한다. **전력/GB가 낮은 DRAM/플래시 계층(SoCAMM2·HBF)**을 추가해 성능/W·용량/W를 끌어올리는 방향이 불가피하다. (IEA)
(d) 워크로드의 장문화와 KV-캐시 폭증.
128k→1M 토큰급 롱컨텍스트로 가면서 KV-캐시가 추론 메모리의 지배 요소로 부상했다. 운용 상식은 **“핫 KV는 HBM/CPX, 본체는 SoCAMM2, 아카이브는 HBF”**로 나누고 프리페치→승격을 반복하는 것이다. (개념상 설명은 아래 5) 참조)
(e) 제품·표준의 가시화.
– Rubin CPX: 프리필 전담 가속기로 연산엔진+128 GB GDDR7 결합, 분리형 추론을 공식 제품화. (NVIDIA Developer)
– SoCAMM2(LPDDR5X): JEDEC CAMM2 커넥터 성능 표준 PS-007A 발표로 모듈형 저전력 DRAM의 교체·확장성 기반이 마련. (StorageNewsletter)
– HBF(High Bandwidth Flash): Kioxia 5 TB·64 GB/s 근접 플래시 모듈 프로토타입과 SanDisk–SK hynix 표준화 협력으로 TB급 저전력/GB 계층이 현실화 단계. (Kioxia Singapore Pte. Ltd.)
(f) 단위 에너지·비트 비용 격차.
GDDR7은 GDDR6 대비 전력 효율 약 20% 개선, LPDDR5X는 서버-워크로드에서 전력 효율·성능/W 우위를 보인다. 반면 HBM은 GB당 원가·열/패키징 비용이 높다. 용도별로 다른 매체를 섞는 계층화가 TCO 최적화의 정석이 된다. (Samsung Global Newsroom)
3) 계층별 역할 한눈에 정리
계층·데이터 흐름 다이어그램: HBF → SoCAMM2(버퍼/캐시) → HBM → GPU, 그리고 SoCAMM2 → CPX(GDDR7) → HBM 경로를 한눈에 볼 수 있다.
용량–대역폭/지연 트레이드오프 맵: HBM, CPX+GDDR7, SoCAMM2(LPDDR5X), HBF의 상대적 위치를 표시했다.
4) 프리필은 왜 GDDR7/CPX가 맡고, SoCAMM2는 무엇을 보완하나
-
프리필(대량 연산·넓은 외부 대역폭 지향): CPX(프리필 전용 연산) + GDDR7(고대역폭 DRAM) 조합이 적합하다. 메인 GPU의 HBM은 디코드/어텐션 등 실시간성이 높은 작업에 집중시키는 구조다. (NVIDIA Developer)
-
SoCAMM2(LPDDR5X, 용량·전력/GB 지향): KV-캐시 본체, RAG 임베딩 풀, 스테이징/프리페치 버퍼 등 용량 지배형 작업을 담당한다. 모듈형 표준이므로 교체·확장·운영 편의가 높다. (StorageNewsletter)
5) HBF는 SoCAMM2보다 더 아래층
HBF는 DRAM이 아닌 플래시 기반으로 지연은 더 크지만 TB급 용량·전력/GB·비용/GB에서 우월하다. 따라서 장문 컨텍스트 아카이브·대규모 임베딩·순차 I/O 버퍼를 담당하고, 필요한 데이터는 프리페치 → SoCAMM2 → HBM/CPX로 단계 승격한다. (Kioxia Singapore Pte. Ltd.)
6) KV-캐시·버퍼를 직관적으로
-
KV-캐시: “이미 계산해 둔 어텐션의 K·V 카드”를 모아두는 저장소. 재계산을 피하기 위해 여러 번 읽는다. 핫한 일부는 HBM/CPX, 덩치 큰 본체는 SoCAMM2, 아주 큰 기록은 HBF에 두고 미리 끌어올린다(프리페치).
-
버퍼: “느리고 먼 저장소(HBF/SSD) ↔ 빠르고 가까운 연산부(HBM/CPX)” 사이의 대기·정렬 공간. 보통 SoCAMM2에 만들고 연속 블록화·형식 변환·더블 버퍼링으로 스톨을 없앤다.
7) 세대별 로드맵 메모
-
Blackwell(GB300 NVL72): HBM3e·NVLink 5 기반 대규모 랙 구성이 확정 운영 중(예: Azure GB300 NVL72). 랙당 고속 메모리는 보도 기준 37 TB 수준이 제시된다. (Tom's Hardware)
-
Rubin: CPX 본격 채용. 30 PFLOPS(NVFP4), 128 GB GDDR7, NVL144 CPX 구성이 공식 문서로 소개됨. (NVIDIA Developer)
-
SoCAMM2: **JEDEC 표준 기반(PS-007A)**으로 서버/데이터센터 적용 논의 진행. (StorageNewsletter)
-
HBF: 프로토타입·표준화 협력 단계(초기 상용화 2027 전후 관측). (Kioxia Singapore Pte. Ltd.)
8) 운영 체크리스트(요지)
-
병목 위치를 먼저 판별: 프리필 처리량이면 CPX/GDDR7, 용량·전력/GB면 SoCAMM2, 초대용량 저장이면 HBF를 증설.
-
승격 경로를 설계: HBF → SoCAMM2(버퍼/캐시) → HBM/CPX로 프리페치·승격 자동화.
-
레이아웃/전송 정렬: SoCAMM2에서 연속 블록화·형식 변환 후 HBM/CPX로 밀어 넣기.
-
운영 지표: HBM/CPX 사용률, 프리페치 히트율, 연속 I/O 비중, 스톨 시간.
9) 메모리 계층화에 따른 ‘패키지 기판' 변화
한눈에 보는 매핑
왜 계층마다 기판이 달라지는가
-
신호 무결성(SI) 요구가 다르다
-
HBM/CPX는 핀당 속도와 총 대역폭이 높아 초미세 L/S, 저손실·저유전율, 짧은 경로, 비아-인-패드, 차동·임피던스 제어가 필수다.
-
SoCAMM2는 전력/GB와 면적 효율이 우선이므로, 고층 HDI·전력 평면 최적화와 커넥터 접속 신뢰성이 핵심이다.
-
HBF는 **링크 속도(PCIe/CXL)**를 안정적으로 받치기 위한 저손실 보드 스택업과 리타이밍/EMI 억제가 중요하다.
-
-
전력 분배(PI)와 열/기계 요구가 다르다
-
HBM/로직 ABF는 전류 밀도·전력 평면 품질과 워페이지 제어가 가장 까다롭다(적층·대면적 패키지).
-
GDDR7 다수 실장은 스위칭 노이즈와 동시 스위칭(Simultaneous Switching Noise) 대책이 관건이다.
-
SoCAMM2는 저전력/GB가 장점인 만큼 균일한 전원 분배와 커넥터 접촉/클램프 강성이 포인트다.
-
HBF 모듈은 컨트롤러 발열과 TB급 집적에 따른 전력 피크를 보드에서 흡수해야 한다.
-
-
폼팩터·조립 공정이 다르다
-
HBM: 실리콘 인터포저/하이브리드 본딩 등 어셈블리 자체가 패키징 산업의 첨단에 있다.
-
GDDR7: FC-CSP(BT) 패키지를 대량 배열로 보드에 실장. 패키지/보드 동시 코디자인 필요.
-
SoCAMM2: 압착식(CAMM2) 커넥터와 모듈화가 특징. 유지보수/확장성 중심의 기계 설계가 동반된다.
-
HBF: **모듈 표준(향후)**에 맞춘 커넥터·가이드/스티프너와 고속 링크 신호 조건이 결합된다.
-
설계자가 챙길 체크리스트
-
어느 계층에 무엇을 둘 것인가: “HBM(핫 워킹셋)–CPX/GDDR7(프리필)–SoCAMM2(KV 본체/버퍼)–HBF(아카이브)”가 기본.
-
패키지/기판 코디자인:
-
HBM/로직: ABF + 인터포저 설계 룰, 파워/그라운드 네트워크와 열 경로를 먼저 잡을 것.
-
GDDR7: 패키지 기판의 손실·스텝·층간 비아와 보드 라우팅을 함께 최적화.
-
SoCAMM2: HDI 스택업, 커넥터 압착력, 모듈 워페이지 규격을 맞출 것.
-
HBF: PCIe/CXL 채널 예산(삽입손실/반사), 리타이머 배치, EMI/접지 전략.
-
-
공정·공급망: HBM/인터포저(코어 공정)와 ABF는 첨단 패키징 캐파에 민감하고, GDDR·LPDDR·NAND 쪽은 BT·HDI 패널 공정의 스루풋·수율이 관건이다.
요약
-
메모리 계층화가 진전될수록 **패키지 기판과 모듈/보드 설계는 계층의 역할에 맞게 ‘각기 다른 기술 스택’**을 요구한다.
-
HBM은 인터포저+ABF의 초고난도 패키징, CPX/GDDR7은 고속 DRAM 다량 실장과 저손실 보드, SoCAMM2는 모듈형 HDI와 커넥터 신뢰성, HBF는 플래시 대용량·고속 링크 보드로 갈라진다.
-
결과적으로 패키징/서브스트레이트 업체 포트폴리오도 계층별로 분화되고, 시스템 사업자는 계층-패키지-보드 코디자인을 통해 성능/W와 TCO를 동시에 맞추는 방향으로 갈 수밖에 없다.
결론
참고(핵심 근거)
Rubin CPX: 30 PFLOPS(NVFP4), 128 GB GDDR7, NVL144 CPX 구성. (NVIDIA Developer)
GB300 NVL72(Blackwell) 랙 구성·메모리 수치(보도). (Tom's Hardware)
JEDEC LPDDR5 CAMM2 커넥터 표준(PS-007A). (StorageNewsletter)
HBF: Kioxia 5 TB·64 GB/s 프로토타입, SanDisk–SK hynix 표준화 협력. (Kioxia Singapore Pte. Ltd.)
IEA 데이터센터 전력 전망·가트너 전력 제약 전망. (IEA)
TSMC CoWoS: 증설에도 수요 초과(공식/보도)·OSAT 아웃소싱, 2026~2027년 부족 추정치. (TrendForce)
=끝
댓글 없음:
댓글 쓰기