2025년 11월 9일 일요일

생각정리 115 (* 메모리 계층, 패키지 기판)

메모리 계층화에 대한 이해도가 낮아 용어별로 헷갈림이 있어서 이참에 관련된 내용 공부를 기록해본다. 현재 GPU 성능이 나오지 않는 1차적인 이유는 메모리 병목, 그중에서도 HBM 병목이 가장 심하다고 한다.

그래서 GPU의 연산 병목을 덜어주기 위해
인근 메모리 기능의 계층화가 더 세분화되는 중이다. 한정된 물리적 공간 안에 최대한 효율적으로 메모리를 집적해야 하니, 연산 기능 분담메모리 계층 분화가 동시에 진행되는 양상이다.


1) 큰 그림: 지금 계층화가 왜 필요한가

대규모 모델 추론은 크게 **프리필(pre-fill, 컨텍스트 구성)**과 **디코드(decode, 토큰 생성)**로 나뉜다. 최근 엔비디아는 이 두 단계를 **분리형(disaggregated)**으로 처리해 HBM 병목을 낮추는 로드맵을 제시했고, 프리필을 전담하는 **전용 가속기(CPX)**까지 분리했다. Rubin CPXNVFP4 기준 30 PFLOPS, 128 GB GDDR7을 탑재하며, Vera Rubin NVL144 CPX(Rubin GPU 144 + Rubin CPX 144 + Vera CPU 36) 구성으로 장문 컨텍스트 추론 처리량을 끌어올린다는 공식 설명이 공개되어 있다. (NVIDIA Developer)


2) 왜 지금, 추론시장의 메모리 계층화가 더 빨라질 수밖에 없는가

(a) CoWoS 공급 병목이 구조적이다.

HBM은 **첨단 패키징(CoWoS)**과 TSV·서브스트레이트 등 복합 공정이 필수라 증설 리드타임이 길다. TSMC는 2024~2025년 연속 증설과 더불어 2024년·2025년에 용량을 두 배 수준으로 확대한다고 밝혔지만, 여전히 “수요가 공급을 앞선다”고 공식적으로 언급했다. 공급-수요 균형은 2025~2026년을 바라본다는 보도가 이어진다. 동시에 **외주(OSAT) 활용(ASE·SPIL·Amkor 등)**로 병목을 완화하려는 움직임이 확인된다. (TrendForce)

(b) ‘TSMC도 감당 못 하는’ 단위 수요가 가시화된다.

일부 투자기관 추정이 인용된 보도에 따르면 2026년 CoWoS 패키징 부족분 약 40만장, 2027년 약 70만장 수준의 격차가 발생할 수 있다는 전망이 있다(추정치·불확실성 유의). 이는 HBM만으로는 추론 수요를 따라가기 어렵다는 정량적 시그널로, HBM 외부 계층(GDDR7/CPX·SoCAMM2·HBF) 확장이 불가피함을 시사한다. (SMBOM)




(c) 전력·냉각·그리드 제약(TCO)**이 심화된다.

IEA는 **데이터센터 전력 소비가 2030년까지 약 두 배(945 TWh 수준)**로 증가할 것이라 본다. 가트너는 2027년까지 AI 데이터센터의 40%가 전력 제약으로 운영에 제약을 받을 수 있다고 경고한다. **전력/GB가 낮은 DRAM/플래시 계층(SoCAMM2·HBF)**을 추가해 성능/W·용량/W를 끌어올리는 방향이 불가피하다. (IEA)


(d) 워크로드의 장문화와 KV-캐시 폭증.

128k→1M 토큰급 롱컨텍스트로 가면서 KV-캐시가 추론 메모리의 지배 요소로 부상했다.
운용 상식은 **“핫 KV는 HBM/CPX, 본체는 SoCAMM2, 아카이브는 HBF”**로 나누고 프리페치→승격을 반복하는 것이다. (개념상 설명은 아래 5) 참조)

(e) 제품·표준의 가시화.

Rubin CPX: 프리필 전담 가속기로 연산엔진+128 GB GDDR7 결합, 분리형 추론을 공식 제품화. (NVIDIA Developer)

SoCAMM2(LPDDR5X): JEDEC CAMM2 커넥터 성능 표준 PS-007A 발표로 모듈형 저전력 DRAM의 교체·확장성 기반이 마련. (StorageNewsletter)

HBF(High Bandwidth Flash): Kioxia 5 TB·64 GB/s 근접 플래시 모듈 프로토타입SanDisk–SK hynix 표준화 협력으로 TB급 저전력/GB 계층이 현실화 단계. (Kioxia Singapore Pte. Ltd.)

(f) 단위 에너지·비트 비용 격차.

GDDR7은 GDDR6 대비 전력 효율 약 20% 개선
, LPDDR5X는 서버-워크로드에서 전력 효율·성능/W 우위를 보인다. 반면 HBM은 GB당 원가·열/패키징 비용이 높다. 용도별로 다른 매체를 섞는 계층화가 TCO 최적화의 정석이 된다. (Samsung Global Newsroom)


3) 계층별 역할 한눈에 정리




계층·데이터 흐름 다이어그램
: HBF → SoCAMM2(버퍼/캐시) → HBM → GPU, 그리고 SoCAMM2 → CPX(GDDR7) → HBM 경로를 한눈에 볼 수 있다.



용량–대역폭/지연 트레이드오프 맵: HBM, CPX+GDDR7, SoCAMM2(LPDDR5X), HBF의 상대적 위치를 표시했다.



4) 프리필은 왜 GDDR7/CPX가 맡고, SoCAMM2는 무엇을 보완하나

  • 프리필(대량 연산·넓은 외부 대역폭 지향): CPX(프리필 전용 연산) + GDDR7(고대역폭 DRAM) 조합이 적합하다. 메인 GPU의 HBM은 디코드/어텐션 등 실시간성이 높은 작업에 집중시키는 구조다. (NVIDIA Developer)

  • SoCAMM2(LPDDR5X, 용량·전력/GB 지향): KV-캐시 본체, RAG 임베딩 풀, 스테이징/프리페치 버퍼용량 지배형 작업을 담당한다. 모듈형 표준이므로 교체·확장·운영 편의가 높다. (StorageNewsletter)


5) HBF는 SoCAMM2보다 더 아래층

HBF는 DRAM이 아닌 플래시 기반으로 지연은 더 크지만 TB급 용량·전력/GB·비용/GB에서 우월하다. 따라서 장문 컨텍스트 아카이브·대규모 임베딩·순차 I/O 버퍼를 담당하고, 필요한 데이터는 프리페치 → SoCAMM2 → HBM/CPX단계 승격한다. (Kioxia Singapore Pte. Ltd.)


6) KV-캐시·버퍼를 직관적으로

  • KV-캐시: “이미 계산해 둔 어텐션의 K·V 카드”를 모아두는 저장소. 재계산을 피하기 위해 여러 번 읽는다. 핫한 일부HBM/CPX, 덩치 큰 본체SoCAMM2, 아주 큰 기록HBF에 두고 미리 끌어올린다(프리페치).

  • 버퍼: “느리고 먼 저장소(HBF/SSD) ↔ 빠르고 가까운 연산부(HBM/CPX)” 사이의 대기·정렬 공간. 보통 SoCAMM2에 만들고 연속 블록화·형식 변환·더블 버퍼링으로 스톨을 없앤다.


7) 세대별 로드맵 메모

  • Blackwell(GB300 NVL72): HBM3e·NVLink 5 기반 대규모 랙 구성이 확정 운영 중(예: Azure GB300 NVL72). 랙당 고속 메모리는 보도 기준 37 TB 수준이 제시된다. (Tom's Hardware)

  • Rubin: CPX 본격 채용. 30 PFLOPS(NVFP4), 128 GB GDDR7, NVL144 CPX 구성이 공식 문서로 소개됨. (NVIDIA Developer)

  • SoCAMM2: **JEDEC 표준 기반(PS-007A)**으로 서버/데이터센터 적용 논의 진행. (StorageNewsletter)

  • HBF: 프로토타입·표준화 협력 단계(초기 상용화 2027 전후 관측). (Kioxia Singapore Pte. Ltd.)





8) 운영 체크리스트(요지)

  1. 병목 위치를 먼저 판별: 프리필 처리량이면 CPX/GDDR7, 용량·전력/GB면 SoCAMM2, 초대용량 저장이면 HBF를 증설.

  2. 승격 경로를 설계: HBF → SoCAMM2(버퍼/캐시) → HBM/CPX로 프리페치·승격 자동화.

  3. 레이아웃/전송 정렬: SoCAMM2에서 연속 블록화·형식 변환 후 HBM/CPX로 밀어 넣기.

  4. 운영 지표: HBM/CPX 사용률, 프리페치 히트율, 연속 I/O 비중, 스톨 시간.



9) 메모리 계층화에 따른 ‘패키지 기판' 변화


메모리 계층이 갈라지면, 그에 맞춰 ‘패키지 기판(패키지 서브스트레이트)·모듈 PCB·보드’의 구조와 난이도도 각기 달라진다. 핵심은 계층별 신호 속도/대역폭(SI), 전력 분배(PI), 열/기계적 안정성(워페이지·C.T.E.), 폼팩터가 모두 다르다는 점이다.

한눈에 보는 매핑



왜 계층마다 기판이 달라지는가

  1. 신호 무결성(SI) 요구가 다르다

    • HBM/CPX는 핀당 속도와 총 대역폭이 높아 초미세 L/S, 저손실·저유전율, 짧은 경로, 비아-인-패드, 차동·임피던스 제어가 필수다.

    • SoCAMM2는 전력/GB와 면적 효율이 우선이므로, 고층 HDI·전력 평면 최적화커넥터 접속 신뢰성이 핵심이다.

    • HBF는 **링크 속도(PCIe/CXL)**를 안정적으로 받치기 위한 저손실 보드 스택업리타이밍/EMI 억제가 중요하다.

  2. 전력 분배(PI)와 열/기계 요구가 다르다

    • HBM/로직 ABF는 전류 밀도·전력 평면 품질워페이지 제어가 가장 까다롭다(적층·대면적 패키지).

    • GDDR7 다수 실장은 스위칭 노이즈동시 스위칭(Simultaneous Switching Noise) 대책이 관건이다.

    • SoCAMM2는 저전력/GB가 장점인 만큼 균일한 전원 분배커넥터 접촉/클램프 강성이 포인트다.

    • HBF 모듈은 컨트롤러 발열TB급 집적에 따른 전력 피크를 보드에서 흡수해야 한다.

  3. 폼팩터·조립 공정이 다르다

    • HBM: 실리콘 인터포저/하이브리드 본딩어셈블리 자체가 패키징 산업의 첨단에 있다.

    • GDDR7: FC-CSP(BT) 패키지를 대량 배열로 보드에 실장. 패키지/보드 동시 코디자인 필요.

    • SoCAMM2: 압착식(CAMM2) 커넥터모듈화가 특징. 유지보수/확장성 중심의 기계 설계가 동반된다.

    • HBF: **모듈 표준(향후)**에 맞춘 커넥터·가이드/스티프너고속 링크 신호 조건이 결합된다.

설계자가 챙길 체크리스트

  • 어느 계층에 무엇을 둘 것인가: “HBM(핫 워킹셋)–CPX/GDDR7(프리필)–SoCAMM2(KV 본체/버퍼)–HBF(아카이브)”가 기본.

  • 패키지/기판 코디자인:

    • HBM/로직: ABF + 인터포저 설계 룰, 파워/그라운드 네트워크열 경로를 먼저 잡을 것.

    • GDDR7: 패키지 기판의 손실·스텝·층간 비아보드 라우팅을 함께 최적화.

    • SoCAMM2: HDI 스택업, 커넥터 압착력, 모듈 워페이지 규격을 맞출 것.

    • HBF: PCIe/CXL 채널 예산(삽입손실/반사), 리타이머 배치, EMI/접지 전략.

  • 공정·공급망: HBM/인터포저(코어 공정)와 ABF는 첨단 패키징 캐파에 민감하고, GDDR·LPDDR·NAND 쪽은 BT·HDI 패널 공정의 스루풋·수율이 관건이다.

요약

  • 메모리 계층화가 진전될수록 **패키지 기판과 모듈/보드 설계는 계층의 역할에 맞게 ‘각기 다른 기술 스택’**을 요구한다.

  • HBM인터포저+ABF의 초고난도 패키징, CPX/GDDR7고속 DRAM 다량 실장과 저손실 보드, SoCAMM2모듈형 HDI와 커넥터 신뢰성, HBF플래시 대용량·고속 링크 보드로 갈라진다.

  • 결과적으로 패키징/서브스트레이트 업체 포트폴리오도 계층별로 분화되고, 시스템 사업자는 계층-패키지-보드 코디자인을 통해 성능/W와 TCO를 동시에 맞추는 방향으로 갈 수밖에 없다.



결론


추론 인프라는 HBM 단층에서 다층 메모리로 이행 중이다. CoWoS(인터포저) 병목, 전력·냉각 제약, 롱컨텍스트로 인한 KV-캐시 급증, 제품·표준 가시화가 겹치며 역할 분담이 고착된다: **CPX(GDDR7)**은 대역폭·프리필 처리량, **SoCAMM2(LPDDR5X)**는 용량·전력/GB, HBF초대용량·비용/GB를 담당한다. 특히 TSMC CoWoS 캐파 부족HBM 외부 계층 확대가 필연임을 의미한다.

이 변화는 메모리만이 아니라 패키징/기판까지 동시에 바꾼다. CoWoS(인터포저)·ABF 축은 대만 강세가 지속되나, HBM 외부 3계층(CPX+GDDR7, SoCAMM2, HBF) 확대로 BT·HDI 모듈·고속 보드 수요가 커지며 국내 기판업체의 기회가 확대된다.

국내 업체의 전략적 우위(압축)

  • 기술/공정: BT 기반 고다층 HDI·VIP·미세 L/S, 저손실·저유전율 레시피GDDR6→GDDR7 전환 대응. RDIMM/SODIMM→CAMM2로의 자연 확장(초박판 코어·커넥터 정밀·워페이지/CTE 관리). PI/SSN 억제 설계 데이터 축적.

  • 원가/양산: 대형 패널·고수율$/면적 경쟁력, NPI(양산 전환) 리드타임 단축.

  • 고객/공급망: 삼성·하이닉스·마이크론과의 코디자인·피드백 루프가 짧고, 한국/동남아 분산 생산으로 리드타임 대응 용이.

방어력(모방 난이도)

  • 양산 수율·공정 레시피고객 코디자인 이력이 진입장벽을 형성하며, 소재·장비 라인 튜닝까지 완료된 생산체계는 스케일업 탄력이 높다.

정리하면, 메모리 계층화의 가속 = 패키징·서브스트레이트 동시 재편이다. 시스템은 **“계층–패키지–보드 코디자인”**으로 성능/W·TCO를 맞추고, 공급망은 CoWoS(인터포저)·ABF 확대와 함께 **BT·HDI(SoCAMM2)·플래시 모듈(HBF)**로 균형 있게 확장해야 한다.

이 구도에서 국내 메모리 기판사HBM 외부 계층에서 기술·원가·고객 근접성을 무기로 우위를 확보할 가능성이 크다.



참고(핵심 근거)

  • Rubin CPX: 30 PFLOPS(NVFP4), 128 GB GDDR7, NVL144 CPX 구성. (NVIDIA Developer)

  • GB300 NVL72(Blackwell) 랙 구성·메모리 수치(보도). (Tom's Hardware)

  • JEDEC LPDDR5 CAMM2 커넥터 표준(PS-007A). (StorageNewsletter)

  • HBF: Kioxia 5 TB·64 GB/s 프로토타입, SanDisk–SK hynix 표준화 협력. (Kioxia Singapore Pte. Ltd.)

  • IEA 데이터센터 전력 전망·가트너 전력 제약 전망. (IEA)

  • TSMC CoWoS: 증설에도 수요 초과(공식/보도)·OSAT 아웃소싱, 2026~2027년 부족 추정치. (TrendForce)


=끝

댓글 없음:

댓글 쓰기