나만의 투자이야기: 생각정리 123 (* LPDDR, 메모리 월)

주말에 메모리 병목 관련해 여러 좋은 글들이 올라와 관련 내용을 이전에 남겼던 글 내용들과 엮어서 정리해본다.

1. 연산에서 메모리로: AI 추론 품질을 가르는 새로운 병목

과거에는 AI 인프라 논의가 거의 FLOPS(연산 성능) 중심이었다.

모델 학습이 중심이고,
GPU·TPU를 얼마나 많이, 싸게 들여올 수 있는지가 핵심 변수였다.

그런데 지금 AI의 무게중심은 분명히 **추론(inference)**으로 이동했다.
그리고 추론 워크로드의 성격 자체가 바뀌었다.

입력 중심 → 출력 중심

예전: 긴 문서를 요약·정리하는 작업 비중이 높아 인풋 토큰이 많고 아웃풋은 짧은 구조였다.
지금: LLM이 생각·평가·반성 과정을 거쳐 직접 문제를 해결한다.
- 체인 오브 소트, 자기 검증, 다단계 계획 등
- 그 결과 출력 토큰 수가 인풋보다 훨씬 많아지는 구조로 바뀌었다.

토큰 하나를 만들 때마다 벌어지는 일

추론 단계에서 한 토큰을 생성할 때마다 20~50ms 내에
- 수십억~수천억 개 파라미터,
- 지금까지 쌓인 KV 캐시(과거 토큰 정보)
  를 다시 읽어와야 한다.
이 과정이 레이어 수만큼 반복되므로,
→ **토큰 수가 늘어날수록 단위 시간당 메모리에서 읽어야 하는 데이터(GB/s)**가 폭증한다.

병목의 전환: 연산 바운드 → 메모리 바운드

GPU 연산 유닛 자체는 이미 매우 빠르다.
하지만 HBM·메모리·NVLink 등의 대역폭이 충분히 받쳐주지 못하면,
- GPU 코어는 연산 대신 **“데이터를 기다리면서 전력을 소비”**한다.
이 상태가 곧 **메모리 바운드(memory-bound)**이며,
→ 최근 AI 반도체의 한계가 “연산력 부족”이 아니라 데이터 대역폭 부족이라는 진단이 나오는 이유이다.

https://uiyeonassociation.blogspot.com/2025/10/106-hbf.html

결론적으로,
지금 AI 추론 서비스의 품질(속도·일관성·고차 추론 능력)을 가르는 1차 병목은 더 이상 FLOPS가 아니라 메모리이다.

2. 전력 캡과 “토큰/MW”라는 KPI, 그리고 메모리 전력

여기에 전력 병목이 겹친다.

글로벌 데이터센터 전력 수요는 AI로 인해 빠르게 증가하고 있고,
송전망, 변전 설비, 부지, 인허가, 냉각 등 인프라 확충 속도는 그만큼 따라오지 못하고 있다.
이제 “전기 더 쓰면 되지”가 아니라,
→ MW(메가와트) 자체가 고정된 희소 자원이 되어가고 있다.

이 환경에서 TCO·ROI는 자연스럽게 다음처럼 재정의된다.

핵심 KPI = 토큰/초/MW, 즉 “전력 1MW당 몇 개의 유효 토큰을 생산할 수 있느냐”

토큰이 곧 매출이고,
전력이 캡이면,
→ **칩 가격($/GPU)**보다 **토큰/MW(토큰/W)**가 의사결정을 지배한다.

여기서 중요한 지점:

현대 LLM에서 에너지의 상당 부분은 연산이 아니라 메모리 접근·데이터 이동에 쓰인다는 것이 여러 연구·업계 분석에서 반복적으로 나오고 있다.
다시 말해, “토큰/W” 싸움의 상당 부분은 곧 “비트당 에너지를 어디서, 어떻게 쓰느냐(메모리 전력)”의 싸움이라는 뜻이다.

따라서,
전력이 병목인 시대에 AI 추론 서비스의 전성비를 끌어올리는 가장 직접적인 레버 중 하나가 바로 메모리 전력 최적화이다.

3. HBM 단층 구조와 “메모리 월(memory wall)”의 한계

현재 고급 AI 가속기는 대부분 HBM을 중심으로 설계된다.

장점:
- 매우 높은 대역폭(TB/s급),
- 낮은 지연,
- GPU 코어와 거의 붙어 있음.
단점:
- GB당 비용이 매우 비싸고,
- TSV·실리콘 인터포저(CoWoS), ABF 서브스트레이트 등
  - 첨단 패키징을 요구해 공정·수율·캐파가 병목
- 전력·발열·냉각 난이도도 높다.

결과적으로 HBM은

“가장 빠르지만, 가장 비싸고 가장 전력을 많이 태우는 메모리 계층”

이 된다.

데이터센터 레벨에서 보면:

GPU·HBM을 늘릴수록
- NVLink·스위치·전원·냉각·상면비가 비선형적으로 증가하고,
일정 구간을 넘으면
- GPU 2배 늘려도 성능·토큰/MW는 2배가 안 나오는 구간에 진입한다.

즉, “HBM 하나로 모든 워킹셋을 욱여넣는 구조”는
전력·냉각·상면·패키징·공급망(CoWoS 캐파) 모든 축에서 벽에 부딪히는 구조이며,
이 벽이 곧 **메모리 월(memory wall)**이다.

https://arxiv.org/html/2411.13055v1?utm_source=chatgpt.com

노드 수가 늘수록 Tokens per Watt·MFU가 계속 떨어져서 GPU 효율이 하락한다.
Global Throughput는 이상적인 선형 스케일(점선)보다 훨씬 덜 증가해, 노드를 2배 늘려도 성능은 2배가 안 나온다.
CUDA 연산 시간은 줄지만 NCCL·Exposed Comms 시간이 급증해, 결국 통신이 전체 step time을 지배하는 병목이 된다.

https://arxiv.org/html/2411.13055v1?utm_source=chatgpt.com

노드 수가 증가할수록 Tokens per GPU Watt와 MFU가 더 가파르게 악화되어, 같은 노드 수도 그림 1보다 에너지·연산 효율이 더 나쁘다.
Global Throughput 곡선이 이상적 선형 스케일에서 더 심하게 아래로 처져, 규모를 키울수록 성능 체감이 훨씬 크다.
Compute Time에서 통신(특히 Exposed Comms·NCCL)이 노드 수와 함께 거의 폭발적으로 늘어나 GPU는 놀고 통신만 기다리는 구조가 드러난다.

4. 메모리 계층화: 품질과 전성비를 동시에 맞추는 구조

이 벽을 넘기 위해 업계가 선택한 방향이 메모리 계층화이다.

핵심 아이디어는 단순하다.

“HBM을 무조건 많이 다는 게 아니라,
HBM이 하던 일을 역할별로 쪼개서 여러 메모리 계층으로 분산한다.”

대표적인 구조를 다시 정리하면 다음과 같다.

HBM 계층 (핫, 가장 비싼 와트)
- GPU와 패키지 수준에서 붙어 있는 최상위 계층.
- 디코드 단계에서 꼭 필요한 핫 파라미터·핫 KV만 올려둔다.
- 목표:
  - GPU 코어가 메모리를 기다리며 노는 시간을 최소화 → 토큰/초/MW 극대화.
CPX + GDDR7 계층 (프리필 전용, 고대역폭 DRAM)
- 장문 컨텍스트 인코딩, 대량 행렬 연산 등 프리필(pre-fill) 단계 전담.
- 메인 GPU의 HBM이 떠안던 프리필용 트래픽과 용량 부담을 분리해,
  - HBM은 디코드에 집중.
- 롱컨텍스트·대규모 배치에서 전체 시스템의 토큰/MW를 끌어올리는 역할을 한다.
SoCAMM2 + LPDDR5X 계층 (웜, 용량·전력/GB 지향)
- KV 캐시 본체,
- RAG 임베딩 풀,
- 프리페치 버퍼 등 용량 지배형 데이터를 담당.
- HBM·GDDR보다 느리지만, W/GB와 $/GB가 훨씬 낮다.
- 이를 통해 HBM에는 진짜 핫셋만 남기고,
  - “비싼 와트(HBM)”을 최소한으로만 쓰게 만들어 전체 토큰/MW를 높인다.
HBF·플래시 계층 (콜드, 초대용량·최저 전력/GB)
- 롱컨텍스트 아카이브, 초대형 벡터DB, 로그성 데이터 등
  - “자주 쓰이지 않지만 크고 무거운 데이터”를 담당.
- 여기에서 필요한 일부만
  - 플래시 → SoCAMM2 → HBM/CPX로 승격시키는 구조로,
  - 상위 계층이 차가운 데이터를 위해 와트를 낭비하지 않도록 만든다.

이 계층화는 단순히 “용량을 더 확보하자”가 아니라,

“토큰 하나를 만들 때 소비되는 비싼 와트(HBM+NVLink) 비중을 줄이고,
더 싼 와트(LPDDR, 플래시)로 감당할 수 있는 비트는 아래로 내려보내자”

는 전력·TCO 최적화 전략이다.

5. NVIDIA의 서버용 LPDDR 전환이 의미하는 것

여기서 최근 NVIDIA의 결정, 즉
서버 메모리를 DDR5에서 LPDDR로 전환하기 시작했다는 Reuters 보도는 매우 상징적이다.

Reuters에 따르면, NVIDIA는 AI 서버의 전력 비용을 줄이기 위해
기존 DDR5 서버 메모리 대신 스마트폰·태블릿에 쓰이던 LPDDR 계열 저전력 메모리로 전환하는 전략을 취하고 있다.
LPDDR은 Low-Power DDR, 이름 그대로
- 일반 DDR 대비 전력 소모를 줄이도록 설계된 DRAM으로,
- 원래 스마트폰·태블릿·노트북 등 전력 민감 기기용이었다.

이 결정의 의미는 크게 세 가지이다.

“메모리 전력”이 이제 서버 설계의 1급 변수라는 공식 선언

서버용 DDR5는 고성능·고대역폭을 위한 메모리이고,
LPDDR5는 모바일·저전력용 메모리이다.
그럼에도 NVIDIA가 서버에서 DDR5 대신 LPDDR을 채택한다는 것은,
→ 메모리 전력 절감이 그만큼 절박한 과제가 되었다는 뜻이다.
다시 말해,
- GPU 코어는 이미 충분히 빠른데,
- 메모리 전력·발열·전력 캡이 전체 TCO와 토큰/MW를 잠그고 있으니,
  “고성능 서버용 DDR”이 아니라 “저전력 모바일용 LPDDR”을 끌어다가 쓸 정도로 상황이 심각하다는 신호이다.

LPDDR 도입 = 토큰/MW를 위한 직행 수단

LPDDR5는 DDR5보다
- 더 낮은 동작 전압과 전력 최적화 기능을 통해
- 비트당 전력 소모를 줄이는 것이 핵심 설계 목표이다.
AI 서버에서 메모리 전력이 차지하는 비중이 크기 때문에,
- 동일한 메모리 용량·유효 대역폭을 LPDDR 기반으로 구현하면
- 서버 전체 전력 중 메모리 몫을 의미 있게 줄일 수 있다.
전력이 캡인 상황에서
- 같은 1MW로 더 많은 토큰을 뽑을 수 있다면
  → 이는 곧 토큰/MW 개선 = 매출/MW 개선 = TCO 개선으로 직결된다.

공급망·가격 충격이 발생할 정도로 전략의 스케일이 크다

Counterpoint Research에 따르면,
- NVIDIA의 LPDDR 채택은 서버 메모리 가격을 2026년 말까지 거의 두 배로 끌어올릴 수 있는 수준의 수요 쇼크를 만들 수 있다.
이는 곧
- “LPDDR을 서버에 쓰면 좋을 것 같다” 수준이 아니라,
- **“메모리 전력/TCO 문제를 해결하려는 방향이 공급망 지형까지 바꿀 만큼 본격적인 스케일로 움직이고 있다”**는 의미이다.
다시 말해,
AI 인프라 경쟁의 한 축이 “어떤 메모리 체계를 얼마나 저전력·고효율로 쓰느냐”로 이동하고 있음을 숫자 자체가 보여준다.

이 모든 것을 합치면,
NVIDIA의 LPDDR 서버 전환은 이렇게 읽을 수 있다.

“이제 메모리의 전력 사용량이 AI 칩·서버 전체 전성비와 TCO를 결정하는 1급 요인이며,
이를 줄이기 위해서라면 서버 메모리 아키텍처 자체를 갈아엎을 준비가 되어 있다.”

6. 결론: 앞으로 AI 추론 서비스의 품질은 메모리, 그중에서도 “메모리 전력”에 달려 있다

지금까지 내용을 한 줄로 압축하면 다음과 같다.

품질을 올릴수록
- 모델은 커지고(파라미터↑),
- 컨텍스트는 길어지고(KV 캐시↑),
- 출력 토큰 수는 늘어난다(추론·평가·반성 토큰↑).
사용자 경험을 지키려면
- 여전히 20~50ms/토큰 수준의 응답 속도를 유지해야 하고,
- 데이터센터는 전력·냉각·상면의 하드 캡에 묶여 있다.
이 두 조건을 동시에 만족시키려면,
- FLOPS를 늘리는 것만으로는 부족하고,
- 한 토큰을 생성할 때 필요한 데이터를
  얼마나 빠르고, 얼마나 적은 와트로,
  얼마나 효율적으로 계층화된 메모리 구조에서 가져올 수 있느냐가 결정적이다.
그래서 미래 AI 경쟁력은
- 모델 아키텍처,
- 메모리 아키텍처(계층·대역폭·전력),
- 전력 인프라
  세 요소의 곱으로 결정된다.

그 중 지금 가장 빠르게 “병목이자 레버”로 부상한 축이 바로

메모리, 그 중에서도 메모리의 전력 사용량과 계층 구조이지 않을까 한다.

NVIDIA의 서버용 LPDDR 전환은

**“메모리 전력 최적화가 전체 AI 추론 서비스의 전성비와 TCO를 지배하는 국면으로 들어섰다”**는 강력한 사례이며,
앞으로 AI 추론 인프라 분석은
- 단순히 HBM 용량/대역폭을 보는 수준을 넘어서,
- HBM–CPX–LPDDR–플래시로 이어지는 메모리 계층별 W/GB, W/GB/s, $/GB가
  토큰/MW와 서비스 단가에 어떻게 반영되는지까지 보는 프레임으로 확장될 필요가 있다.

그 의미에서,
앞으로 AI 추론 서비스의 품질과 비용, 전성비는 “얼마나 좋은 메모리를 얼마나 잘, 얼마나 적은 전력으로 쓰느냐”에 점점 더 달려 있게 될 것이다.

=끝

나만의 투자이야기

2025년 11월 23일 일요일

생각정리 123 (* LPDDR, 메모리 월)

1. 연산에서 메모리로: AI 추론 품질을 가르는 새로운 병목

2. 전력 캡과 “토큰/MW”라는 KPI, 그리고 메모리 전력

3. HBM 단층 구조와 “메모리 월(memory wall)”의 한계

4. 메모리 계층화: 품질과 전성비를 동시에 맞추는 구조

5. NVIDIA의 서버용 LPDDR 전환이 의미하는 것

6. 결론: 앞으로 AI 추론 서비스의 품질은 메모리, 그중에서도 “메모리 전력”에 달려 있다

댓글 없음:

댓글 쓰기

블로그 보관함

프로필