주말에 메모리 병목 관련해 여러 좋은 글들이 올라와 관련 내용을 이전에 남겼던 글 내용들과 엮어서 정리해본다.
1. 연산에서 메모리로: AI 추론 품질을 가르는 새로운 병목
과거에는 AI 인프라 논의가 거의 FLOPS(연산 성능) 중심이었다.
-
모델 학습이 중심이고,
-
GPU·TPU를 얼마나 많이, 싸게 들여올 수 있는지가 핵심 변수였다.
그런데 지금 AI의 무게중심은 분명히 **추론(inference)**으로 이동했다.
그리고 추론 워크로드의 성격 자체가 바뀌었다.
-
입력 중심 → 출력 중심
-
예전: 긴 문서를 요약·정리하는 작업 비중이 높아 인풋 토큰이 많고 아웃풋은 짧은 구조였다.
-
지금: LLM이 생각·평가·반성 과정을 거쳐 직접 문제를 해결한다.
-
체인 오브 소트, 자기 검증, 다단계 계획 등
-
그 결과 출력 토큰 수가 인풋보다 훨씬 많아지는 구조로 바뀌었다.
-
-
토큰 하나를 만들 때마다 벌어지는 일
-
추론 단계에서 한 토큰을 생성할 때마다 20~50ms 내에
-
수십억~수천억 개 파라미터,
-
지금까지 쌓인 KV 캐시(과거 토큰 정보)
를 다시 읽어와야 한다.
-
-
이 과정이 레이어 수만큼 반복되므로,
→ **토큰 수가 늘어날수록 단위 시간당 메모리에서 읽어야 하는 데이터(GB/s)**가 폭증한다.
-
병목의 전환: 연산 바운드 → 메모리 바운드
-
GPU 연산 유닛 자체는 이미 매우 빠르다.
-
하지만 HBM·메모리·NVLink 등의 대역폭이 충분히 받쳐주지 못하면,
-
GPU 코어는 연산 대신 **“데이터를 기다리면서 전력을 소비”**한다.
-
-
이 상태가 곧 **메모리 바운드(memory-bound)**이며,
→ 최근 AI 반도체의 한계가 “연산력 부족”이 아니라 데이터 대역폭 부족이라는 진단이 나오는 이유이다.https://uiyeonassociation.blogspot.com/2025/10/106-hbf.html
결론적으로,
지금 AI 추론 서비스의 품질(속도·일관성·고차 추론 능력)을 가르는 1차 병목은 더 이상 FLOPS가 아니라 메모리이다.
2. 전력 캡과 “토큰/MW”라는 KPI, 그리고 메모리 전력
여기에 전력 병목이 겹친다.
-
글로벌 데이터센터 전력 수요는 AI로 인해 빠르게 증가하고 있고,
-
송전망, 변전 설비, 부지, 인허가, 냉각 등 인프라 확충 속도는 그만큼 따라오지 못하고 있다.
-
이제 “전기 더 쓰면 되지”가 아니라,
→ MW(메가와트) 자체가 고정된 희소 자원이 되어가고 있다.
이 환경에서 TCO·ROI는 자연스럽게 다음처럼 재정의된다.
핵심 KPI = 토큰/초/MW, 즉 “전력 1MW당 몇 개의 유효 토큰을 생산할 수 있느냐”
-
토큰이 곧 매출이고,
-
전력이 캡이면,
→ **칩 가격($/GPU)**보다 **토큰/MW(토큰/W)**가 의사결정을 지배한다.
여기서 중요한 지점:
-
현대 LLM에서 에너지의 상당 부분은 연산이 아니라 메모리 접근·데이터 이동에 쓰인다는 것이 여러 연구·업계 분석에서 반복적으로 나오고 있다.
-
다시 말해, “토큰/W” 싸움의 상당 부분은 곧 “비트당 에너지를 어디서, 어떻게 쓰느냐(메모리 전력)”의 싸움이라는 뜻이다.
따라서,
전력이 병목인 시대에 AI 추론 서비스의 전성비를 끌어올리는 가장 직접적인 레버 중 하나가 바로 메모리 전력 최적화이다.
3. HBM 단층 구조와 “메모리 월(memory wall)”의 한계
현재 고급 AI 가속기는 대부분 HBM을 중심으로 설계된다.
-
장점:
-
매우 높은 대역폭(TB/s급),
-
낮은 지연,
-
GPU 코어와 거의 붙어 있음.
-
-
단점:
-
GB당 비용이 매우 비싸고,
-
TSV·실리콘 인터포저(CoWoS), ABF 서브스트레이트 등
-
첨단 패키징을 요구해 공정·수율·캐파가 병목
-
-
전력·발열·냉각 난이도도 높다.
-
결과적으로 HBM은
“가장 빠르지만, 가장 비싸고 가장 전력을 많이 태우는 메모리 계층”
이 된다.
데이터센터 레벨에서 보면:
-
GPU·HBM을 늘릴수록
-
NVLink·스위치·전원·냉각·상면비가 비선형적으로 증가하고,
-
-
일정 구간을 넘으면
-
GPU 2배 늘려도 성능·토큰/MW는 2배가 안 나오는 구간에 진입한다.
-
즉, “HBM 하나로 모든 워킹셋을 욱여넣는 구조”는
전력·냉각·상면·패키징·공급망(CoWoS 캐파) 모든 축에서 벽에 부딪히는 구조이며,
이 벽이 곧 **메모리 월(memory wall)**이다.
노드 수가 늘수록 Tokens per Watt·MFU가 계속 떨어져서 GPU 효율이 하락한다.
Global Throughput는 이상적인 선형 스케일(점선)보다 훨씬 덜 증가해, 노드를 2배 늘려도 성능은 2배가 안 나온다.
CUDA 연산 시간은 줄지만 NCCL·Exposed Comms 시간이 급증해, 결국 통신이 전체 step time을 지배하는 병목이 된다.
| https://arxiv.org/html/2411.13055v1?utm_source=chatgpt.com |
-
노드 수가 증가할수록 Tokens per GPU Watt와 MFU가 더 가파르게 악화되어, 같은 노드 수도 그림 1보다 에너지·연산 효율이 더 나쁘다.
-
Global Throughput 곡선이 이상적 선형 스케일에서 더 심하게 아래로 처져, 규모를 키울수록 성능 체감이 훨씬 크다.
-
Compute Time에서 통신(특히 Exposed Comms·NCCL)이 노드 수와 함께 거의 폭발적으로 늘어나 GPU는 놀고 통신만 기다리는 구조가 드러난다.
4. 메모리 계층화: 품질과 전성비를 동시에 맞추는 구조
이 벽을 넘기 위해 업계가 선택한 방향이 메모리 계층화이다.
핵심 아이디어는 단순하다.
“HBM을 무조건 많이 다는 게 아니라,
HBM이 하던 일을 역할별로 쪼개서 여러 메모리 계층으로 분산한다.”
대표적인 구조를 다시 정리하면 다음과 같다.
-
HBM 계층 (핫, 가장 비싼 와트)
-
GPU와 패키지 수준에서 붙어 있는 최상위 계층.
-
디코드 단계에서 꼭 필요한 핫 파라미터·핫 KV만 올려둔다.
-
목표:
-
GPU 코어가 메모리를 기다리며 노는 시간을 최소화 → 토큰/초/MW 극대화.
-
-
-
CPX + GDDR7 계층 (프리필 전용, 고대역폭 DRAM)
-
장문 컨텍스트 인코딩, 대량 행렬 연산 등 프리필(pre-fill) 단계 전담.
-
메인 GPU의 HBM이 떠안던 프리필용 트래픽과 용량 부담을 분리해,
-
HBM은 디코드에 집중.
-
-
롱컨텍스트·대규모 배치에서 전체 시스템의 토큰/MW를 끌어올리는 역할을 한다.
-
-
SoCAMM2 + LPDDR5X 계층 (웜, 용량·전력/GB 지향)
-
KV 캐시 본체,
-
RAG 임베딩 풀,
-
프리페치 버퍼 등 용량 지배형 데이터를 담당.
-
HBM·GDDR보다 느리지만, W/GB와 $/GB가 훨씬 낮다.
-
이를 통해 HBM에는 진짜 핫셋만 남기고,
-
“비싼 와트(HBM)”을 최소한으로만 쓰게 만들어 전체 토큰/MW를 높인다.
-
-
-
HBF·플래시 계층 (콜드, 초대용량·최저 전력/GB)
-
롱컨텍스트 아카이브, 초대형 벡터DB, 로그성 데이터 등
-
“자주 쓰이지 않지만 크고 무거운 데이터”를 담당.
-
-
여기에서 필요한 일부만
-
플래시 → SoCAMM2 → HBM/CPX로 승격시키는 구조로,
-
상위 계층이 차가운 데이터를 위해 와트를 낭비하지 않도록 만든다.
-
-
이 계층화는 단순히 “용량을 더 확보하자”가 아니라,
“토큰 하나를 만들 때 소비되는 비싼 와트(HBM+NVLink) 비중을 줄이고,
더 싼 와트(LPDDR, 플래시)로 감당할 수 있는 비트는 아래로 내려보내자”
는 전력·TCO 최적화 전략이다.
5. NVIDIA의 서버용 LPDDR 전환이 의미하는 것
여기서 최근 NVIDIA의 결정, 즉
서버 메모리를 DDR5에서 LPDDR로 전환하기 시작했다는 Reuters 보도는 매우 상징적이다.
-
Reuters에 따르면, NVIDIA는 AI 서버의 전력 비용을 줄이기 위해
기존 DDR5 서버 메모리 대신 스마트폰·태블릿에 쓰이던 LPDDR 계열 저전력 메모리로 전환하는 전략을 취하고 있다. -
LPDDR은 Low-Power DDR, 이름 그대로
-
일반 DDR 대비 전력 소모를 줄이도록 설계된 DRAM으로,
-
원래 스마트폰·태블릿·노트북 등 전력 민감 기기용이었다.
-
이 결정의 의미는 크게 세 가지이다.
-
“메모리 전력”이 이제 서버 설계의 1급 변수라는 공식 선언
-
서버용 DDR5는 고성능·고대역폭을 위한 메모리이고,
-
LPDDR5는 모바일·저전력용 메모리이다.
-
그럼에도 NVIDIA가 서버에서 DDR5 대신 LPDDR을 채택한다는 것은,
→ 메모리 전력 절감이 그만큼 절박한 과제가 되었다는 뜻이다. -
다시 말해,
-
GPU 코어는 이미 충분히 빠른데,
-
메모리 전력·발열·전력 캡이 전체 TCO와 토큰/MW를 잠그고 있으니,
“고성능 서버용 DDR”이 아니라 “저전력 모바일용 LPDDR”을 끌어다가 쓸 정도로 상황이 심각하다는 신호이다.
-
-
LPDDR 도입 = 토큰/MW를 위한 직행 수단
-
LPDDR5는 DDR5보다
-
더 낮은 동작 전압과 전력 최적화 기능을 통해
-
비트당 전력 소모를 줄이는 것이 핵심 설계 목표이다.
-
-
AI 서버에서 메모리 전력이 차지하는 비중이 크기 때문에,
-
동일한 메모리 용량·유효 대역폭을 LPDDR 기반으로 구현하면
-
서버 전체 전력 중 메모리 몫을 의미 있게 줄일 수 있다.
-
-
전력이 캡인 상황에서
-
같은 1MW로 더 많은 토큰을 뽑을 수 있다면
→ 이는 곧 토큰/MW 개선 = 매출/MW 개선 = TCO 개선으로 직결된다.
-
-
공급망·가격 충격이 발생할 정도로 전략의 스케일이 크다
-
Counterpoint Research에 따르면,
-
NVIDIA의 LPDDR 채택은 서버 메모리 가격을 2026년 말까지 거의 두 배로 끌어올릴 수 있는 수준의 수요 쇼크를 만들 수 있다.
-
-
이는 곧
-
“LPDDR을 서버에 쓰면 좋을 것 같다” 수준이 아니라,
-
**“메모리 전력/TCO 문제를 해결하려는 방향이 공급망 지형까지 바꿀 만큼 본격적인 스케일로 움직이고 있다”**는 의미이다.
-
-
다시 말해,
AI 인프라 경쟁의 한 축이 “어떤 메모리 체계를 얼마나 저전력·고효율로 쓰느냐”로 이동하고 있음을 숫자 자체가 보여준다.
이 모든 것을 합치면,
NVIDIA의 LPDDR 서버 전환은 이렇게 읽을 수 있다.
“이제 메모리의 전력 사용량이 AI 칩·서버 전체 전성비와 TCO를 결정하는 1급 요인이며,
이를 줄이기 위해서라면 서버 메모리 아키텍처 자체를 갈아엎을 준비가 되어 있다.”
6. 결론: 앞으로 AI 추론 서비스의 품질은 메모리, 그중에서도 “메모리 전력”에 달려 있다
지금까지 내용을 한 줄로 압축하면 다음과 같다.
-
품질을 올릴수록
-
모델은 커지고(파라미터↑),
-
컨텍스트는 길어지고(KV 캐시↑),
-
출력 토큰 수는 늘어난다(추론·평가·반성 토큰↑).
-
-
사용자 경험을 지키려면
-
여전히 20~50ms/토큰 수준의 응답 속도를 유지해야 하고,
-
데이터센터는 전력·냉각·상면의 하드 캡에 묶여 있다.
-
-
이 두 조건을 동시에 만족시키려면,
-
FLOPS를 늘리는 것만으로는 부족하고,
-
한 토큰을 생성할 때 필요한 데이터를
얼마나 빠르고, 얼마나 적은 와트로,
얼마나 효율적으로 계층화된 메모리 구조에서 가져올 수 있느냐가 결정적이다.
-
-
그래서 미래 AI 경쟁력은
-
모델 아키텍처,
-
메모리 아키텍처(계층·대역폭·전력),
-
전력 인프라
세 요소의 곱으로 결정된다.
-
그 중 지금 가장 빠르게 “병목이자 레버”로 부상한 축이 바로
메모리, 그 중에서도 메모리의 전력 사용량과 계층 구조이지 않을까 한다.
NVIDIA의 서버용 LPDDR 전환은
-
**“메모리 전력 최적화가 전체 AI 추론 서비스의 전성비와 TCO를 지배하는 국면으로 들어섰다”**는 강력한 사례이며,
-
앞으로 AI 추론 인프라 분석은
-
단순히 HBM 용량/대역폭을 보는 수준을 넘어서,
-
HBM–CPX–LPDDR–플래시로 이어지는 메모리 계층별 W/GB, W/GB/s, $/GB가
토큰/MW와 서비스 단가에 어떻게 반영되는지까지 보는 프레임으로 확장될 필요가 있다.
-
그 의미에서,
앞으로 AI 추론 서비스의 품질과 비용, 전성비는 “얼마나 좋은 메모리를 얼마나 잘, 얼마나 적은 전력으로 쓰느냐”에 점점 더 달려 있게 될 것이다.
=끝
댓글 없음:
댓글 쓰기