ChatGPT5 이후로 많은 사람이 같은 질문을 던진다.
“모델이 좋아진 건 알겠는데, 왜 하필 이번 세대부터 메모리(특히 HBM·DRAM·스토리지) 사용량이 예전처럼 ‘서서히’가 아니라 ‘갑자기 튀어 오른 것처럼’ 보이는가?”
방향 자체는 단순하다. AI의 실질적인 유용성을 끌어올리는 축은 결국 세 가지이다.
-
다루어야 할 세계와 역할이 커지면서 모델은 커지고(파라미터↑)
-
사용자·세션·개인화 수요가 늘면서 컨텍스트는 길어지고(KV 캐시↑)
-
더 깊은 사고와 자기검증이 요구되면서 출력·내부 추론 토큰이 늘어난다(추론·평가·반성 토큰↑)
문제는 이 세 축이 각각 조금씩 커진 것이 아니라, ChatGPT5 세대에서 동시에 임계점을 넘었다는 점이다.
그 결과, 토큰과 데이터가 지나가는 경로를 따라 스토리지–시스템 DRAM–SoC 메모리–HBM 전 계층의 부담이 “선형 증가”가 아니라 **“계단식 급등”**처럼 보이는 구간에 진입하게 되었다.
아래에서는 먼저 LLM 내부가 어떻게 동작하는지
(모델 파라미터, 텍스트 컨텍스트, KV 캐시, 프리필, 디코드)를 정리한 뒤,
이 세 축의 변화와 최근 연구 결과가 왜 전 계층 메모리 수요를 필연적으로, 그리고 체감상 “갑자기” 키워 버리는지 설명하고자 한다.
1. LLM 핵심 개념 다섯 가지
먼저 용어부터 짚고 간다.
1-1. LLM 모델 파라미터
-
정의
LLM이 학습을 통해 얻은 지식·패턴·사고 방식이 숫자로 압축되어 들어 있는 덩어리이다.
신경망의 가중치(weight) 전체를 통틀어 모델 파라미터라고 부른다. -
비유
한 비서가 평생 책·논문·보고서를 읽고 머릿속에 쌓아 둔
개인 도서관 + 사고 습관이라고 보면 된다.
질문이 무엇이든, 매번 이 “두뇌(파라미터)”를 꺼내서 어떻게 생각하고 답할지 결정한다. -
메모리 측면
모델이 고정돼 있으면 필요한 메모리 용량도 거의 고정이다.
(정밀도·샤딩 방식에 따라 수십~수백 GB 수준으로 정해진다.)
1-2. 텍스트 컨텍스트(Context)
-
정의
한 번의 요청에서 LLM이 **“참고 대상으로 받는 모든 텍스트”**이다. 예를 들면:-
시스템 프롬프트(“너는 이렇게 답해라”라는 역할·규칙)
-
지금까지의 대화 내용
-
이번에 새로 들어온 질문
-
추가 문서·코드·표 등
-
-
비유
비서 책상 위에 펼쳐져 있는 전체 회의록 묶음이다.
회의록이 길수록, 즉 텍스트 토큰 수가 많을수록 컨텍스트 길이가 길어진다. -
메모리 측면
컨텍스트 길이가 길어질수록, 이 컨텍스트를 “기억”하기 위한 KV 캐시와 중간 표현이 선형적으로 증가한다.
1-3. KV 캐시(Key–Value Cache)
-
정의
컨텍스트 안의 각 토큰(단어 조각)에 대해 Transformer가 만들어 둔
Key 벡터와 Value 벡터를 레이어·토큰별로 GPU 메모리(HBM)에 저장해 둔 것이다.-
Key(K): 이 토큰이 “어떤 질문과 연관될지”를 나타내는 태그 벡터
-
Value(V): 이 토큰이 실제로 담고 있는 정보 요약 벡터
-
-
비유
회의록 각 문장 옆에 붙여 둔 포스트잇 메모이다.
“이 문장은 리스크”, “이건 예산 숫자 핵심” 같은 메모를
문장마다 붙여둔 것의 벡터 버전이 KV 캐시이다.
이 포스트잇 묶음 전체가 HBM 위에 깔려 있는 상태라고 보면 된다. -
메모리 측면
KV 캐시는 대략
레이어 수 × (시퀀스 길이 × 배치 크기) × 벡터 크기
에 비례해 커진다.
시퀀스·배치가 커질수록 가중치 메모리보다 더 빨리 불어나는 축이다.
1-4. 프리필(prefill) 단계
-
정의
텍스트 컨텍스트(회의록 전체)를 처음부터 끝까지 한 번 쭉 읽으면서,
각 토큰에 대한 은닉표현 + K/V를 계산해 KV 캐시를 세팅하는 단계이다. -
연산적 특징
모델 파라미터(두뇌) × 입력 토큰(회의록)에 대해
거대한 **행렬곱(matmul)**이 일어나는 구간이다.
프롬프트·문서가 길어질수록 이 비용은 선형적으로 증가한다. -
비유
비서가 긴 회의록을 처음부터 끝까지 읽으면서 문장마다
“예산”, “일정”, “리스크”, “결론 후보” 같은 포스트잇을 붙여 나가는 시간이다.
이 단계가 끝나면 **포스트잇이 빽빽하게 붙은 회의록 세트(KV 캐시)**가 책상 위에 준비된다.
1-5. 디코드(decode) 단계
-
정의
프리필에서 만든 KV 캐시를 바탕으로 답변 토큰을 한 개씩 생성하는 단계이다.토큰 하나를 만들 때마다:
-
그 위치에 대한 **Query(질문 벡터)**를 만들고
-
과거 모든 K/V(포스트잇이 붙은 회의록)를 다시 읽어
“어떤 토큰을 얼마나 참고할지” 가중치를 계산하고 -
그 비율로 여러 Value를 섞어 다음 토큰을 만든다.
-
새 토큰에 대한 K/V도 계산해 KV 캐시에 덧붙인다.
-
-
비유
회의록과 포스트잇은 이미 다 붙어 있다.
이제 비서는 보고서를 쓸 때, 문장 하나를 쓸 때마다
회의록 전체를 쓱 훑어보며
“이번 문장은 예산 위주니까 예산 포스트잇 쪽을 많이 참고해야겠다”
식으로 참고 비중을 정하고, 그 내용을 조합해 한 줄씩 써 내려가는 과정이 디코드 단계이다. -
병목
매 토큰마다 KV 캐시 전체를 레이어마다 반복해서 읽기 때문에
연산량보다 **HBM 대역폭(읽기 속도)**이 성능과 전력 효율을 결정하는 핵심 병목이 된다.
2. LLM이 새 질문을 처리할 때 벌어지는 3단계
위 개념들을 실제 타임라인에 맞춰 다시 정리하면, 새 질문 하나가 들어올 때 내부에서는 대략 다음 세 단계가 반복된다.
-
텍스트 컨텍스트 구성
시스템 프롬프트 + 지금까지의 대화 + 새 질문 + 추가 문서 등을 한 줄짜리 긴 텍스트로 이어 붙인다.
이것이 이번 요청의 컨텍스트, 즉 책상 위 전체 회의록이다. -
프리필 – 컨텍스트 전체를 읽으며 KV 캐시 만들기
이 컨텍스트를 토큰 단위로 처음부터 끝까지 한 번 쭉 통과시키면서,
각 토큰에 대해 Key/Value를 계산하고, 이를 레이어·토큰별로 모아 HBM 위에 KV 캐시로 저장한다.
이때 모델 파라미터 × 입력 토큰에 대한 대규모 matmul이 집중된다. -
디코드 – KV 캐시를 반복해서 읽으며 답변 토큰 생성
프리필이 끝나면, 이제 답변을 토큰 단위로 만든다.
각 토큰마다 Query를 만들고, KV 전체를 다시 읽어 가중치를 계산하고,
그 결과로 다음 토큰을 정한 뒤 새 K/V를 KV 캐시에 추가한다.
이 과정에서 **KV를 읽는 대역폭(토큰당 읽기량)**이 성능·지연·전력의 주된 병목이 된다.
이 구조 자체가 이미 “메모리 바운드”이다.
여기에 모델 파라미터·컨텍스트·내부 토큰이 동시에 커지면, 가장 먼저 메모리 계층이 비명을 지르기 시작한다.
3. 세 축이 왜 동시에 커질 수밖에 없는가
3-1. 모델 파라미터: 다루는 세계와 역할이 커진다
과거의 LLM은 텍스트·코드 중심 Q&A 도구에 가까웠다.
그러나 앞으로의 AGI·Physical AI는 다음을 동시에 다루려 한다.
-
텍스트 + 코드
-
이미지·동영상·음성
-
자율주행 로그(FSD)·로봇 센서(LiDAR, IMU, 힘·토크)
-
경제·법·정치·사회 시스템 데이터
또한 역할 면에서도,
-
문제 분해·시나리오 설계
-
계획 수립·스케줄링
-
검색·코드·툴·로봇 제어
-
장기 목표 관리, 리스크·규제 고려
-
사람·다른 에이전트와 협업
까지 수행하는 복합적인 시스템이 되어야 한다.
이는 한 시스템 안에
-
월드 모델(세계가 어떻게 변하는지 시뮬레이터),
-
정책(policy)(지금 이 상태에서 무엇을 해야 하는지),
-
규칙·안전·제약 조건
을 같이 담겠다는 의미이다.
자연스럽게 표현해야 할 상태공간이 기하급수적으로 커지고,
모델 파라미터(두뇌)의 용량도 더 커질 수밖에 없다.
MoE·모듈러 구조로 “필요할 때만 큰 부분을 쓰는” 방향으로 최적화되겠지만,
방향 자체는 **“지금보다 훨씬 큰(또는 효과적으로 더 큰) 두뇌”**이다.
3-2. 컨텍스트·KV 캐시: 사용량·개인화 선순환
컨텍스트 길이는 대략
컨텍스트 길이 ≈ 세션당 턴 수 × 턴당 평균 토큰 수
라고 볼 수 있다.
**사용자 수↑, 1인당 사용 시간↑, 질의 횟수↑**가 동시에 늘어나면서
한 세션 안에 쌓이는 과거 대화 토큰 수가 구조적으로 증가한다.
초기에는:
-
한두 번 묻고 끝내는 단발성 Q&A 도구였지만,
이후에는:
-
리서치 → 요약 → 초안 → 수정 → 재작성 같은 복합 작업 플로우,
-
여러 날·주에 걸친 장기 프로젝트(리포트, 투자, 코드베이스, 학습 계획),
-
사용자의 취향·제약조건·사고 스타일을 기억하는 개인 비서·에이전트
로 진화하고 있다.
과거 문맥을 길게 유지할수록:
-
사용자 입장에서는 “얘는 나를 잘 안다”, “내 맥락을 이해한다”는 느낌이 커지고,
-
유용성이 올라가면 사용 시간·질문 수·입력 정보량이 증가하며,
-
그러면 다시 더 긴 컨텍스트 지원에 대한 요구가 생긴다.
결국
컨텍스트 길이↑ → 개인화 유용성↑ → 사용↑ → 다시 컨텍스트 길이↑
라는 선순환 구조가 만들어진다.
이 선순환의 직접적인 결과가 바로 KV 캐시 메모리 폭증이다.
3-3. 출력·내부 토큰: 체인오브소트·자기검증·에이전트
ChatGPT5 세대에서는 겉으로 보이는 출력 토큰뿐 아니라,
내부적으로 생성·평가·폐기되는 토큰 수가 크게 늘었다.
-
체인오브소트(생각의 사슬),
-
자기검증·반성 루프,
-
여러 도구·에이전트 호출,
-
여러 후보 답변을 만들어 비교·선택하는 과정
등이 늘어나면서,
-
사용자는 예전과 비슷한 길이의 답변을 보더라도,
-
내부적으로는 여러 배의 토큰이 생성·읽기·버리기를 반복한다.
디코드 단계에서 토큰 하나를 만들 때마다:
-
모든 과거 토큰의 KV를 다시 읽기 때문에,
-
내부 토큰이 늘어날수록 **KV 읽기 횟수(메모리 트래픽)**가 기하급수적으로 증가한다.
즉, 모델이 더 “생각을 많이 할수록” KV와 HBM은 더 많이 갈려 나간다.
4. 연구 결과가 보여주는 “임계점 돌파”
위 논의를 실제 측정 데이터로 찍어주는 연구들이 있다.
대표적으로 DistServe와 InfiniGen 계열 실험이다.
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving |
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving |
4-1. DistServe: 프리필·디코드 혼합 구조의 지연 폭발
기존 LLM 서비스는 한 GPU 위에서
-
긴 프롬프트를 처리하는 **프리필(prefill)**과
-
비교적 짧은 응답을 찍어 내는 **디코드(decode)**를
서로 섞어서 동시에 처리하는 경우가 많았다.
DistServe는 다음을 보여준다.
-
요청률(QPS)이 증가할수록,
-
긴 프리필 요청이 짧은 디코드 요청들 사이에 몇 개만 섞여도,
-
디코드 배치의 P90 TTFT·TPOT 지연이 계단식으로 폭증한다.
-
반대로 프리필 전용 GPU와 디코드 전용 GPU를 **분리(disaggregate)**하면,
같은 하드웨어에서도 지연이 크게 억제된다.
이 실험이 말하는 바는 단순하다.
-
모델·컨텍스트·내부 토큰이 커진 ChatGPT5 세대에서는,
-
프리필과 디코드를 한 GPU 위에 마구 섞어 돌리는 구조가
-
토큰/초, 토큰/MW, 사용자 체감 지연을 동시에 망가뜨리는 임계점에 도달했다는 것이다.
즉, 예전에는 “그럭저럭 되던” 구조가
이번 세대부터는 더 이상 TCO·지연 면에서 버티지 못하는 구간으로 들어선 셈이다.
4-2. InfiniGen: KV 메모리가 가중치 메모리를 추월하는 지점
| InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management |
InfiniGen 계열 실험은 메모리 구성의 임계점을 보여준다.
-
x축: 시퀀스 길이 또는 배치 크기
-
y축: 총 메모리 사용량
-
수평 점선: OPT-30B 모델 **가중치(파라미터)**를 올려 두는 데 필요한 메모리
-
막대: 같은 조건에서 가중치 + KV 캐시까지 포함한 전체 메모리
실험 결과는 다음과 같다.
-
시퀀스 길이나 배치 크기가 작을 때는
→ 막대가 점선 아래에 있어 모델 파라미터가 메모리의 주인공이다. -
시퀀스·배치가 커질수록
→ 막대가 급격히 커져서 점선을 훌쩍 넘어서는 구간이 나타난다.
이 시점부터는 KV 캐시가 모델 파라미터보다 더 많은 메모리를 먹기 시작한다.
또 다른 실험에서는:
| InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management |
| InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management |
-
32K~1M 같은 긴 컨텍스트에서도
실제로 자주 참조되는 Key 비율이 전체의 1% 미만이라는 점을 보여준다. -
그럼에도 불구하고 최적화가 없으면
이 모든 KV를 HBM·DRAM에 다 올려 두어야 하니 극도로 비효율적이 된다.
결국 이 데이터는 다음을 의미한다.
-
예전에는 “HBM 용량 ≒ 모델 크기(가중치)”가 설계 기준이었다면,
-
긴 컨텍스트·큰 배치(동시 세션↑) 구간에서는
**HBM/DRAM 용량을 결정하는 주인공이 모델이 아니라 KV 캐시(컨텍스트 상태)**로 바뀌고 있다.
즉, ChatGPT5 세대에서 체감하는 “메모리 폭증”은
모델이 커져서가 아니라, KV가 모델을 추월하는 구간에 들어섰기 때문이라고 보는 편이 더 정확하다.
5. 인간의 학습곡선 vs Physical AI의 반복학습
여기서 하나를 더 얹어야 한다.
바로 “인간의 학습곡선”과 Physical AI의 관계이다.
5-1. 인간의 학습곡선
인간은 같은 동작·경험·사고·노동을 반복할수록:
-
신경 회로(가중치) 자체가 바뀌고,
-
점점 더 빠르고, 정확하고, 에너지 효율적인 방식으로 일을 하게 된다.
운전, 수술, 악기 연주, 스포츠, 글쓰기, 분석 작업 등
모두 반복 경험 → 숙련도↑ → 효율↑ 형태의 곡선을 그린다.
즉, 경험 데이터 = 파라미터를 갱신하는 재학습 재료이다.
5-2. Physical AI도 같은 방향으로 간다
지금의 LLM은:
-
“대화 세션 안의 문맥 활용”은 잘하지만,
-
매 세션의 경험이 실시간으로 파라미터를 바꾸지는 않는다.
(대부분은 별도의 재학습 파이프라인에서 업데이트한다.)
그러나 Physical AI가 본격화되면:
-
자율주행차, 로봇, 드론, 제조설비, 물류 시스템 등이
실제 세계를 움직이며, -
반복해서:
-
센서 데이터(카메라·LiDAR·IMU·힘·온도),
-
행동 로그(가속·제동·경로·조작),
-
결과(성공/실패, 안전 여부)를 축적하고,
-
-
이를 기반으로 정책·월드 모델을 계속 업데이트하게 된다.
즉, 인간처럼
반복된 경험 → Physical AI의 학습곡선 →
실생활에서의 유용성과 효율성(성공률·안전성·에너지 효율) 향상
이라는 경로를 밟게 된다는 것이다.
5-3. 왜 전 계층 메모리 확장이 필수인가
인간의 뇌는:
-
경험을 장기 기억으로 저장하고,
-
필요할 때 꺼내 쓰면서
-
신경 연결을 재구성한다.
Physical AI가 유사한 학습곡선을 가지려면:
-
**엄청난 양의 경험 로그(비정형 데이터)**를
값싸게 오래 저장해야 한다. (자율주행 로그, 로봇 작업 로그, 센서 스트림, 실패 사례 등) -
필요할 때 이 데이터를 다시 꺼내
재학습·미세조정·월드모델 업데이트에 써야 한다. -
일부는 거의 실시간에 가까운 온라인 학습으로 정책이나 내부 상태를 계속 수정할 수도 있다.
이 모든 과정은 곧:
-
COLD 스토리지(HDD·eSSD·HBF)의 용량↑
-
Warm DRAM/CXL 메모리의 용량↑
-
프리필·온라인 학습 처리용 GDDR/LPDDR/SOCAMM의 용량·대역폭↑
-
실시간 디코드·제어 루프를 위한 HBM의 용량·대역폭·전력 효율↑
을 함께 요구한다는 뜻이다.
즉,
인간이 경험을 반복하며 신경망 가중치를 바꾸듯,
Physical AI도 센서·행동·결과 로그를 반복 학습에 써서
자체 파라미터(정책·월드모델)를 업데이트한다.
그 과정속에서 경험을 저장·재활용·실시간 처리할 수 있는 전 계층 메모리 인프라 확장이 필수이다.
라는 결론이 자연스럽게 따라온다.
6. 모델↑ + 컨텍스트↑ + 유용성↑ + 반복학습↑ → 토큰·데이터·메모리 폭증
지금까지의 논의를 하나로 묶으면 다음과 같다.
-
모델 파라미터 증가
-
더 많은 세계(언어·시각·센서·행동)를 표현·추론하기 위해
두뇌 용량 자체가 커진다.
-
-
컨텍스트 길이 증가
-
사용자 수·세션 길이·개인화 수요가 늘면서
한 세션 안에 다뤄야 할 회의록(텍스트 컨텍스트)이 길어진다. -
KV 캐시 메모리가 모델 가중치를 추월하는 구간이 나타난다.
-
-
서비스 유용성·복잡도 증가
-
체인오브소트, 자기검증, 다단계 플로우, 리포트·코드·전략안 출력 등
입력·출력·내부 추론 토큰이 모두 증가한다. -
디코드 단계에서의 KV 읽기 횟수와 HBM 트래픽이 급증한다.
-
-
Physical AI의 반복학습(학습곡선)
-
자율주행·로봇·엣지 디바이스가
실제 세계에서 경험 로그를 쌓고 재학습하면서
장기적으로 더 큰 데이터·더 잦은 업데이트가 필요해진다.
-
이 네 축이 맞물리면:
토큰 수(입력·출력·내부) + 경험 데이터량 + 학습·추론 부하가
동시에 기하급수적으로 증가하고,
이를 지탱하기 위해
모든 메모리 계층(스토리지~HBM)의 용량·대역폭·전력 효율 수요가
함께 폭증하는 구조가 된다.
7. 메모리 계층별로 보면 어떤 그림이 되는가
간단히 계층별 키워드만 다시 정리하면 다음과 같다.
7-1. HDD·eSSD·HBF (스토리지)
-
역할
-
웹·코드·이미지·동영상
-
자율주행·로봇 로그
-
학습·재학습용 원천 데이터
-
-
왜↑
-
Physical AI의 경험 데이터(비디오·센서)가 폭증하면서
엑사바이트급 COLD 창고가 필요해진다.
-
7-2. DDR·CXL DRAM (시스템 메모리)
-
역할
-
RAG 인덱스, 검색 캐시, 세션 상태
-
에이전트 오케스트레이션 중간 결과
-
CXL 기반 대용량 DRAM 풀
-
-
왜↑
-
세션 수↑, 에이전트 복잡도↑로
HBM에 다 올릴 수 없는 데이터·상태를 받쳐 주는 중간 계층 필요성이 커진다.
-
7-3. GDDR·LPDDR·SOCAMM (SoC 메모리)
-
역할
-
프리필 단계(긴 컨텍스트를 읽고 KV 생성) 대량 처리
-
엣지/온디바이스 AI(차·로봇·모바일)의 로컬 메모리
-
-
왜↑
-
긴 프리필을 더 값싸게 처리해야 하고,
-
HBM이 없는 디바이스에서도 Physical AI를 돌려야 하기 때문이다.
-
7-4. HBM (초고대역 핫 메모리)
-
역할
-
디코드 단계(토큰 생성)의 KV 캐시·핵심 파라미터·멀티모달 피처 저장
-
실시간 Physical 제어 루프의 핵심 모델 상주
-
-
왜↑
-
모델 파라미터↑, 컨텍스트·KV 길이↑, 토큰/초 요구↑, 지연↓ 요구,
멀티모달·센서 피처 처리량↑로 인해
토큰/초, 토큰/MW, 행동/초를 결정짓는 마지막 병목이 되기 때문이다.
-
8. 결론
핵심만 다시 묶으면 다음과 같다.
-
LLM 구조 자체가 메모리 바운드이다.
LLM은 고정된 두뇌(모델 파라미터)를 두고, 매 요청마다 긴 텍스트 컨텍스트를 읽어 프리필 단계에서 KV 캐시를 만들고, 디코드 단계에서 이 KV를 계속 읽으면서 토큰을 생성한다.
연산량보다 KV를 읽고 옮기는 메모리·인터커넥트 트래픽이 지연과 에너지의 주된 병목이 되는 구조이다. -
ChatGPT5 세대에서 메모리가 “갑자기” 튄 이유는 세 축의 동시 임계점 돌파 때문이다.
멀티모달·대형 모델로 인해 한 GPU/HBM에 “모델+KV”를 여유 있게 올리던 시대가 끝났고, 128k~1M급 긴 컨텍스트와 큰 배치가 실사용에 들어오면서 KV 캐시가 파라미터를 넘어서는 메모리 지배자가 되었다.
동시에 체인오브소트·자기검증·에이전트 오케스트레이션으로 내부 토큰과 KV 접근 횟수가 폭증해, 기존의 완만한 증가가 인프라 입장에선 **“급등”**으로 보이는 구간에 들어간 것이다. -
실측 데이터는 ‘HBM 기준 = 모델 크기’ 시대의 종말을 보여준다.
시퀀스 길이·배치 크기가 커지면 동일 모델에서 KV 메모리 > 모델 가중치 메모리 구간이 빠르게 나타난다. 긴 컨텍스트에서도 실제로 참조되는 Key는 1% 미만이지만, 최적화가 없으면 이 전체 상태를 HBM·DRAM에 올려야 한다.
설계 기준이 “파라미터 용량”에서 “KV 캐시(컨텍스트 상태)”로 이동하고 있음을 시사한다. -
Physical AI·반복학습은 전 계층 메모리 확장을 전제조건으로 요구한다.
자율주행·로봇·엣지 디바이스가 현실 세계에서 쌓는 방대한 센서 로그와 행동 기록은, 인간의 경험처럼 장기 재학습·미세조정·온라인 업데이트의 재료가 된다.
이 경로를 타려면 값싼 COLD 스토리지(HDD·eSSD·HBF), 대용량 DRAM/CXL, 프리필·학습용 GDDR/LPDDR/SOCAMM, 실시간 제어용 HBM까지 모든 메모리 계층에서 용량·대역폭·전력 효율이 동시에 커져야만 한다.
마지막으로, 데이터센터는 전력·부지·용수라는 물리적 상한을 가진다.
앞으로의 경쟁은 필연적으로
가용 전력 1MW당 얼마만큼의 유효 토큰·유효 행동을 뽑아내는가
(토큰/MW, 행동/MW, 토큰/TCO)
로 귀결될 것이며, 이 비율을 결정짓는 최종 병목이 바로
KV 중심으로 재편되는 메모리 계층 전체이다.
요약하면,
AI 보편화 + AGI·Physical AI 진화 + 인간식 반복학습이라는 세 흐름이 겹치면서,
모델 파라미터·컨텍스트·내부·외부 토큰·경험 데이터가 동시에 폭발적으로 증가하고 있다.
이는 곧 스토리지에서 HBM에 이르는 전 계층 메모리의 기하급수적 확장 수요로 곧장 연결되는 구조라고 볼 수 있다.
=끝
댓글 없음:
댓글 쓰기