2026년 3월 31일 화요일

생각정리 214 (* HBM Bottleneck Era)

이전글에 추가적인 HBM 산업 리서치를 이어나가본다.


AI 시대가 깊어질수록, 결국 더 중요해지는 것은 HBM이다


이전 글에 이어 이번에는 AI 서버, HBM 수요와 공급, 그리고 관련 기업들의 투자포인트까지 조금 더 확장해서 정리해보려고 한다.

이번 리서치를 하면서 가장 크게 느낀 점은 명확하다.

앞으로 LLM의 토큰 수요는 계속 폭발적으로 증가할 가능성이 높다는 점이다.
그 증가 속도는 우리가 지금 일반적으로 가정하는 수준보다 더 빠를 수 있다.

그래서 오히려 현 시점에서 먼 미래의 토큰 수요를 숫자로 정교하게 맞추는 작업은 점점 덜 중요해질 수도 있다고 생각한다.
미래 수요가 너무 빠르게 변하기 때문이다. (*Upward)

핵심은 단순하다.
정확한 숫자 하나보다 더 중요한 것은, 수요가 구조적으로 계속 커질 수밖에 없는 방향성이다.


이번 리서치가 더 의미 있게 느껴진 이유


나는 기술업계 종사자도 아니고, 반도체 엔지니어도 아니다.
외부 비전문가에 가까운 금융업계 투자자다.

그럼에도 불구하고, AI 성능향상 덕에 이전에는 상상할 수조차 없었던 수준의 리서치를 이젠 할 수 있게 되었다. 
이 점이 꽤 중요하게 느껴졌다.

이는 나만의 예외적인 사례라기보다,
조금만 공부하고 AI를 잘 활용하면
상당수의 다수의 산업 종사자들도 이전보다 훨씬 높은 생산성을 낼 수 있다는 뜻에 가깝다.

이 말은 결국 AI의 확산 속도가 생각보다 더 빠를 수 있다는 의미다.

AI는 이제 일부 테크 기업이나 연구자만의 도구가 아니다.
금융, 제조, 유통, 의료, 서비스업 등 거의 모든 산업에서
AI는 점점 더 일상적인 생산성 도구가 될 가능성이 높다.

그리고 그 결과는 자연스럽게
토큰 사용량이 산업 전반에서 폭발적으로 증가할 수밖에 없다.


문제는 수요보다 공급일 수 있다


토큰 사용량이 늘어난다는 것은 결국
더 많은 AI 연산이 필요하다는 뜻이다.

그런데 수요는 빠르게 늘어날 수 있어도
그 수요를 처리할 칩 공급은 그렇게 쉽게 늘지 않는다.

특히 AI 서버에 들어가는 고성능 칩은
대부분 선단공정에서 생산된다.
이 영역은 이미 물리적 한계에 가까운 초미세 공정이다.

즉, 생산능력을 늘리는 것이 쉽지 않다.
설비투자도 크고, 시간도 오래 걸린다.
수율 안정화도 어렵다.

결국 수요는 폭증하는데
공급은 그 속도를 따라가기 어렵다.

나는 이번 리서치를 하면서

직감적으로 앞으로의 핵심 병목은 점점 더 강해질 가능성이 높다고 느꼈다.
특히 선단공정처럼 미세화가 극단으로 갈수록
그 한계는 더 뚜렷해질 가능성이 높다.


GPU와 ASIC의 경쟁처럼 보이지만, 본질은 메모리일 수 있다


일부에서는 앞으로의 AI 반도체 시장을
GPU와 ASIC의 경쟁 구도로 해석한다.

물론 맞는 말이다.
ASIC은 특정 고객 맞춤형 설계에 강점이 있고,
실제로 관련 시장도 빠르게 커지고 있다.

하지만 내 생각은 조금 다르다.

앞으로 AI 산업이
학습 중심 시대를 지나
추론 중심 시대로 이동하고,
그 위에 Agent AI 시대까지 본격화되면
중요해지는 것은 단순한 연산 성능만이 아니다.

훨씬 더 많은 데이터를 빠르게 읽고, 저장하고, 교환해야 한다.
이 과정에서 메모리의 중요성은 더욱 커질 수밖에 없다.

바로 이 지점에서 HBM이 중요해진다.

HBM은 AI 서버 성능을 사실상 좌우하는 핵심 부품이다.
연산칩이 좋아도 메모리가 받쳐주지 못하면
전체 시스템 성능은 제한될 수밖에 없다.

그래서 나는 앞으로 AI 반도체 시장의 핵심 경쟁력이
단순한 연산칩 자체보다
메모리 구조와 HBM 확보 능력 쪽으로 더 이동할 가능성이 높다고 본다.

ASIC 시장은 계속 성장할 수 있다.
하지만 메모리 경쟁력 측면에서는
메모리 아키텍처의 구조적 강점과 HBM 확보 능력에 강점이 있는 GPU 진영과 그렇지 않은 진영과의 격차가 앞으로도 쉽게 줄어들지 않고, 
되려 격차가 더 벌어질 가능성이 높다고 생각한다.


그래서 이번 분석은 수요와 공급을 함께 봤다


이번 글은 단순히
“HBM이 중요하다”는 수준의 이야기를 하려는 것이 아니다.

조금 더 구조적으로 접근해보려 했다.

먼저 수요 측면에서는
ASIC 진영의 대표 기업인 BroadcomMarvell의 백엔드 수주 흐름을 점검했다.

그 위에 GPU 진영의 NVIDIAAMD까지 포함해서
전체 AI 서버 전방 수요를 추정하려고 했다.

공급 측면에서는
메모리 3사의 공급능력과 공급계획을 바탕으로
실질적인 HBM 공급 여력을 추정하려고 했다.

그리고 마지막으로
수요와 공급을 함께 놓고
앞으로 HBM 수급이 얼마나 타이트할지를 전망해보려 했다.

그 이후에는 자연스럽게
관련 밸류체인 기업들의 어닝모델 업데이트까지 연결되는 구조다.


HBM 수요 모델을 볼 때 중요한 점

*Visible Demand (*HBM 하단수요)

HBM 수요를 볼 때
단순히 “AI 서버가 몇 대 팔리는가”만 보면 부족하다.

더 중요한 것은
어떤 칩이 얼마나 팔리는지,
그 칩에 HBM이 몇 개 들어가는지,
그리고 그 HBM이 어떤 세대인지까지 함께 보는 것이다.

같은 AI 서버 시장 성장이라도
탑재되는 GPU나 ASIC 종류가 달라지면
HBM 사용량은 크게 달라질 수 있다.

즉, HBM 수요는 단순한 서버 숫자의 함수가 아니다.
칩 구조와 메모리 탑재량의 함수다.

그래서 이번 분석에서는
칩별 로드맵과 제품 세대, 예상 메모리 탑재량까지 같이 보려고 했다.


#Visible HBM Demand 




#시각화자료










HBM 시리즈를 세 가지로 구분한 이유


이번 분석에서는 HBM을 단순히 세대별로만 나누지 않았다.
정보의 확실성 수준에 따라 세 가지로 구분했다.

이렇게 나눈 이유는 간단하다.
팩트와 가정을 명확히 분리하기 위해서다.

1. 공식적으로 확인된 세대

HBM3E, HBM4, HBM4E처럼
공개 자료를 통해 세대가 비교적 명확하게 확인된 경우다.

이 구간은 실제 기업 발표나 제품 스펙에 기반한
상대적으로 확정된 정보라고 보면 된다.

2. 세대명이 공개되지 않은 경우

HBM이 탑재된다는 점과 용량은 알려져 있지만
정확히 HBM3E인지 HBM4인지 공개되지 않은 경우도 있다.

이 경우 특정 세대로 억지 분류하면
오히려 해석이 왜곡될 수 있다.

그래서 이런 항목은
HBM (undisclosed gen)처럼
중립적으로 묶는 편이 더 합리적이다.

3. 분석적으로 추정한 미래 세대

HBM4(assumed), HBM4E(assumed), HBM5(assumed)처럼
공식 확인이 아니라 분석적으로 추정한 세대도 있다.

이 경우는 출시 시점, 예상 용량, 업계 기술 전환 속도를 바탕으로
가장 합리적인 세대를 배정한 것이다.

이 세 가지를 구분하지 않으면
확정된 정보와 분석 가정이 뒤섞이게 된다.

특히 2027년 이후 제품들은
로드맵은 존재하지만 메모리 세대가 모두 공개되지 않은 경우가 많다.
그래서 이 구분은 단순한 형식이 아니라
수요 해석의 왜곡을 막기 위한 장치라고 보는 편이 맞다.


#Visible HBM Supply












공급은 왜 이론상 공급과 실제 공급을 나눠서 봐야 하나


HBM 시장을 볼 때 가장 자주 생기는 착시는
공급(Visible Supply)을 곧바로 실제 출하 가능한 공급(Shippable Supply)으로 받아들이는 것이다.

하지만 HBM은 일반 DRAM과 다르다.
단순히 생산 계획상 물량이 잡혀 있다고 해서, 그 물량이 그대로 시장에 전달되는 구조가 아니다.

HBM은 메모리 생산 외에도
적층 수율, 패키징, 고객 인증, 세대 전환 안정화 같은 요소가 모두 맞아야 실제 출하가 가능하다.

그래서 HBM 공급은
두 단계로 나눠서 보는 것이 더 현실적이다.

바로 Visible Supply, Haircut, Shippable Supply다.


1. Visible Supply: 표면상 확보된 공급량


Visible Supply는
현재 시장에서 확인 가능한 기준으로 잡히는 공급량이다.

쉽게 말해
“지금 보이는 프로그램과 생산계획을 기준으로 보면 이 정도는 공급될 것”이라는 숫자다.

아래 첨부된 모델 기준으로 보면 Visible Supply는
2026년 0.58EB, 2027년 1.21EB, 2028년 1.75EB, 2029년 2.26EB, 2030년 2.67EB다.

겉으로 보면 공급은 매년 꾸준히 늘어난다.
그래서 표면적으로는 공급 부족이 다소 완화되는 것처럼 보일 수 있다.

하지만 이 숫자는 어디까지나 보이는 공급이다.
즉, 아직 실제 납품 가능 물량과는 다를 수 있다.


2. Haircut: 실제 출하 과정에서 빠지는 물량


문제는 이 Visible Supply가
그대로 최종 공급으로 이어지지 않는다는 점이다.

그래서 중간에 Haircut이라는 개념이 필요하다.

Haircut은
보이는 공급량 중 실제로는 제때 출하되지 못하는 부분을 뜻한다.

첨부된 모델 기준 Haircut은
2026년 0.04EB, 2027년 0.10EB, 2028년 0.12EB, 2029년 0.10EB, 2030년 0.12EB다.

이를 Visible Supply 대비 비율로 보면
2026년 7.4%, 2027년 8.0%, 2028년 6.7%, 2029년 4.3%, 2030년 4.4%다.

즉, 시장에서 보이는 공급 중 일부는
실제로는 수율 이슈, 패키징 병목, 고객 qualification 지연, 세대 전환 과정의 마찰로 인해 빠진다고 봐야 한다.

중요한 점은
Haircut이 단순한 보수 가정이 아니라는 점이다.
이것은 HBM 시장의 구조적 마찰 비용을 반영한 수치다.


3. Shippable Supply: 실제로 시장에 인도 가능한 물량


Shippable Supply

최종적으로 고객에게 제때 납품 가능한 공급량이다.

계산은 단순하다.

Shippable Supply = Visible Supply - Haircut

첨부된 모델 기준으로 Shippable Supply는
2026년 0.54EB, 2027년 1.11EB, 2028년 1.63EB, 2029년 2.16EB, 2030년 2.55EB다.

즉,
보이는 공급이 Visible Supply이고,
그중 현실적으로 빠지는 부분이 Haircut이며,
최종적으로 실제 납품 가능한 양이 Shippable Supply다.

시장 가격과 체감 공급 부족은
결국 이 Shippable Supply에 의해 결정된다.

실제 시장 전체 수요를 충족하기에는 여전히 크게 부족한 구조다.


HBM 수요 추정치가 달라진 이유


이전의 Visible Demand 기준 HBM 수요와
아래의 Normal Market demand 기준 HBM 수요가 다르게 보이는 이유는,
두 모델의 기준 범위가 서로 다르기 때문이다.

초기 바텀업 모델은
공개된 GPU·ASIC 프로그램을 중심으로 합산한 Visible Demand에 가깝다. (*확실한 하단수요)

반면 이후 아래의 Normal Market demand HBM 수요는
Visible Demand에 Demand Adders를 추가해 계산한다.

핵심은 간단하다.

Visible Demand은 확실한 하단의 수요이고,
Normal Market Demand은 시장 전체가 실제로 요구하는 가수요 예측치이다.

즉, 공개된 수치만 보면 수요가 제한적(?)으로 보이지만,
실제 시장에서는 비공개 custom ASIC, CSP 내부 프로젝트, 선제적 확보 수요, 예상보다 빠른 램프업등이 붙으면서 체감 수요가 훨씬 커지는 구조다.










해석: 이론적 수요와 실질 공급은 매년 쉽게 맞아떨어지지 않는다


HBM 시장에서는
이론적으로 필요한 수요와 실제로 출하 가능한 공급이 매년 쉽게 맞아떨어지기 어렵다.

이론적 수요는
칩 로드맵과 서버 증설 계획을 바탕으로 빠르게 커질 수 있다.
반면 실제 공급은 그 속도를 그대로 따라가지 못한다.
공장이 생산할 수 있는 양이 늘어나도, 그 물량이 모두 실제 납품으로 이어지지는 않기 때문이다.

HBM은 일반 메모리보다 훨씬 복잡하다.
생산만으로 끝나지 않는다.
적층, 패키징, 인증, 세대 전환이 함께 맞아야 한다.
그래서 공급은 수요보다 느리게 반응할 가능성이 높다.

특히 수요가 급팽창하는 구간에서는
이론적 수요는 빠르게 늘어난다.
하지만 실질 공급은 단계적으로만 증가한다.
그래서 시장에서는 수요가 충분해 보여도 타이트한 상황이 이어질 수 있다.

여기에 더해
HBM 전방 수요시장은 닫힌 시장이 아니라 열린 시장에 가깝다.
새로운 기술이 도입될 때마다 성능이 올라간다.
추가 capacity가 공급될 때마다 활용 가능한 연산량도 커진다.
그 과정에서 기존 수요만 채워지는 것이 아니라, 새로운 전방 수요가 다시 열린다.

또 AI S/W와 H/W의 세대가 바뀔수록
LLM 성능은 계속 향상될 수 있다.
성능이 올라가면 적용 가능한 서비스와 workload 범위도 넓어진다.
그에 따라 AI 추론 수요시장 역시 계속 커질 수 있다.

즉, HBM 시장은
단순히 현재 보이는 수요만으로 끝나는 시장이 아니다.
기술 발전과 공급 확대가 동시에 새로운 수요를 다시 만들어내는 구조에 가깝다.
그래서 공급이 늘어나더라도, 그 증가분이 곧바로 공급 부족 해소로 이어진다고 단정하기 어렵다.

이는 마치 영원히 공급이 수요를 따라잡을 수 없을것 같은 아킬레우스와 거북이의 역설과 같이 느껴진다.

따라서 투자 관점에서 중요한 질문은
“메모리 회사가 얼마나 만들 수 있나”가 아니다.
**“올해 실제로 시장에 얼마를 풀 수 있나”**에 더 가깝다.


개별 기업별 투자포인트

NVIDIA: 단순 GPU 판매가 아니라 AI 팩토리 수요를 파는 구조





엔비디아의 전방 수요는
단순한 학습용 GPU 수요로만 보기 어렵다.

지금은 Agentic AI와 추론 중심으로
수요 구조가 더 넓어지는 구간에 들어가고 있다.

회사는 이를 사실상
compute = revenue라는 관점으로 설명하고 있다.
즉, 고객 입장에서는 연산능력 확보 자체가
곧 매출과 서비스 경쟁력으로 연결되는 구조다.

그래서 고객의 CapEx 지속성도
생각보다 더 길게 갈 수 있다.

현재 수요의 중심은 여전히 하이퍼스케일러다.
하지만 OpenAI, Anthropic, 오픈모델 생태계 확산과 함께
엔터프라이즈, 온프레미스, 산업용 수요까지 저변이 넓어지고 있다.

핵심 투자포인트는
Blackwell에서 Rubin으로 갈수록
단순 GPU 교체 수요가 아니라
AI 팩토리 전체 아키텍처 수요로 확장된다는 점이다.

즉, 엔비디아는 칩 한 개를 파는 회사가 아니라
AI 인프라 전체를 파는 구조로 더 진화하고 있다.


AMD: GPU를 넘어 시스템과 커스텀까지 확장될 가능성


AMD의 GPU 전방 수요도
단순 학습용 GPU 수요로만 보기 어렵다.

핵심은
추론 확산, 에이전트 도입, 랙스케일 AI 인프라 증설로 이어지는
구조적 수요 국면에 들어가고 있다는 점이다.

고객 측면에서도 의미 있는 변화가 있다.
Meta, OpenAI 같은 초대형 고객이
단순 구매자가 아니라
다세대 장기 파트너로 묶이는 흐름이 나타나고 있다.

이는 MI450 이후 세대까지
가시성을 높여주는 요인이다.
동시에 세미커스텀 확장 가능성도 키워준다.

투자포인트는 결국
2026년 하반기 MI450과 Helios 양산 램프가 본격화될 경우,
AMD가 단순 GPU 판매를 넘어
시스템, 소프트웨어, 커스텀 설계까지 점유범위를 넓힐 수 있다는 점이다.

그렇게 되면 데이터센터 AI 매출 성장률이
다시 상향될 가능성도 있다.



Broadcom: XPU는 단기 붐이 아니라 멀티이어 증설 사이클




브로드컴의 XPU 전방 수요는
단순한 단기 유행이나 일회성 수주로 보기 어렵다.

오히려 멀티이어 증설 사이클로 보는 편이 더 맞다고 생각한다.

핵심은 고객 기반과 물량 가시성이다.
회사는 기존 5개 고객에 더해
OpenAI를 6번째 고객으로 언급했다.

또한 2026~2028년 웨이퍼, HBM, 기판 공급을
선제적으로 확보했다고 밝히고 있다.
이는 2027~2028년까지 물량 가시성이 높다는 의미다.

고객 수요의 질도 강하다.
Google TPU, Anthropic, Meta의 차세대 MTIA,
기존 고객 확대, OpenAI의 대규모 배치 계획 등을 감안하면
브로드컴은 단순 프로젝트성 매출이 아니라
소수 초대형 고객의 핵심 전략 로드맵 안에 깊게 들어가 있는 구조로 보인다.

투자포인트는 결국
고객별 GW 단위 확장성이다.

즉, XPU 단가 자체만 볼 것이 아니라
스위치, DSP, SerDes 등
네트워킹과 연결 부품까지 함께 붙는 실리콘 콘텐츠 확대를 같이 봐야 한다.

브로드컴은 AI 칩 한 종류의 수혜가 아니라
AI 인프라 전체 안에서 시장점유율이 커질 수 있는 구조라는 점이 중요하다.


Marvell: XPU 본체보다 attach 매출 확대가 핵심




마벨의 XPU 전방 수요는
이제 막 초기 확산을 논하는 단계라기보다
본격 램프업 구간에 진입하는 흐름으로 보는 편이 맞다.

회사는 기존 리드 XPU 프로그램 전환과
신규 Tier-1 하이퍼스케일러 프로그램의 고볼륨 양산을 근거로
커스텀 매출의 큰 폭 성장을 제시하고 있다.

고객 구조도 나쁘지 않다.
특정 1개 고객 의존이 아니라
상위 하이퍼스케일러 전반으로 확산되는 모습이기 때문이다.

경영진은 상위 미국 하이퍼스케일러 전반에 깊게 관여하고 있고,
누적 디자인윈이 매출화되면서
시간이 갈수록 고객 분산이 개선된다고 설명하고 있다.

투자포인트는 XPU 본체보다
오히려 attach 매출의 동반 확대다.

즉, XPU 자체뿐 아니라
Custom NIC, CXL 같은 attach 제품군까지 같이 수혜를 받는 구조다.

이 말은 마벨이 단순히 칩 한 종류를 공급하는 것이 아니라
AI 인프라 안에서 점유할 수 있는 매출 범위가 넓어질 수 있다는 뜻이다.

결국 핵심은
AI 인프라 내 지갑점유율 확대다.


결국 무엇이 핵심인가


정리하면 이번 리서치를 통해 더 강하게 느낀 것은 네 가지다.

첫째, AI 토큰 수요는 앞으로도 구조적으로 계속 늘어날 가능성이 높다는 점이다.

둘째, 그 수요를 감당할 만큼
선단공정 칩과 HBM 공급은 쉽게 늘어나기 어렵다는 점이다.

셋째, HBM 시장에서는
이론적 수요와 실질 공급이 매년 깔끔하게 맞아떨어지기 어렵고,
그래서 공급 부족은 생각보다 더 오래 지속될 수 있다는 점이다.

넷째, 앞으로 AI 반도체 시장에서는
단순한 연산 성능 경쟁보다
메모리 경쟁력과 실제 공급 가능성이 더 중요해질 수 있다는 점이다.

그리고 개별 기업 관점에서는
NVIDIA와 AMD가 GPU 중심에서 시스템 전체로 확장되는 흐름을 봐야 하고,
Broadcom과 Marvell은 커스텀 XPU 자체보다
고객 락인과 attach 매출 확대까지 함께 봐야 한다.

결국 시장의 본질은 점점 더 분명해지고 있다.

AI 시대가 깊어질수록 병목의 핵심은 연산칩 자체보다, 그 칩을 실제로 움직이게 하는 HBM의 실질 공급능력에 더 가까워질 가능성이 높다.


AI 인프라 시장의 승부는 단순한 칩 경쟁이 아니라, 폭증하는 수요를 실제로 감당할 수 있는 HBM의 실질 공급능력과 시스템 지배력의 경쟁으로 이동하고 있지 않나 싶다.



#글을 마치며 

컴퓨팅, 연산용 GPU 품귀현상이 이렇게나 심한데..
HBM 과잉공급이 왠말이고 HBM4 퀄테스트 탈락은 또 무슨말인지..


정신나간 하락아닌가..? 어질어질..
@ㅅ@


개인적으로 HBM 과잉공급에 따른 메모리 폭락론은 미친소리라고 생각하는데.. 
이렇게 생각하는 내가 미친건가.. 

라고 말하면 안되겠지.. 

=끝

2026년 3월 30일 월요일

생각정리 213 (* 메모리 패닉셀)

중동 사태가 악화되면서 그동안 레버리지 청산인가 싶을정도의 메모리를 중심으로 패닉셀이 나타나는 모습이다.

산업이나 매크로 외부변수를 제외한 산업, 그리고 개별기업 펀더에 별 이슈는 없는지 한번 점검해보고자 한다.

아침에 눈뜨고 가장 먼저 마이크론 주가를 확인한지 언 일주일은 되가는 듯 싶다.


최근 DRAM 시장


중국 DDR5 가격만 보고 업황을 판단하면 안 되는 이유


1. 최근 논란의 출발점


중국 consumer DDR5 가격 하락

최근 중국 화창베이에서 consumer DDR5 현물 가격이 빠르게 하락했다는 소식이 나왔다.
이 때문에 일부에서는 DRAM 업황이 꺾이는 것 아니냐는 해석도 내놓고 있다.

하지만 지금 시장은 그렇게 단순하지 않다.
현재 DRAM 시장은 하나의 시장이 아니라, 성격이 다른 두 개의 시장으로 나뉘어 움직이고 있기 때문이다.


2. 가장 중요한 구분


Consumer DDR5와 AI Server DDR5는 다르다


중국 consumer DDR5는 기본적으로 유통시장이다.
재고 수준, 조립 PC 수요, 단기 회전율, 상인들의 현금화 압력에 따라 가격이 크게 흔들릴 수 있다.

반면 AI 서버향 DDR5와 HBM은 계약시장에 가깝다.
이쪽은 hyperscaler, GPU/ASIC 고객, 서버 OEM, CSP의 투자와 장기 조달 계약이 핵심이다.

즉, 같은 DDR5라는 이름을 쓰더라도

  • consumer DDR5 spot

  • AI server DDR5 contract

이 둘은 사실상 다른 시장으로 봐야 한다.


3. 최근 메모리 어닝콜 및 인터뷰 공통 메시지


공급의 중심은 서버와 HBM으로 이동 중

삼성전자는 최근 실적 발표에서 메모리 사업이 HBM, server DDR5, enterprise SSD 같은 고부가 제품 중심으로 수익성을 개선했다고 설명했다.
출처

SK하이닉스도 2026년 시장을 HBM이 이끄는 AI 메모리 슈퍼사이클로 규정했다.
출처

즉, 주요 업체들의 공급 우선순위는 이미 consumer spot이 아니라 server DRAM과 HBM 쪽으로 이동하고 있다.


4. 마이크론 어닝콜의 핵심


SCA와 데이터센터 bit TAM 50% 초과


마이크론의 최근 어닝콜은 이 구조 변화를 더 분명하게 보여준다.

회사는

  • 첫 5년짜리 SCA(Strategic Customer Agreement)를 체결했다고 밝혔고

  • 2026년에는 데이터센터 DRAM·NAND bit TAM이 전체 TAM의 50%를 처음 넘을 것이라고 설명했다.

출처

이 의미는 분명하다.
메모리 수요의 중심이 점점 더 consumer 시장에서 AI 데이터센터 시장으로 이동하고 있다는 뜻이다.


5. 가격보다 더 중요한 것


어떤 DRAM이 오르고 있는가




차트를 보면 DDR5와 DDR4 가격은 이미 2025년 4분기 이후 가파르게 반등했다.
즉, DRAM 가격 자체는 이미 강하게 올라온 구간이다.

그런데 삼성전자, SK하이닉스, 마이크론 주가는 이 흐름을 단순하게 따라가지 않았다.
이는 시장이 단순 spot 가격보다도

  • 앞으로 어떤 제품이 실적을 이끌지

  • AI 서버 수요가 얼마나 오래 지속될지

  • HBM 비중이 얼마나 더 확대될지


를 더 중요하게 보고 있다는 의미다. (*중동전쟁 이전 과거 얘기임..)

결국 지금은 DRAM 가격이 오르느냐보다, 어느 시장의 DRAM이 업황을 이끄느냐가 더 중요하다.


6. 숫자로 보면 더 분명하다


글로벌 DRAM bit mix 전망


아래는 과거 삼성전자, SK하이닉스, 마이크론 3사를 기준으로 정리한 글로벌 DRAM bit mix 추정치다.



이 표가 말하는 핵심은 단순하다.

핵심 포인트

  • Consumer B2C spot 비중은 매우 작다

  • Server DRAM B2B contract + HBM이 이미 시장의 중심 축이다

  • 2027년에는 이 비중이 더 확대될 가능성이 높다

즉, 최근 중국 consumer DDR5 가격 하락은 존재하는 신호이지만, 전체 DRAM 업황을 대표하는 핵심 변수는 아니다.


7. Anthropic 사례가 시사하는 점


AI inference 수요는 여전히 강하다


이 해석은 최근 Anthropic 사례와도 연결된다.

Anthropic은 Google Cloud 사용을 크게 확대하겠다고 밝히며,

  • 최대 100만 개 TPU

  • 2026년에 1GW를 크게 웃도는 capacity 확보 계획

을 공개했다.
출처

이는 AI 서비스 수요가 계속 늘고 있고, 그에 맞춰 데이터센터 연산 인프라와 메모리 투자도 계속 확대될 가능성이 높다는 의미다.

AI가 학습 중심에서 inference와 agent AI 중심으로 확산될수록, 서버는 더 많은 DDR5와 HBM을 필요로 하게 된다.


8. 결론


지금 DRAM 사이클의 중심은 어디인가


최근 중국 consumer DDR5 가격 하락만 보고 **“DRAM 업황이 꺾였다”**고 해석하는 것은 무리가 있다.

지금 시장의 중심은 화창베이 spot 가격이 아니라,

  • AI inference 확대에 따른 서버 메모리 수요

  • HBM 공급 우선순위

  • CSP와 hyperscaler의 장기 조달 계약

이다.

정리하면, 최근 DRAM 시장은

  • 중국 consumer DDR5 spot 약세

  • AI 서버향 DDR5·HBM 강세

가 동시에 나타나는 혼재 국면이다.
하지만 중장기 사이클을 실제로 이끄는 쪽은 전자가 아니라 후자다.


9. 한 줄 요약


중국 consumer DDR5 spot 가격 하락은 국지적 신호일 수는 있어도, 지금 DRAM 중장기 사이클의 중심은 여전히 AI 서버향 DRAM과 HBM이다.

추가로, 트랜드포스에서 오늘자로 DRAM & NAND 고정계약가 상향조정 발표가 나서, 
이참에 메모리 3사 어닝모델도 같이 업데이트 해본다.


Sk Hynix 1M before


Sk Hynix 1M After


Micron 1M before

Micron 1M After


Samsung electric


#글을 마치며 


아, 그리고 낸드

특히 낸드를 더욱 주목해야하지 않을까 싶었다.

향간에 들리는 2026년 3월 NAND Flash 고정가 상승이 사실이고, 이 상승추세가 지속된다면 정말 2026년/2027년 연간 NAND opm이 55~60% / 70~80% 까지 올라갈 수 있겠다 싶긴하다..

그래도 상식적(?)으로 이건 너무 과도하니 일괄적으로 NAND Margin을 40~45%로 눌러 놓긴했다..

중동 전쟁에 따른 고유가가 시스템 리스크로 전이될지를 두고,
시장이 지나치게 비관적인 것인지,
아니면 내가 지나치게 낙관적인 것인지 판단이 쉽지 않다.

그 시각 차이가 너무 커서,
지금은 그 간극 자체를 가늠하기도 어렵다.

매수·매도 추천 의견 아님.

=끝

2026년 3월 29일 일요일

생각정리 212 (* 서울 중소형 도심 아파트, 문 어게인)

주말이 되면 우리부부는 보통 부동산 이야기를 하며 한 주를 마무리하곤 한다.

특히 최근에는 커뮤니티에서 신혼부부의 자가 마련을 둘러싼 갈등 글이 자주 눈에 띈다. 그런 글들을 읽고 있으면, 우리 역시 결혼이나 집 마련 시점이 지금보다 1년만 더 늦었어도 훨씬 더 어려워졌겠구나 하는 생각이 자주 든다.

이런 현실을 보다 보면 자연스럽게 한 가지 질문으로 이어진다.
왜 지금 이렇게 부동산, 주식투기 열기가 강한가.
그리고 더 나아가, 왜 이 흐름이 쉽게 꺼지기 어려운가.

이번 글은 그 질문을 서울 도심 아파트 자가 마련이라는 아주 구체적인 목표에 맞춰 다시 정리해보려는 글이다.

결국 지금의 투기 열풍은 단순한 유행이 아니라, 서울에서 내 집을 마련하기 위해 점점 더 높은 수익률이 요구되는 현실과 맞닿아 있기 때문이다.

서울 핵심지 내 집 마련이 이제는 근로소득 게임이 아니라 자산운용 게임으로 바뀌었다.


서울 맞벌이 신혼부부, 왜 59㎡ 아파트 자가 마련이 점점 어려워졌을까


서울에서 맞벌이 신혼부부가 59㎡ 아파트를 산다는 것은 이제 단순히 “열심히 저축하면 되는 일”이 아니다.

문제는 집값만 높은 것이 아니다. 전세는 줄고, 월세는 늘고, 종잣돈이 쌓이는 속도보다 집값이 더 빨리 움직인다는 점이 더 크다.

그래서 지금 서울에서 내 집 마련은 이렇게 바뀌었다.

저축만으로는 어렵다.
대출만으로도 부족하다.
결국 맞벌이 소득, 종잣돈, 투자수익률이 함께 맞물려야 한다.

이 글은 바로 그 구조를 숫자로 보여주기 위한 정리다.


먼저 결론부터


서울 59㎡ 아파트를 목표로 할 때, 맞벌이 신혼부부가 마주하는 현실은 생각보다 단순하다.

  • 순수 저축만으로는 너무 오래 걸린다

  • 전세로 버티며 종잣돈을 모으는 전략도 예전보다 약해졌다

  • 그래서 일정 수준 이상의 투자수익률 확보가 사실상 필수가 된다


즉 지금 서울 주거시장은, 무주택 맞벌이 신혼부부에게 “안정적 저축”보다 “자산을 굴리는 능력”을 더 강하게 요구하는 시장이 됐다.


1. 서울 59㎡ 아파트, 어느 정도 가격인가


현재 서울 59㎡ 아파트 가격은 대체로 10억~12억원대로 인식하는 것이 맞다.
기존 정리 기준으로 보면 서울 전용 59㎡ 평균 매매가격은 약 10억5006만원, 민간 분양 59㎡ 평균가는 12억원대까지 올라와 있다.

즉 신혼부부가 가장 많이 보는 면적대조차 이미 중형 자산이 아니라 고가 자산이 됐다.


2. 소득, 지출, 저축은 어느 정도인가


이번 분석은 공식 통계와 기존 계산을 바탕으로 만든 현실적 추정 시나리오다.
정확한 “서울 거주 사회초년 맞벌이” 교차표가 바로 공개돼 있지는 않기 때문에, 아래 기준을 사용했다.

핵심 가정

  • 서울 신혼부부 평균소득: 연 9,388만원

  • 사회초년에 가까운 혼인 1년차 평균소득: 연 8,084만원

  • 총소득 대비 저축 가능 비율: 약 24.5%

  • 연간 투자 가능액

    • 기준 시나리오: 약 2,303만원

    • 보수적 시나리오: 약 1,983만원


3. 한눈에 보는 핵심 통계표


표 1. 서울 신혼부부 맞벌이 기준 핵심 수치




이 표가 의미하는 바는 분명하다.

서울 맞벌이 신혼부부라도 실제로 매달 꾸준히 모을 수 있는 돈은 150만~190만원대 수준으로 보는 것이 현실적이라는 뜻이다.

이 정도 저축만으로 6억~8억원 종잣돈을 만들기에는 시간이 너무 오래 걸린다.


4. 20대, 30대, 40대는 얼마나 다른가


연령대별로 보면 집을 사기 어려운 이유가 더 선명해진다.
20대는 소득이 낮고, 30대는 소득은 늘지만 주거비와 결혼 비용이 겹치고, 40대는 소득이 더 높아져도 자녀·교육비 부담이 커진다.

표 2. 연령대별 월소득과 월저축 가능액 추정



표만 보면 40대가 가장 유리해 보인다.

하지만 실제로는 40대에 들어서면 자녀 양육비, 교육비, 생활비가 더 커진다.

따라서 소득이 늘어난다고 해서 체감 난도가 크게 낮아지는 것은 아니다.

결국 서울 59㎡ 매입은 전 연령대에서 쉽지 않지만, 특히 20대와 30대는 초기 종잣돈 부족 문제가 가장 크다.


5. 순수 저축만으로 집을 사려면 얼마나 걸릴까


서울 59㎡ 평균 매매가격을 10억5006만원으로 놓고, 투자수익 없이 순수 저축만 한다고 가정하면 결과는 매우 냉정하다.

표 3. 순수 저축만으로 서울 59㎡ 매입까지 걸리는 기간



이 표는 사실상 한 가지를 말한다.

서울에서 59㎡ 아파트를 현금 저축만으로 사는 모델은 현실성이 거의 없다.
그래서 실제 시장에서는 전세보증금, 기존 자산, 가족 지원, 대출, 투자수익이 함께 들어오게 된다.


6. 그래서 왜 투자수익률이 중요해지는가


여기서부터가 핵심이다.
서울 신혼부부 맞벌이가 사회초년 시점부터 시작해 6억~8억원 종잣돈에 도달하려면, 사실상 저축만이 아니라 투자수익률이 시간 단축의 핵심 변수가 된다.

표 4. 기준 시나리오


가정: 연소득 9,388만원, 연간 투자 가능액 2,303만원



이 표에서 중요한 것은 숫자 자체보다 차이의 크기다.
연 0%와 연 5~7%의 차이는 단순한 수익률 차이가 아니다.
종잣돈 도달 시점을 10년 가까이 줄이는 차이다.


표 5. 보수적 시나리오


가정: 연소득 8,084만원, 연간 투자 가능액 1,983만원



보수적으로 봐도 흐름은 같다.

사회초년 수준 소득이 오래 유지되면 더 오래 걸리지만, 그래도 수익률이 붙는 순간 시간 구조가 달라진다.
즉 지금의 서울 주거시장은 사람들에게 자연스럽게 이런 메시지를 던지고 있다.

가만히 모아서는 늦다.
돈을 굴려야 한다.


7. 현실적으로 가장 참고할 구간은 어디인가


연 0%와 연 15%는 극단값에 가깝다.
실제로 장기 자산형성에서 많이 참고하는 구간은 연 4~7% 정도다.

표 6. 현실적 기대수익률 구간 요약


즉 서울 신혼부부 맞벌이가 초기자산 0원에서 출발해 6억~8억원 종잣돈을 만드는 데 걸리는 현실적인 시간은 대략 이 정도다.

  • 6억원: 약 15~20년

  • 7억원: 약 17~22년

  • 8억원: 약 18~24년


이 정도면 결론은 사실상 정해져 있다.
저축만으로는 시간이 너무 오래 걸린다.
그래서 일정 수준의 투자수익률 확보가 사실상 필수가 된다.


8. 왜 더 힘들어졌는가: 집값만의 문제가 아니다


서울 주거시장의 어려움은 단순히 집값에만 있지 않다.

  • 매매가격은 높아졌다

  • 전세 물량은 줄었다

  • 월세 부담은 커졌다

  • 저축여력은 월세와 생활비에 더 많이 잠식된다


예전에는 전세가 자산 형성의 사다리 역할을 했다.
지금은 그 사다리 자체가 약해졌다.
전세로 버티며 종잣돈을 모으는 전략이 어려워질수록, 맞벌이 신혼부부는 더 이른 시기부터 투자와 자산운용을 고민할 수밖에 없다.


9. 결국 지금 서울에서 내 집 마련이 뜻하는 것


지금 서울에서 59㎡ 아파트를 사겠다는 것은 단순히 월급을 모으겠다는 뜻이 아니다.
사실상 다음 네 가지를 동시에 만족해야 한다는 뜻에 가깝다.

  1. 맞벌이로 소득을 확보해야 한다

  2. 지출을 통제해 저축 여력을 만들어야 한다

  3. 종잣돈을 오래 묶어둘 수 있어야 한다

  4. 그 종잣돈이 물가와 집값을 따라갈 정도의 수익률을 내야 한다


즉 문제는 더 이상 “얼마나 아끼느냐”만이 아니다.
얼마나 잘 굴리느냐가 함께 중요해졌다.



정리


서울 맞벌이 신혼부부의 59㎡ 아파트 자가 마련이 어려운 이유는 명확하다.
집값이 높아서만이 아니다. 전세 축소, 월세 증가, 저축 속도 둔화, 자산가격 상승이 동시에 겹친 결과다.

그래서 지금은 이렇게 정리할 수 있다.

서울에서 내 집 마련은 더 이상 저축의 문제가 아니다.
저축 위에 투자수익률까지 얹어야 겨우 가능성이 생기는 시대다.


#글을마치며


(물론 위 글의 모든 전제는 앞으로 10년간 도심 아파트가격이 오르지 않는다는 비현실적인 전제이다..)


외부 충격으로 내수경기가 흔들릴 때마다 정부가 결국 선택하는 방법은 비슷하다.
가장 빠르고, 가장 손쉬운 방법은 역시 돈을 푸는 것이다.
특히 선거를 앞둔 시기라면 이런 유인은 더 강해질 수밖에 없다.

문제는 여기서 끝나지 않는다.
한 번 풀린 돈은 생각보다 쉽게 회수되지 않는다.
오히려 경기 회복 국면이 오면, 그동안 쌓여 있던 유동성에 통화유통속도까지 붙으면서 신용창출이 더 커질 가능성이 높다.
결국 위기 국면에서 풀린 돈은 사라지는 것이 아니라, 시간을 두고 다시 자산시장으로 흘러 들어간다.


https://www.busan.com/view/busan/view.php?code=2026033010252753660


나는 이번 중동 사태도 결국 비슷한 경로를 밟을 가능성이 높다고 본다.
위기 구간에서는 경기 방어를 위해 유동성이 풀리고, 사태가 진정되는 시점에는 다시 위험선호가 살아날 수 있다.
그 순간 가장 먼저 반응하는 것은 늘 똑같다.
유효수요는 확실한데 공급은 제한된 자산이다.

내 생각에 서울 도심 아파트가 바로 그 대표적인 자산이다.

실제로 최근 흐름을 봐도 그렇다.
M2 증가율은 이미 다시 꽤 높은 수준을 유지하고 있다.
2026년 1월 기준 M2 증가율은 전년동월대비 4.5%, 직전 2025년 12월은 5.4%였다.
나는 이를 바탕으로 2026년 이후에도 M2가 4%대 중후반에서 5%대 초반 정도의 완만한 증가 흐름을 이어갈 가능성이 높다고 본다.

반면 서울 아파트 가격은 다르게 움직일 수 있다.
앞서 시나리오에서도 2026년 이후 상승률을 12%, 9%, 7%, 6%, 5%로 점진적으로 낮춰 잡았지만, 그럼에도 여전히 M2 증가율보다 높은 구간이 이어진다.
이 말은 집값이 무조건 폭등한다는 뜻이 아니다.
다만 유동성은 전체로 퍼져도, 자산가격 상승은 수도권 핵심지에 더 비대칭적으로 집중될 수 있다는 뜻이다.

결국 앞으로의 자산 인플레이션은 모두가 같이 오르는 방식이 아니라,
확실한 유효수요만 존재하는 자산만 더 강하게 오르는 방식에 가까울 가능성이 높다.



여기에 정책까지 엇박자로 들어가면 문제는 더 심각해진다.
고가 다주택자와 임대사업자를 강하게 압박하면 겉으로는 투기 억제처럼 보일 수 있다.
하지만 시장은 늘 그렇게 단순하게 움직이지 않는다.
한쪽을 누르면 다른 쪽이 튄다.
그리고 그 풍선효과는 대개 실수요가 가장 강한 서울 중소형 아파트로 향한다.


https://n.news.naver.com/article/025/0003512623


결국 무슨 일이 벌어지느냐.
서울 핵심지의 중간 가격대 아파트가 더 가파르게 오르고,
정작 서민과 신혼부부가 노려야 할 구간의 진입장벽만 더 높아진다.
투기를 잡겠다는 정책이 오히려 실수요층의 자가 마련을 더 어렵게 만드는 역설로 돌아오는 셈이다.



https://n.news.naver.com/article/016/0002621420



https://n.news.naver.com/article/008/0005336581



https://n.news.naver.com/article/016/0002621050


그래서 나는 지금의 규제 방식이 문제를 해결하기보다, 오히려 악순환을 키울 가능성이 더 크다고 본다.
공급은 충분히 늘지 않는다.
유동성은 완전히 회수되지 않는다.
수요는 가장 안전하고 가장 강한 자산으로 다시 몰린다.
그 결과는 늘 비슷하다.
서울 핵심 주거자산은 더 강해지고, 무주택 실수요자의 진입장벽은 더 높아진다.

결국 중요한 것은 규제가 세냐 약하냐가 아니다.
더 중요한 것은 돈이 어디로 흐를 수밖에 없는 구조인가다.
그리고 지금의 구조를 보면, 나는 여전히 서울 도심의 공급 제한 자산이 가장 강한 자금 흡수처가 될 가능성이 높다고 본다.

규제로 때려잡으면 해결될 것이라고 말하지만, 현실은 늘 그 반대였다.
안 될 거라고 했잖아요.



Moon again...
이번 정권과 과거 문 정권의 부동산 정책실세(?)는 동일인인가 싶을정도임.

예전에는 자가 마련할 종잣돈을 충분히 모아놓고도 “지금은 너무 올라서 못 사겠다”, “조금만 더 기다려보겠다”라고 말하는 주변 지인들을 보면 답답한 마음에 지금이라도 부동산을 사야 한다고 굳이 설득해보려 한 적도 있었다.

하지만 이제는 그마저도 그냥 그려려니 한다..


한강 이북의 시대가 오는건가..?


이 총재 배우자 명의의 서울 강남구 역삼동 역삼래미안 아파트(59.53㎡)는 매도, 용산구 이촌동 아파트(83.11㎡)를 매수했으며 새 아파트 평가액은 19억5000


출처 : 이비엔(EBN)뉴스센터(https://www.ebn.co.kr)



=끝





2026년 3월 26일 목요일

생각정리 211 (* TurboQuant-3)

이전글에 이어 TurboQuant에 대한 리서치를 추가적으로 이어나가본다.



TurboQuant-3: 메모리 수요 감소가 아니라, Decode 효율 개선으로 읽어야 한다


이전 글에서는 구글의 TurboQuant를 두고 시장이 보인 반응, 즉 **“KV cache를 크게 압축할 수 있다면 앞으로 HBM 수요가 둔화되는 것 아닌가”**라는 해석이 다소 성급할 수 있다는 점을 중심으로 정리했다.

그 문제의식은 지금도 유효하다.

다만 이번에는 그 논점을 한 단계 더 분명하게 정리해보고 싶다.
왜냐하면 시장의 오해는 단순히 숫자를 과장해서 본 문제가 아니라, AI 추론에서 메모리가 어떤 방식으로 병목이 되는지를 충분히 구분하지 못한 데서 비롯됐기 때문이다.

결론부터 말하면, TurboQuant는 메모리 반도체의 필요성을 무너뜨리는 기술이라기보다, AI 추론 중 decode 단계에서 반복적으로 읽어야 하는 KV cache를 더 작고 효율적으로 표현해 데이터 이동 부담을 줄이는 기술에 가깝다.

다시 말해, 메모리 저장공간 자체를 전반적으로 줄이는 기술이라기보다, 이미 저장된 데이터를 더 가볍게 읽고 옮기게 만드는 기술에 가깝다.



1. 시장은 무엇을 오해했는가


시장은 종종 다음 두 가지를 같은 말처럼 받아들인다.

“메모리를 덜 쓴다”
“메모리 병목이 완화된다”

하지만 AI 추론에서는 이 둘이 다르다.

메모리 문제에는 크게 두 가지가 있다.
하나는 얼마나 많이 담을 수 있느냐이고,
다른 하나는 담긴 데이터를 얼마나 빨리 꺼내 쓸 수 있느냐이다.

첫 번째가 용량(capacity)의 문제라면,
두 번째는 대역폭(bandwidth)접근 지연(latency)의 문제다.

TurboQuant는 본질적으로 두 번째 문제에 더 가깝다.

즉 시장이 이를 **“메모리 필요량 감소 → HBM 수요 둔화”**로 연결해 해석한 것은, AI 추론에서 메모리 용량 문제와 데이터 이동 속도 문제를 충분히 구분하지 못한 결과일 가능성이 크다.

TurboQuant의 핵심은 메모리 저장공간 전반을 일반적으로 줄이는 것이 아니라, decode 단계에서 반복적으로 참조되는 KV cache를 더 작고 효율적으로 표현해, 같은 대역폭 안에서 이동해야 할 데이터량을 줄이는 것에 있다.

쉽게 말하면, 창고 크기를 줄이는 기술이 아니라, 창고에서 물건을 꺼내오는 과정을 더 가볍게 만드는 기술에 가깝다.


2. AI 추론은 Prefill과 Decode로 나눠서 봐야 한다


이 구조를 이해하려면, 먼저 AI 추론을 prefilldecode로 나눠서 봐야 한다.


Prefill: 계산이 중요한 구간


prefill은 사용자가 넣은 프롬프트를 한 번에 읽고 처리하는 구간이다.
이 단계는 많은 연산을 한꺼번에 수행할 수 있기 때문에, 상대적으로 GPU 연산능력의 영향을 더 크게 받는다.


Decode: 데이터 이동이 중요한 구간


반면 decode는 답변을 한 토큰씩 생성해 나가는 단계다.
이때 모델은 매번 과거의 KV cache를 다시 참조해야 한다.

즉, 이미 계산해둔 내용을 계속 읽어와야 하기 때문에, 연산 자체보다 메모리에서 데이터를 꺼내오는 속도가 더 중요해진다.

이 관점에서 보면 TurboQuant의 역할이 분명해진다.

TurboQuant는 prefill의 연산 병목을 해결하는 기술이 아니다.
그보다는 decode 단계에서 반복적으로 불러와야 하는 KV cache를 더 작게 표현해서, 한 번에 실어 나르는 데이터량을 줄이고 GPU가 메모리를 기다리는 시간을 줄이는 기술이다.

즉 TurboQuant의 직접 효과는 메모리 용량 감소 자체보다 decode traffic 절감에 더 가깝다.


3. 비전공자 관점에서 쉽게 보면


이걸 더 쉽게 풀어보면 이렇다.

같은 창고가 있다고 해도, 박스가 너무 크면 한 번에 조금밖에 못 옮긴다.
반대로 같은 내용물을 더 작은 박스로 압축해놓으면, 같은 통로로 더 많은 박스를 빠르게 옮길 수 있다.

TurboQuant는 창고를 없애는 기술이 아니라, 박스를 더 작게 만들어 같은 통로를 더 효율적으로 쓰게 하는 기술에 가깝다.

따라서 시장이 이를 곧바로 **“HBM이 덜 필요해진다”**로 연결하면 논리의 중간 단계를 건너뛰게 된다.

더 정확한 해석은 이렇다.

TurboQuant는 단위 추론당 KV cache가 만드는 데이터 이동 부담을 줄여 decode 효율을 높이는 기술이다.
그러나 이것이 곧바로 전체 HBM 수요 감소로 이어진다고 보기는 어렵다.

왜냐하면 실제 산업에서는 더 긴 context, 더 높은 동시성, 더 큰 모델, 더 많은 사용자 요청이 동시에 늘어나기 때문이다.

단위 작업당 메모리 부담이 줄어들더라도, 전체 작업량이 늘어나면 총 메모리 사용량은 오히려 증가할 수 있다.

이 점에서 TurboQuant의 직접 효과는 **“총 수요 감소”**가 아니라 **“단위 처리 효율 개선”**으로 인한 **총 메모리 수요 증가**로 보는게 더 합리적이다.



4. 중요한 점은, NVIDIA도 이미 같은 방향으로 와 있다는 것이다


여기서 더 중요한 것은, NVIDIA도 이미 같은 방향으로 상당 부분 와 있다는 점이다.

TurboQuant가 던지는 아이디어, 즉
**“KV cache를 더 작게 만들어 decode 병목을 줄이자”**는 방향 자체는 새로운 것이 아니다.

NVIDIA는 이미 TensorRT-LLM과 Blackwell 세대를 통해 NVFP4 KV cache를 공식적으로 설명하고 있다.
이 흐름의 핵심도 결국 같다. KV cache를 더 작은 비트폭으로 줄여, decode 단계에서 필요한 memory capacity와 bandwidth 부담을 낮추고 throughput과 latency를 개선하겠다는 것이다.

즉 방향성만 놓고 보면, TurboQuant가 말하는 핵심은 이미 NVIDIA도 하고 있는 이야기다.

이 지점에서 TurboQuant의 의미는
**“KV 양자화라는 새로운 방향이 등장했다”**가 아니라,
“이미 진행 중인 KV 저비트화 흐름 위에서, 알고리즘 상단을 조금 더 밀어 올릴 수 있느냐”에 있다.


5. 정량적으로 보면, TurboQuant는 NVFP4 대비 얼마나 더 줄일 수 있는가


여기서 가장 궁금한 부분은 이것이다.


그렇다면 TurboQuant는 NVIDIA의 NVFP4 KV cache 대비, 실제로 KV cache traffic을 얼마나 더 줄일 수 있을까.

이 질문에 대해 가장 보수적으로 답하면, 추가 감소 폭은 대략 10%대 초반에서 30%대 중반 사이로 보는 것이 가장 현실적이다.

왜 이런 숫자가 나오느냐 하면, 비교 기준이 bit 수에 있기 때문이다.

NVFP4는 말 그대로 4-bit KV cache다.
반면 TurboQuant는 공개 설명상 3.5-bit 수준에서 품질 중립, 3-bit 수준에서 의미 있는 압축, 더 공격적으로는 2.5-bit 수준까지도 시도 가능한 구간으로 이해할 수 있다.

이 경우 NVFP4 대비 추가적인 KV traffic 감소율은 대략 다음과 같이 계산할 수 있다.

보수적 가정: 3.5-bit

NVFP4가 4-bit이고 TurboQuant가 3.5-bit 수준이라면,
추가적인 traffic 감소율은 **약 12.5%**다.

중립적 가정: 3-bit

NVFP4가 4-bit이고 TurboQuant가 3-bit 수준을 안정적으로 구현할 수 있다면,
추가적인 traffic 감소율은 **약 25.0%**다.

공격적 가정: 2.5-bit

NVFP4가 4-bit이고 TurboQuant가 2.5-bit 수준까지 내려간다면,
추가적인 traffic 감소율은 **약 37.5%**다.

정리하면, TurboQuant가 NVFP4 KV cache 대비 추가로 줄일 수 있는 KV traffic 감소 폭은 대략 12.5%~37.5% 범위로 볼 수 있고, 현실적인 중심값은 20~25% 수준으로 보는 것이 가장 무난하다.

다만 여기서 중요한 점이 하나 있다.

KV traffic 25% 감소가 곧 decode 효율 25% 개선을 뜻하는 것은 아니다.

decode는 단순히 KV를 읽는 과정만으로 구성되지 않는다.
실제 서비스에서는 dequantization, attention 계산, 스케줄링, interconnect, kernel overhead 같은 다른 비용도 함께 존재한다.

따라서 더 정확히 말하면,
KV traffic 감소율은 decode 개선의 상한을 보여주는 숫자에 가깝고,
실제 end-to-end decode 효율 개선은 그보다 다소 낮게 나타날 가능성이 크다.

예를 들어, KV traffic이 25% 줄어든다고 해도 실제 체감 성능 개선은 10~20%대 수준에서 나타날 가능성이 높다.
즉 TurboQuant는 분명 의미 있는 추가 레버이지만, NVFP4 대비 몇 배의 격차를 만드는 수준으로 보기는 어렵다.

이 점은 매우 중요하다.

시장이 TurboQuant의 “6배”라는 숫자를 보고 놀라는 것은 이해할 수 있다.
하지만 그 숫자는 주로 비압축 혹은 고정밀 baseline 대비의 의미에 가깝다.
이미 FP8, NVFP4, KV reuse, paging, offloading이 들어가 있는 현재 NVIDIA stack과 비교하면, TurboQuant의 추가 우위는 훨씬 좁은 폭으로 해석해야 한다.

TurboQuant의 정량적 의미는 ‘완전히 새로운 판’이 아니라, 이미 진행 중인 decode 최적화 위에서 추가로 10~25%, 공격적으로는 30%대까지 traffic을 더 줄일 수 있는 가능성 정도로 보는 편이 현실적이다.


6. 그렇다면 TurboQuant의 파급력은 어디까지인가


그래서 Google이 제시한 6배라는 숫자도 해석을 조심해야 한다.

그 숫자는 연구 기준으로 매우 인상적이지만, 이를 곧바로 현재 NVIDIA 최신 serving stack 대비 우위로 읽으면 무리가 있다.
NVIDIA는 이미 FP8과 4-bit NVFP4, KV reuse, paging, offloading 같은 여러 최적화를 함께 추진하고 있기 때문이다.

따라서 TurboQuant의 의미는 판을 새로 만든 것이라기보다,
이미 시작된 판 위에서 decode 효율을 더 끌어올릴 수 있는 추가 레버에 가깝다.

즉 매우 흥미로운 기술인 것은 맞지만,
독립적인 판도 전환의 근거라기보다
기존 decode 최적화 레이어의 추가 개선 수단으로 보는 편이 더 현실적이다.


7. Rubin 이후에는 경쟁의 중심이 더 위로 올라간다


이 관점은 차세대 Rubin 로드맵을 보면 더 분명해진다.

NVIDIA는 Rubin CPX를 compute-intensive context phase, 즉 prefill 성격의 workload를 담당하는 방향으로 설명하고 있다.
이는 inference를 한 덩어리로 보지 않고, prefill과 decode를 서로 다른 특성의 작업으로 분리해서 최적화하려는 방향을 보여준다.

동시에 LPX는 저지연 inference를 위한 별도 경로를 제시한다.
이 구조의 핵심은 generation latency를 낮추기 위해, 단순히 KV를 더 압축하는 것을 넘어서 아예 전용 저지연 메모리 계층과 시스템 구조를 따로 설계하고 있다는 점이다.

이렇게 보면, TurboQuant의 상대적 위치는 더 명확해진다.

TurboQuant는 여전히 의미가 있다.
특히 decode 단계에서의 traffic 절감과 GPU 활용률 개선에는 도움이 될 수 있다.

하지만 그 의미는 저지연 inference 인프라 전체를 대체하는 것이 아니라,
그 인프라 안에서 decode 효율을 조금 더 높여주는 알고리즘적 보강에 가깝다.

즉 경쟁의 중심은 이미
**“KV를 얼마나 더 줄일 수 있는가”**에서
“prefill과 decode를 어떻게 분리하고, generation에 어떤 전용 저지연 구조를 붙일 것인가”로 올라가고 있다.

TurboQuant는 전자의 문제에 대한 좋은 해답이다.
그러나 Rubin CPX와 LPX는 후자의 문제를 푼다.
그리고 산업의 큰 방향은 대체로 후자 쪽이 더 크다.



8. 이번 논문은 과대평가도, 과소평가도 경계해야 한다


정리하면 이번 논문의 의미는 과대평가할 필요도, 과소평가할 필요도 없다.


과대평가하면 생기는 오류


과대평가하면
**“이제 HBM은 덜 중요해진다”**는 식의 결론으로 가게 된다.

하지만 이는 capacity와 bandwidth를 혼동한 해석일 가능성이 크다.

과소평가하면 놓치는 부분


반대로 과소평가하면
**“NVIDIA도 이미 하고 있던 것이니 의미 없다”**는 식이 된다.

이 역시 정확하지 않다.
TurboQuant는 더 낮은 비트폭에서도 품질을 유지할 수 있는 압축 알고리즘의 상단을 보여줬고, decode 최적화의 여지를 한 단계 더 넓혔다는 점에서 의미가 있다.


9. 결론


따라서 가장 적절한 개인적인 평가는 이쯤일 것이다.

TurboQuant는 메모리 수요를 없애는 기술이 아니라, decode 단계에서 반복적으로 읽어야 하는 KV cache를 더 가볍게 만들어 데이터 이동 병목을 줄이는 기술이다.

이 점에서 기술적 의미는 분명하다. 다만 NVIDIA가 이미 FP8·NVFP4·KV cache 최적화를 상당 부분 진행하고 있고, Rubin CPX와 LPX가 예고하는 차세대 inference 구조까지 감안하면,
TurboQuant의 산업적 파급력은 독립적인 게임체인저라기보다 차세대 inference stack 안에 흡수될 가능성이 큰 보조적 효율 개선 기술에 가깝다.

정량적으로 보더라도, TurboQuant가 NVFP4 대비 추가로 줄일 수 있는 KV cache traffic 감소 폭은 현실적으로 10~25% 수준, 공격적으로 보면 30%대 중반 정도로 해석하는 것이 적절하다.
즉 의미 있는 개선이지만, 현행 NVIDIA stack을 압도하는 수준으로 보기에는 아직 이르다.

결국 이번 논문을 가장 정확하게 읽는 방법은 이것이다.

TurboQuant는 HBM의 시대를 끝내는 기술이 아니라, HBM을 더 효율적으로 쓰게 만드는 기술이다.

그리고 그 의미는 메모리 반도체 무용론이 아니라,
차세대 AI inference가 점점 더 traffic-efficient하고 latency-sensitive한 방향으로 진화하고 있다는 신호로 읽는 편이 맞다.


#글을 마치며


TurboQuant를 둘러싼 시장의 오해는 bandwidth 문제를 capacity 문제로 오독하는 데서 출발한다. 그러나 TurboQuant의 본질은 decode 단계에서의 memory traffic 최적화이지, AI 시스템이 필요로 하는 저장 용량 자체의 붕괴가 아니다.


따라서 이를 HDD, NAND에 대한 구조적 부정론으로 연결하는 것은 논리적 비약에 가깝다. 오히려 이런 알고리즘 개선은 추론 단가를 낮추고 서비스 확산을 촉진함으로써, 결과적으로 더 많은 AI workload와 더 높은 메모리 활용도를 유도할 가능성이 크다.

즉 TurboQuant는 메모리의 시대를 약화시키는 기술이 아니라, AI 추론 시장 확대 과정에서 메모리의 효율성과 부가가치를 함께 끌어올리는 기술적 진전으로 보는 것이 맞다.


=끝

생각정리 210 (* TurboQuant-2)

이전글에 이어 같은 주제로 리서치를 이어나가본다.

핵심 결론은 유지한다.

TurboQuant는 HBM을 포함한 메모리 전반의 수요 약세를 곧바로 이끌 기술이 아니다.
더 정확히는, 장문 추론에서 커지는 KV cache 병목을 완화하는 기술이며, 그 결과는 메모리 수요 파괴보다 AI 추론 시장의 활용도 확대와 병목 이동으로 나타날 가능성이 더 크다.


터보퀀트는 정말 메모리 수요를 죽일까


KV cache 최적화의 본질과 HBM·DRAM·NAND를 다시 봐야 하는 이유


최근 시장은 구글의 TurboQuant를 두고 빠르게 반응했다.
논리는 단순했다. KV cache를 크게 줄일 수 있다면, 앞으로 HBM을 포함한 메모리 수요가 약해지는 것 아니냐는 해석이다.

하지만 이 해석은 두 가지를 지나치게 단순화한다.
첫째, TurboQuant가 실제로 줄이는 메모리 범위다.
둘째, HBM 수요가 실제로 어떤 항목들로 구성되는지다.

Google Research는 TurboQuant를 KV cache compressionvector search에 적합한 압축 기술로 소개했다. 즉 이 기술이 직접 겨냥하는 것은 GPU 메모리 전체가 아니라, 긴 컨텍스트 추론에서 빠르게 커지는 KV cache다. (Decrypt)

따라서 이 글의 출발점은 분명하다.

TurboQuant는 메모리 전반을 덜 쓰게 만드는 기술이 아니라, HBM 안의 특정 병목을 줄이는 기술이다.
그리고 그 결과도 단순한 “수요 감소”보다는 더 긴 문맥, 더 높은 동시성, 더 많은 agent workflow를 가능하게 하는 방향으로 나타날 가능성이 더 높다. (NVIDIA GitHub)


1. 왜 지금 KV cache가 더 중요해졌나


TurboQuant를 이해하려면 먼저 지금 AI 추론시장의 흐름부터 봐야 한다.


한쪽에서는 모델의 소형화·증류·효율화가 진행되고 있다.
더 작은 모델, 더 낮은 정밀도, 더 적은 활성 파라미터로 같은 일을 처리하려는 흐름이다.

“sLLM 트렌드는 단순히 모델 파라미터를 줄이는 것이 아니라, 고정 메모리인 weight 비중을 낮춰 추론 인프라의 유연성을 높이고, 그 여유분을 KV cache·동시성·장문맥 처리·비용 효율 개선에 재배분하려는 흐름으로 이해할 수 있다.”

다른 한쪽에서는 AI Agent가 확산되고 있다.
에이전트는 단순한 1회성 질의응답이 아니다. 여러 단계를 연속으로 처리하고, 도구를 호출하고, 중간 상태를 보관하고, 다시 다음 작업으로 넘어간다. OpenAI도 긴 세션을 다루는 Agents SDK 예제에서 trimmingcompression을 핵심 기법으로 설명한다. (OpenAI)

이 구조에서는 자연스럽게 긴 컨텍스트가 중요해진다.
그리고 긴 컨텍스트가 길어질수록 빠르게 커지는 메모리 항목이 바로 KV cache다. NVIDIA도 추론 메모리 설명에서 KV cache를 I/O tensor의 대표적인 큰 항목으로 다루며, 긴 시퀀스에서 중요한 메모리 부담으로 설명한다. (NVIDIA GitHub)

즉 앞으로의 추론시장에서 중요한 것은 단순히 모델 크기만이 아니다.
긴 문맥과 높은 동시성을 얼마나 효율적으로 처리하느냐가 핵심이 된다. TurboQuant는 바로 이 지점을 겨냥한다. (Decrypt)


2. 시장의 가장 큰 오해: HBM은 전부 KV cache에 쓰이는가


먼저 이부분에서 오해가 있는듯 싶다.

일부는 HBM 수요가 거의 전부 KV cache에서 나오는 것처럼 말한다.
하지만 실제 추론 시스템에서 HBM 수요는 훨씬 더 복합적이다.

NVIDIA의 TensorRT-LLM 문서는 추론 메모리를 크게 weights, internal activations, I/O tensors로 설명한다. 이때 KV cache는 I/O tensor의 중요한 한 축일 뿐이다. 즉 HBM은 단순한 “문맥 저장 공간”이 아니라, 모델 자체, 문맥, 중간 계산, 런타임 버퍼가 동시에 올라가는 공간이다. (NVIDIA GitHub)

쉽게 정리하면 HBM 수요는 대략 네 가지다.

첫째, Weight

모델이 학습을 통해 얻은 파라미터다. 쉽게 말해 AI의 장기기억이다.
모델이 클수록 이 비중이 커진다.

둘째, KV cache

현재 세션에서 읽은 문맥을 임시로 저장하는 공간이다.
문맥이 길어지고, 동시 요청이 늘고, 멀티턴 작업이 많아질수록 커진다.

셋째, Activation / runtime workspace

계산 과정에서 잠깐 생겼다가 사라지는 중간 텐서와 작업 공간이다.
배치가 커지고 처리량이 높아질수록 피크 메모리를 만든다.

넷째, MoE hidden overhead

Sparse MoE 구조에서는 토큰을 expert로 보내고 다시 합치는 과정이 추가된다.
이때 routing metadata, dispatch/combine buffer, padding, expert-side activation 같은 추가 VRAM 비용이 붙는다. 이는 KV cache와 별개다. vLLM과 NVIDIA 문서 모두 MoE에서 별도 dispatch·expert 배치 구조가 필요함을 보여준다. (NVIDIA Docs)

따라서 TurboQuant가 KV cache를 줄인다고 해서, 곧바로 HBM 전체 수요가 무너진다고 해석하는 것은 과장이다.
정확히는 HBM 안의 한 병목 축이 완화되는 것이다. (Decrypt)


3. 최신 모델에서도 HBM은 전부 KV cache가 아니다


이 점을 더 직관적으로 보기 위해, 최신 모델들의 HBM 사용 비중을 방향성 추정으로 정리해보면 아래와 같다.

먼저 전제를 분명히 해야 한다.

아래 비중은 공식 수치가 아니다. 폐쇄형 모델은 내부 구조가 공개되지 않았고, 오픈웨이트 모델도 실제 배포 방식에 따라 비중이 달라진다. 따라서 아래 표는 공개 스펙과 NVIDIA의 추론 메모리 프레임워크를 바탕으로 한 보수적 추정치다. GPT-5.4는 공식적으로 1.05M context window, Claude Opus 4.6과 Sonnet 4.6은 Anthropic의 최신 상위 모델, Grok 4.20은 xAI의 최신 플래그십 모델로 소개된다. Llama 4 Maverick과 Scout, Mistral Large 3는 공개 MoE 스펙이 있다. (OpenAI 개발자)

최신 모델별 HBM 사용 비중 추정



이 표가 말하는 것은 단순하다.

최신 모델에서도 HBM은 전부 KV cache가 아니다.
짧은 문맥과 낮은 동시성에서는 여전히 weight가 가장 큰 덩어리다.
장문, 고동시성, 에이전트형 워크로드로 갈수록 KV cache가 빠르게 올라온다.
Sparse MoE 구조에서는 여기에 숨은 VRAM 비용까지 추가된다.

즉 TurboQuant가 줄이는 것은 HBM 전체가 아니라, HBM 안의 특정 병목 한 축이다.
이 점을 놓치면 인과관계가 틀어진다. (NVIDIA GitHub)


4. TurboQuant가 줄이는 것과 줄이지 못하는 것


이 부분은 분명하게 구분해야 한다.

TurboQuant가 직접 줄이는 것KV cache다.
Google이 제시한 벤치마크는 H100 환경에서 attention computation 성능 향상과 KV cache 메모리 절감 효과를 보여준다. 다만 이 수치가 곧바로 모든 상용 추론 환경의 체감 절감률을 의미하는 것은 아니다. (Tom's Hardware)

반면 TurboQuant가 직접 줄이지 못하는 것도 분명하다.

  • Weight

  • Activation / runtime workspace

  • MoE hidden overhead

즉 TurboQuant는 HBM 전체를 줄이는 기술이 아니라, HBM 안의 KV 병목을 뒤로 미루는 기술이다.
이 구분이 매우 중요하다. KV가 줄었다고 해서 모델 자체의 weight가 줄어드는 것도 아니고, MoE의 dispatch/combine 비용이 자동으로 사라지는 것도 아니다. (Decrypt)


5. “6배 절감” 해석이 과장될 수 있는 이유


TurboQuant를 둘러싼 시장 반응이 과장된 이유 중 하나는, 발표된 숫자를 그대로 현재 상용 추론 환경에 대입했기 때문이다.

먼저 TurboQuant 개념 자체가 완전히 새로운 것은 아니다. 관련 arXiv 논문은 2025년 4월에 공개됐고, 이번에는 Google Research가 이를 더 널리 알린 셈이다. (SDxCentral)

또한 공개된 8배 성능, 6배 메모리 절감은 인상적인 숫자지만, 이를 현재의 실제 배포 환경에 기계적으로 대입하는 것은 조심해야 한다. 이미 업계는 추론에서 더 낮은 정밀도와 다양한 KV 최적화를 사용하고 있기 때문이다. NVIDIA도 KV cache reuse, eviction, offload, quantization 같은 최적화를 별도 시스템 영역으로 다룬다. 즉 “아무 최적화도 없던 환경”과 비교한 최대 효과를 곧바로 현재 운영 환경의 순증 효과로 읽으면 과장될 수 있다. (NVIDIA GitHub)

여기에 더 중요한 반론이 하나 있다.

메모리를 절감하면, 보통 그 절감분은 비용 감소로 끝나지 않는다.
대개 더 긴 컨텍스트, 더 높은 동시성, 더 많은 agent step으로 다시 쓰인다.
OpenAI의 GPT-5.4는 1M급 context를 전면에 내세우고 있고, Claude와 Grok 역시 긴 문맥과 agentic workflow를 강조한다. (OpenAI)

비슷한 사례는 이미 있었다.
DeepSeek-V2는 KV cache를 93.3% 줄였다고 밝히면서도, 동시에 throughput을 크게 높였다고 설명했다. 이 사례가 말해주는 것은 단순하다. KV cache 효율화는 곧바로 메모리 산업의 수요 붕괴로 이어진다기보다, 오히려 더 많은 사용을 가능하게 하는 효율 향상일 수 있다는 점이다. (arXiv)

즉 “KV cache 압축 = HBM 수요 붕괴”라는 해석은 기술적으로도, 산업적으로도 너무 직선적이다.


6. 병목은 사라지는 것이 아니라 이동한다


AI 인프라는 메모리가 사라지는 방향으로 가는 것이 아니다.
오히려 병목의 위치가 이동하는 방향으로 진화한다.

초기에는 weight 병목이 크다.
큰 모델을 HBM에 올리는 것 자체가 부담이기 때문이다.

그다음에는 KV cache 병목이 커진다.
문맥이 길어지고, 동시 요청이 늘어나기 때문이다.

만약 TurboQuant가 이 문제를 완화하면, 그 다음에는 MoE hidden overhead가 더 잘 보이기 시작한다.
그리고 처리량이 더 올라가면 activation / runtime이 다음 병목이 된다.
마지막에는 GPU 간 통신과 interconnect가 더 중요해진다.

즉 흐름은 대체로 이렇다.

Weight → KV cache → MoE hidden overhead → Activation/runtime → Interconnect

핵심은 간단하다.

TurboQuant는 HBM 수요를 없애는 기술이 아니라, KV cache 병목을 뒤로 미루는 기술이다.
병목은 사라지는 것이 아니라 다음 계층으로 이동한다. (NVIDIA GitHub)



7. 그래서 TurboQuant는 오히려 HBM의 가치를 키울 수 있다


많은 투자자가 **“메모리 사용량 절감 = 메모리 수요 감소”**라고 바로 연결한다.
하지만 실제 산업에서는 꼭 그렇지 않다.

KV cache 병목이 줄어들면 기업은 그 여유를 남겨두지 않는다.
보통 그 여유를 다시 사용한다.

  • 더 긴 컨텍스트를 제공하고

  • 더 높은 동시 요청을 받고

  • 더 많은 agent step을 돌리고

  • 더 복잡한 추론 워크플로를 처리한다

GB per query는 내려갈 수 있어도,
그 대신 query 수, context 길이, 동시성, agent step 수가 더 빠르게 올라가면 총 HBM 사용량과 경제적 가치는 오히려 커질 수 있다.

이런 의미에서 TurboQuant는 HBM 수요를 죽이는 기술이라기보다,
같은 HBM으로 더 많은 부가가치를 만들어내는 기술에 가깝다.
즉 HBM의 효율을 높여 새로운 추론 시장을 여는 기술로 보는 편이 더 적절하다. (Decrypt)


8. HBM 밖의 메모리는 어떻게 될까


이제 질문은 자연스럽게 HBM 밖으로 확장된다.
TurboQuant가 KV cache 병목을 풀면, DRAM과 NAND는 어떻게 될까.

DRAM

TurboQuant는 직접적으로는 HBM 안의 KV cache를 건드린다.
그래서 아주 단순하게 보면 HBM 증가율 일부를 낮출 수는 있다.

하지만 AI 서버 전체를 보면 DRAM 수요는 그렇게 단순하지 않다.
여전히 모델 weight, activation, CPU 쪽 서버 메모리 수요가 있고, AI 추론 자체가 커질수록 일반 서버 DRAM도 함께 따라간다. 실제로 메모리 업체들과 시장조사기관은 AI 확산이 HBM뿐 아니라 서버 DRAM 수요와 가격 환경에도 영향을 준다고 보고 있다. (웨스트지 뉴스)

즉 DRAM은 약세라기보다, AI 인프라 안에서 더 구조적으로 중요한 위치로 재편될 가능성이 크다.

NAND

NAND는 오히려 더 직접적인 간접 수혜가 가능하다.

에이전트 시대에는 모든 상태를 HBM에만 올려두지 않는다.
오래된 문맥은 요약되고, 외부 저장소로 내려가고, 필요할 때 다시 불러온다.

이 과정에서 중요해지는 것은

  • enterprise SSD

  • vector DB

  • RAG 데이터 저장소

  • agent memory 저장 계층

이다.

즉 TurboQuant가 KV cache 병목을 완화해 더 많은 추론을 가능하게 하면,
그 위에서 돌아가는 데이터 저장과 메모리 계층화 수요는 오히려 더 커질 수 있다. 따라서 NAND는 직접 악재라기보다 AI 저장 계층의 수혜 영역으로 보는 편이 더 자연스럽다. (웨스트지 뉴스)


9. 왜 “터보퀀트가 메모리 수요를 죽인다”는 해석이 과장인가


이 해석이 성립하려면 두 가지 전제가 필요하다.

첫째, AI 시장이 더 이상 성장하지 않는 닫힌 시장이어야 한다.
즉 효율이 좋아져도 사용량은 늘지 않아야 한다.

둘째, HBM 수요가 거의 전부 KV cache여야 한다.
그래야 KV를 줄이는 것이 곧 HBM 수요 감소로 이어진다.

하지만 현실은 둘 다 다르다.

AI 시장은 지금도 더 긴 문맥, 더 높은 동시성, 더 복잡한 에이전트 작업으로 확장 중이다.
또 HBM 수요는 Weight, KV cache, Activation, MoE hidden overhead가 함께 만든다.

TurboQuant = 메모리 수요 붕괴라는 해석은,
성장 없는 시장과 단일 메모리 구조를 가정한 과장된 공포에 가깝다. (NVIDIA GitHub)


결론


TurboQuant의 본질은 단순하다.

HBM 전체를 줄이는 기술이 아니라, 장문 추론에서 빠르게 커지는 KV cache 병목을 완화하는 기술이다.

그리고 그 효과는 메모리 수요 파괴보다, 오히려 다음과 같은 방향으로 나타날 가능성이 크다.

  • 더 긴 컨텍스트

  • 더 높은 동시성

  • 더 많은 agent workflow

  • 더 복잡한 추론 시장 개화

  • HBM의 효율과 부가가치 상승

  • DRAM과 NAND의 구조적 역할 확대

따라서 지금 시장의 메모리 패닉셀은 ‘현재 공개 정보 기준으로는 과도한 1차 해석일 가능성이 높다’

TurboQuant는 메모리를 죽이는 기술이 아니라, AI 추론 시장을 한 단계 더 넓히는 기술에 가깝다.
그리고 그 과정에서 메모리 수요는 사라지기보다, 더 정교하고 더 고부가가치적인 형태로 재편될 가능성이 높다.


#글을 마치며


글에서 마지막으로 덧붙일 만한 시각은 Google의 전략적 맥락이다.

TurboQuant를 발표한 주체가 구글 리서치라는 점, 그리고 구글이 한편으로는 TPU 기반의 독자적 추론 인프라를 구축하면서도 다른 한편으로는 메모리 LTA(장기공급계약) 에서 업계 내 가장 공격적인 수요자 중 하나라는 점을 함께 놓고 보면, 이번 발표는 단순한 기술 공개 이상으로 읽힐 수 있다.

즉, 이번 발표는 단순히 효율적인 추론 기술을 제시한 것이 아니라, NVIDIA/HBM 생태계를 향한 일종의 심리전일 가능성도 있다. 시장에 메모리 수요 둔화 우려를 자극해 이른바 패닉셀을 유도하는 한편, 정작 구글 자신은 그 과정에서 보다 유리한 가격에 물량을 확보하는 구조를 기대했을 수 있다는 해석도 가능하다.

이런 관점에서 보면, 이번 발표의 잠재적 수혜자는 오히려 구글 자신일 수 있다.

물론 이는 어디까지나 확인된 사실이 아니라 하나의 해석에 가깝다. 다만 투자자 입장에서는 기술의 내용 자체뿐 아니라, 누가, 왜, 하필 지금 이 발표를 내놓았는가까지 함께 살펴볼 필요가 있다. 그래야 이번 발표의 의도와 파급효과를 보다 입체적으로 해석할 수 있지 않나 싶다.

=끝

2026년 3월 25일 수요일

생각정리 209 (* TurboQuant-1)

구글은 TurboQuant라는 새 압축 기술을 공개했다.

이 기술은 AI가 내부적으로 쓰는 벡터와 KV 캐시를 매우 작게 줄이면서도 성능 저하를 거의 없애는 것이 핵심이다. 실험에서는 KV 메모리를 6배 이상 줄이고, 일부 경우 속도도 크게 개선됐다고 설명한다.

터보퀀트에 대해 간단한 생각을 기록해본다. 


TurboQuant는 정말 AI 메모리 수요를 줄일까


KV 캐시 압축 논문을 쉽게 읽는 법과 메모리 산업에 대한 시사점


AI 관련 논문을 보다 보면, 일정 주기마다 **“메모리 부담을 줄여 더 효율적으로 모델을 운용할 수 있다”**는 메시지가 반복적으로 등장하곤 한다.

과거에는 Nvidia의 KTKV가 그런 흐름을 대표하는 사례 중 하나였다.

KTKV는 KV 캐시를 이미지 압축과 유사한 방식으로 다뤄, 저장과 전송에 유리한 형태로 크게 줄이는 기술이다.특히 긴 대화나 반복적인 에이전트 작업처럼, 과거 문맥을 다시 불러와야 하는 환경에서 강점을 가진다.

즉, 단순히 실행 중 메모리를 아끼는 데 그치지 않고, KV 캐시를 오프라인으로 저장했다가 필요할 때 재사용하는 활용 방식에 더 적합하다는 의미다.
결국 KTKV의 핵심 주장은 **“더 적은 메모리로 AI를 운용할 수 있다”**는 데 있다고 볼 수 있다.

최근 주목받는 TurboQuant도 얼핏 보면 그런 흐름 위에 있는 논문 중 하나라고 한다.

실제로 TurboQuant고차원 벡터를 아주 적은 비트로 압축하면서도, 중요한 정보 손실을 최소화하는 방법을 제안한다.

논문은 이를 통해 KV 캐시 양자화벡터 검색에서 좋은 성능을 보였다고 주장한다. 초록에서는 이 방법이 온라인 적용이 가능하고, 이론적으로도 거의 최적에 가까운 왜곡률을 보이며, KV 캐시에서는 3.5 bits per channel에서 품질 저하가 거의 없고, 2.5 bits에서는 성능 저하가 제한적이라고 설명한다.

하지만 여기서 곧바로
“그럼 앞으로 HBM 수요가 줄겠네”
“메모리 병목이 사라지겠네”
라고 해석하면 너무 빠르다.

이 논문을 더 정확하게 읽으려면 먼저 TurboQuant가 실제로 무엇을 하는 기술인지부터 차근차근 이해할 필요가 있다.


먼저, KV 캐시가 무엇인지부터 쉽게 보자


LLM은 긴 대화를 할수록 앞에서 나온 내용을 계속 기억해야 한다.
이때 모델이 임시로 들고 있는 작업 메모장이 바로 KV 캐시다.

쉽게 말하면 이렇다.

  • 짧은 질문 하나를 처리할 때는 메모장이 얇다

  • 대화가 길어질수록 메모장은 점점 두꺼워진다

  • 메모장이 두꺼워질수록 메모리 사용량도 커지고, 처리 속도 부담도 커진다


논문도 이 점을 분명히 짚는다.
Transformer 계열 모델은 이전 토큰의 key/value 임베딩을 KV 캐시에 저장해야 하고, 이 크기는 모델 크기문맥 길이가 커질수록 함께 증가한다. 그래서 특히 장문맥 모델에서는 메모리 사용량과 속도 측면에서 큰 병목이 된다고 설명한다.

TurboQuant는 이 메모장을 없애는 기술이 아니다.

더 정확히는 같은 내용을 더 작은 공간에 정리해서 담는 기술이다.

즉, 이 논문은 AI 전체 메모리 문제를 한 번에 해결하는 기술이라기보다,
장문맥 추론에서 커지는 KV 캐시 부담을 줄이려는 기술이라고 보는 편이 맞다.


여기서 자주 나오는 용어를 가장 쉽게 설명하면

1) 벡터

그냥 숫자 여러 개를 한 줄로 모아놓은 것이다.
컴퓨터는 문장이나 이미지 같은 것을 바로 이해하지 못하니, 이런 숫자 묶음으로 바꿔서 다룬다.

2) 양자화

원래는 정밀한 숫자로 저장하던 것을, 더 단순한 숫자로 바꿔서 저장하는 압축 방식이다.
쉽게 말해 정교한 숫자를 거칠게 반올림해서 저장하는 것이다.

3) MSE

압축한 뒤 복원한 값이 원래 값과 얼마나 다른지 보는 오차 지표이다.
작을수록 원래 벡터를 잘 살렸다는 뜻이다.

4) 내적(Inner Product)

두 벡터가 얼마나 비슷한 방향을 보는지 계산하는 값이다.
검색, 추천, attention 계산에서 매우 중요하다.
즉, 벡터 자체를 잘 복원하는 것도 중요하지만, 실제 서비스에서는 벡터끼리 관계를 잘 보존하는 것이 더 중요할 때가 많다.

5) 편향(Bias)

계속 한쪽으로 틀어지는 오차이다.
예를 들어 실제보다 계속 작게 계산되면 그건 편향이 있는 것이다.
이 논문은 MSE는 잘 맞아도 내적은 편향될 수 있다고 말한다.

6) 잔차(Residual)

1차로 압축하고 나서도 남는 나머지 오차이다.
즉, “대충 복원하고도 아직 틀린 부분”이다.
TurboQuant는 이 남은 부분까지 한 번 더 처리한다.

7) 랜덤 회전(Random Rotation)

벡터를 다른 좌표계로 한번 돌려 놓는 과정이다.
왜 돌리느냐 하면, 원래는 특정 좌표에 값이 몰려 있을 수 있는데, 돌려 놓으면 정보가 좀 더 골고루 퍼져서 압축하기 쉬워진다.

8) QJL

이 논문에서 잔차를 처리할 때 쓰는 장치이다.
복잡하게 볼 필요 없이, 내적을 치우치지 않게 보정해 주는 1비트 보정 방식이라고 이해하면 충분하다. 


TurboQuant의 핵심은 “2단계 압축”이다


TurboQuant가 기존 압축 방식과 다른 이유는, 단순히 숫자를 거칠게 줄이는 것이 아니라 2단계 구조를 썼기 때문이다.


1단계: 먼저 전체를 작게 줄인다


논문은 입력 벡터를 바로 압축하지 않고, 먼저 랜덤 회전(random rotation) 을 적용한다.
이 말이 어렵게 들릴 수 있는데, 뜻은 단순하다. 원래 벡터는 특정 좌표에 정보가 몰려 있을 수 있는데, 방향을 한 번 바꿔 놓으면 정보가 더 고르게 퍼져서 다루기 쉬워진다는 뜻이다. 논문은 이렇게 회전한 뒤 각 좌표가 비슷한 분포를 가지게 되고, 서로 거의 독립처럼 행동하기 때문에 좌표별로 단순하게 압축해도 좋은 결과가 나온다고 설명한다.

그다음에는 각 좌표를 미리 정해둔 대표값으로 바꾼다.
이 단계의 목적은 원래 벡터와 복원된 벡터의 차이, 즉 MSE(평균제곱오차) 를 작게 만드는 것이다. 논문은 이 방식이 정보이론적 하한에 작은 상수배 정도만 차이 나는 수준이라고 주장하며, 특히 낮은 비트에서도 좋은 왜곡률을 보인다고 설명한다.

아주 쉽게 말하면,
이 1단계는 전체 모양을 최대한 덜 망가뜨리면서 먼저 크게 줄이는 작업이다.

2단계: 줄이고 남은 오차를 다시 보정한다


그런데 여기서 끝나지 않는다.
논문이 강조하는 핵심은 원래 모양을 비슷하게 복원하는 것벡터끼리의 관계를 정확히 유지하는 것이 서로 다른 문제라는 점이다.

AI에서는 단순히 숫자를 원래와 비슷하게 복원하는 것보다,
어떤 벡터와 어떤 벡터가 얼마나 비슷한지를 잘 보존하는 것이 더 중요할 때가 많다. 논문은 이를 inner product, 즉 내적 보존 문제로 설명한다. 그리고 MSE에 최적화된 양자화는 내적 계산에서는 편향(bias) 을 만들 수 있다고 지적한다. 실제로 1비트 예시에서는 내적 추정이 2/π배 수준으로 줄어드는 편향이 생길 수 있다고 설명한다.

그래서 TurboQuant는 1차 압축 후 남는 잔차(residual) 를 따로 구한 뒤, 여기에 QJL(Quantized Johnson-Lindenstrauss) 이라는 1비트 보정 기법을 한 번 더 적용한다. 이 2단계 덕분에 최종적으로는 내적을 편향 없이 추정하는 구조가 된다. 논문은 이 방식이 unbiased inner product estimator라고 설명한다.

정리하면 이렇다.

  • 1단계: 전체를 먼저 작게 줄인다

  • 2단계: 줄이고 남은 중요한 오차를 다시 보정한다


즉 TurboQuant는
“그냥 압축”이 아니라 “먼저 크게 줄이고, 관계가 틀어지지 않게 한 번 더 손보는 방식” 이다.


왜 이 방식이 기존 압축보다 주목받았는가


기존 압축 방식도 벡터를 줄일 수는 있었다.
하지만 많은 방법은 압축 과정에서 추가 정보나 보정값을 따로 저장해야 해서, 생각보다 메모리 절감 효과가 깎이는 경우가 많았다. 즉 압축은 했는데, 압축을 설명하기 위한 부가 데이터가 다시 붙는 문제가 있었다.

TurboQuant가 강조하는 지점은 여기에 있다.

  • 먼저 큰 정보를 효율적으로 압축하고
  • 남은 오차는 아주 적은 비트로 따로 보정하고
  • 이 과정에서 숨은 메모리 오버헤드도 최대한 낮추려는 구조를 가졌다는 점이다.


쉽게 말하면,
“책 전체를 압축 요약하고, 빠진 중요한 뉘앙스만 초저비용 메모로 덧붙이는 방식”에 가깝다.


논문이 왜 주목받았는가


이 논문이 주목받은 이유는 실험 결과가 꽤 강하게 제시됐기 때문이다.

대표적으로 논문은 Needle-In-A-Haystack 테스트에서, Llama-3.1-8B-Instruct 모델 기준 TurboQuant가 4배 압축 상태에서도 Full-Precision과 동일한 0.997 점수를 기록했다고 보여준다. 비교 대상인 SnapKV는 0.858, PyramidKV는 0.895, KIVI는 0.981, PolarQuant는 0.995로 제시된다. 즉 적어도 이 테스트 안에서는 압축했는데도 긴 문서 속 정보를 찾는 능력이 사실상 원본과 같았다는 뜻이다.

LongBench 결과도 비슷한 방향이다.
논문은 Llama-3.1-8B-Instruct에서 평균 점수가

  • Full Cache: 50.06

  • TurboQuant 2.5-bit: 49.44

  • TurboQuant 3.5-bit: 50.06

이라고 보고한다. 그리고 이 과정에서 최소 4.5배 압축을 달성했다고 설명한다. 또 기존 일부 방법과 달리, TurboQuant는 생성 중인 토큰에도 양자화를 적용했다고 강조한다.

벡터 검색에서도 비슷하다.
논문은 TurboQuant가 기존 PQ나 RabitQ보다 recall이 더 좋고, 양자화 시간은 사실상 거의 0에 가깝다고 제시한다.

즉, 논문이 던지는 메시지는 분명하다.

“벡터를 많이 줄였는데도, 적어도 논문이 선택한 실험 환경에서는 성능이 꽤 잘 유지됐다.”

이 때문에 시장에서는 곧바로
“그럼 이제 메모리 덜 써도 되는 것 아닌가?”
라는 반응이 나오기 쉽다.

하지만 바로 그 지점에서 해석을 조심해야 한다.


왜 이 결과를 곧바로 대규모 상업 서비스로 일반화하면 안 되나


TurboQuant의 실험 결과가 흥미로운 것은 맞지만, 그렇다고 그것이 전 세계 상업 서비스 환경 전체에서 동일하게 작동한다는 뜻은 아니다. 논문이 보여주는 범위와 실제 서비스 현실 사이에는 꽤 큰 차이가 있다.

1. 실험 환경이 제한적이다


논문은 모든 실험이 단일 NVIDIA A100 GPU에서 수행됐다고 밝힌다.
즉, 수많은 사용자가 동시에 접속하는 대규모 서비스, 멀티 GPU 클러스터, 지역별 분산 시스템, 복잡한 스케줄링과 네트워크 지연까지 반영한 결과는 아니다.

실험도 특정 모델과 특정 벤치마크에 집중되어 있다.
대표적으로 Llama-3.1-8B-Instruct, Ministral-7B-Instruct, LongBench, Needle-In-A-Haystack, 일부 벡터 검색 데이터셋이 중심이다.

즉, 논문이 보여주는 것은
“이 조건에서는 잘 된다” 이지,
“모든 상업 환경에서 보편적으로 잘 된다” 는 뜻은 아니다.


2. 평균 점수와 실제 서비스의 리스크는 다르다


논문은 평균 점수와 벤치마크 성능을 잘 보여준다.
하지만 실제 상업 서비스에서 더 중요한 것은 평균보다 예외 상황이다.

예를 들어,

  • 특정 언어에서만 성능이 흔들릴 수도 있고

  • 아주 긴 세션에서만 누적 오차가 커질 수도 있고

  • 코드 생성, 에이전트, 툴 호출처럼 복합 작업에서만 문제가 생길 수도 있다

  • 일부 고객군은 아주 작은 품질 저하에도 민감할 수 있다

이런 문제는 벤치마크 평균 점수만으로는 잘 드러나지 않는다.

즉, 논문이 보여주는 것은
“통제된 환경에서 평균적으로 잘 작동한다” 는 것이고,
그것이 바로 “대규모 서비스에서도 안전하게 쓸 수 있다” 는 뜻은 아니다.


3. KV 캐시만 줄인다고 전체 병목이 사라지는 것은 아니다


TurboQuant는 KV 캐시 압축에는 강하다.
하지만 실제 AI 서비스의 비용과 성능은 KV 캐시 하나만으로 결정되지 않는다.

현실의 추론 시스템은

  • GPU 연산 자원

  • HBM 대역폭

  • 서버 DRAM

  • 스토리지 오프로딩

  • 네트워크

  • 배치 정책

  • 스케줄링

  • 전력과 냉각

이 모두가 함께 얽혀 있다.

즉, KV 캐시 부담이 줄어도 전체 병목이 다른 곳으로 이동할 수 있다.
그렇다면 TurboQuant는 특정 병목을 줄이는 기술이지, AI 시스템 전체를 갑자기 가볍게 만드는 기술은 아니다.

4. 상용 서비스는 연구실보다 훨씬 보수적이다


논문에서는 2.5bit, 3.5bit 같은 공격적인 설정도 시도한다.
하지만 실제 서비스 운영에서는 작은 품질 흔들림도 문제로 이어질 수 있다.

그래서 현실에서는
“논문에서는 3.5bit가 괜찮다고 했지만, 우리는 당분간 더 안전한 설정만 쓰자”
처럼 훨씬 보수적으로 도입될 가능성이 높다.

즉, 논문이 좋다고 해서 상용 확산 속도까지 빠른 것은 아니다.


그래서 왜 “메모리 수요 감소”로 바로 연결하면 위험한가


여기서 산업 관점이 중요해진다.

많은 사람은 효율 기술이 나오면
“이제 하드웨어를 덜 사도 되겠네”
라고 생각한다.

하지만 AI 산업은 대체로 반대로 움직여 왔다.
이런 현상은 효율이 높아질수록 오히려 총사용량이 늘어나는, 이른바 ‘제번스의 역설’로 설명할 수 있다.


FP16

처음 FP16이 널리 쓰이기 시작했을 때도, 더 적은 비트로 연산하니 자원 사용이 줄 수 있다는 기대가 있었다.
하지만 실제로는 그 효율이 더 큰 모델, 더 빠른 학습, 더 많은 GPU 클러스터로 이어졌다.


FP8, FP4

저정밀 연산도 마찬가지였다.
효율이 좋아지면 보통 사람들은 자원을 아끼지 않는다. 오히려 “그럼 같은 비용으로 더 큰 모델을 돌릴 수 있겠네”라고 생각한다. 결과적으로 총 GPU 수요와 메모리 수요는 계속 커졌다.


Sparse MoE

Sparse MoE도 이론적으로는 더 효율적인 구조다.
하지만 현실에서는 “그럼 훨씬 더 큰 파라미터 규모의 모델을 만들자”로 이어졌다.
즉, 효율 향상이 비용 절감으로 끝난 것이 아니라 더 큰 시스템을 가능하게 하는 발판이 됐다.

TurboQuant도 비슷한 맥락에서 볼 수 있다.

KV 캐시를 더 효율적으로 줄일 수 있다면 기업은 보통
“그럼 HBM을 덜 사자”보다는

  • 더 긴 문맥을 열고

  • 동시 사용자 수를 늘리고

  • 더 긴 추론을 제공하고

  • 더 복잡한 기능을 서비스에 붙이는

쪽으로 갈 가능성이 크다.

그래서 TurboQuant는
메모리 수요를 죽이는 기술이라기보다,
같은 메모리로 더 많은 경제적 가치를 뽑아내게 만드는 기술로 보는 편이 더 현실적이다.



그렇다면 메모리 업체에는 오히려 좋은 것 아닌가


바로 이 부분이 중요하다.

만약 TurboQuant 덕분에 같은 HBM, 같은 DRAM, 같은 NAND로 예전보다 더 많은 추론량과 더 높은 서비스 가치를 만들 수 있다면, 메모리 1GB가 만들어내는 경제적 가치도 커진다.

그러면 공급이 제한적이고 과점적인 시장에서는 이런 논리가 자연스럽게 가능해진다.

“같은 메모리가 예전보다 더 많은 돈을 벌어주는데, 왜 공급사가 그 가치의 일부를 더 높은 가격으로 가져가지 못하겠는가?”

즉, TurboQuant는 단순히 메모리 사용량을 줄이는 기술이 아니라,
메모리의 가치 밀도를 높이는 기술로도 볼 수 있다.

다만 이 효과는 메모리 종류마다 다르게 나타난다.


HBM, DRAM, NAND 중 어디가 가장 유리한가


가장 단순하게 정리하면 HBM > 서버 DRAM > NAND 순서로 보는 것이 자연스럽다.


HBM


HBM은 AI 추론과 학습에서 가장 중요한 고속 메모리다.
논문도 LLM 추론 지연의 주요 원인 중 하나로 HBM과 SRAM 사이 통신 병목을 언급한다.

중요한 점은 TurboQuant가 HBM의 필요성을 없애는 것이 아니라, 같은 HBM으로 더 많은 일을 하게 만든다는 것이다.
그렇다면 HBM 1GB당 창출 가치가 올라가고, 공급이 빡빡한 과점 시장에서는 공급사가 가격 방어력과 협상력을 더 가질 수 있다.


서버 DRAM


DRAM도 분명 수혜 가능성은 있다.
장문맥과 동시성이 늘어나면 중간 계층 메모리의 역할도 커질 수 있기 때문이다. 다만 HBM처럼 절대적인 병목 프리미엄을 가지는 경우는 상대적으로 적다.

즉, DRAM은 활용도 상승은 가능하지만, HBM 같은 강한 프리미엄 가격 인상 논리까지 가기는 상대적으로 어렵다.


NAND


NAND는 가장 바깥쪽 저장 계층이다.
용량 측면에서는 계속 중요하지만, TurboQuant로 인해 가장 직접적으로 가치가 커지는 영역은 아니다. 활용량이 늘 수는 있어도, 가격결정력 강화까지 연결되기는 가장 약한 쪽이다.


결국 TurboQuant를 어떻게 봐야 하나


TurboQuant는 분명 KV 캐시와 벡터 압축 문제를 정면으로 다루는 기술이다.
논문이 말하는 핵심도 명확하다.

  • 벡터를 적은 비트로 압축하되

  • 단순 복원뿐 아니라 벡터 간 관계까지 보존하고

  • 이를 위해 2단계 구조를 사용하며

  • 특정 실험에서는 꽤 강한 성능을 보였다

하지만 여기서 바로
“AI 메모리 수요가 줄어든다”
“HBM 시대가 끝난다”
같은 결론으로 가는 것은 과하다.

개인적인 현실적인 해석은 이렇다.

  • TurboQuant는 AI 전체 메모리 문제를 해결하는 기술이라기보다, KV 캐시처럼 특정 병목을 완화하는 기술에 가깝다.

  • 현재 논문 실험은 제한된 환경에서 이뤄졌기 때문에, 이를 대규모 상업 서비스 전반으로 확장하려면 추가 검증과 시간 필요하다.

  • AI 산업에서는 효율 기술이 총 하드웨어 수요를 줄이기보다, 오히려 총사용량을 늘리는 방향으로 작동한 경우가 더 많았다.

  • 이런 흐름을 감안하면 TurboQuant 역시 메모리 수요를 직접 줄이기보다는, 같은 메모리의 경제적 가치를 높이는 기술로 볼 수 있다.

  • 그 결과 전체 메모리 활용도와 수요가 오히려 확대될 가능성이 충분히 높다.


한 문장 결론


TurboQuant는 메모리를 아예 덜 쓰게 만드는 기술이라기보다,
같은 메모리로 더 많은 일을 하게 만드는 기술에 가깝다.
그리고 이렇게 한정된 메모리에서 더 큰 가치가 만들어진다면,
과점 구조의 메모리 공급사들은 그 증가한 가치의 일부를 제품 가격 인상 형태로 흡수할 가능성이 있지 않나 싶다.


#글을 마치며 


TurboQuant를 바라볼 때 중요한 것은, 이를 단순히 “메모리 사용량을 줄여주는 기술”로만 볼 것이 아니라 AI 추론 시스템 안에서 병목의 위치를 다시 이동시킬 수 있는 기술로 이해하는 것이 맞다. 

이 변화의 과실이 어디에 가장 많이 귀속될지는 아직 열려 있다. 메모리의 가치가 더 부각될 수도 있지만, 반대로 GPU 연산, 인터커넥트, 캐시 소프트웨어, 추론 엔진 최적화 같은 다른 계층이 더 큰 수혜를 가져갈 가능성도 충분하다.

정말로 TurboQuant의 기술이 추론 economics를 개선하면서 AI 인프라 내부의 가치 배분 구조를 다시 흔드는 기술이 될 수 있을지 지켜봐야 겠다.

=끝