2026년 1월 7일 수요일

생각정리 156 (* Nvidia 2026 CES keynote)

퇴근후 집에 돌아와 저녁을 먹고 잠깐 잠들었다가 일어나 새벽까지 젠슨황의 Nvidia 2026 CES keynote를 돌려보며 들었던 생각을 두서없이 시간순으로 정리해본다.


1. CES 2026 키노트 핵심 정리


CES 2026에서 젠슨 황은 Vera Rubin NVL72 랙 스케일 시스템을 공식 발표했다. Rubin은 다음과 같은 특징을 가진다. (Tom's Hardware)

  • 6개 공설계(*co-design) 칩: Vera CPU, Rubin GPU, NVLink 6 스위치, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 이더넷 스위치

  • 성능: Rubin GPU 1개가 Blackwell GB200 대비 추론 성능 약 5배, 토큰당 비용 약 1/10 수준을 목표

  • 메모리 구조: Vera CPU당 1.5TB LPDDR5X, GPU 패키지당 288GB HBM4, 랙 기준 수십 TB급 HBM/DRAM 결합

  • 새로운 메모리 계층: BlueField-4를 활용한 Inference Context Memory Storage Platform(ICS) 로, KV 캐시·에이전트 컨텍스트를 랙 간에 공유하는 AI-네이티브 스토리지 계층을 제시 (NVIDIA Newsroom)


여기에 더해, NVIDIA는

  • 800V DC 기반 AI 데이터센터 전력 아키텍처, (NVIDIA Developer)

  • 실리콘 포토닉스·CPO 기반의 Spectrum-X / Quantum-X 광학 스위치 (CloudNews.Tech)


까지 묶어, “AI 팩토리”의 전력–네트워크–스토리지–연산 전체를 재설계하겠다는 청사진을 내놓았다.

참고:


키노트에서 데이터 이동과 스토리지·네트워크 아키텍처 설명에 많은 시간을 썼다는 사실 자체가, 현재 AI 데이터센터의 병목이 더 이상 단순 연산(FLOPS)이 아니라 **“컨텍스트 데이터 이동”**이라는 점을 강하게 시사한다.


2. 들쭉날쭉한 추론 수요와 ‘데이터 이동’이라는 새 병목


LLM·에이전트 기반 서비스의 추론 트래픽은 구조적으로 들쭉날쭉한 수요(bursty) 를 가진다.

  • 특정 시간대·이벤트에 폭증했다가

  • 평상시에는 상대적으로 낮은 부하로 떨어진다.

NVIDIA가 Rubin·BlueField-4·ICS·포토닉스를 묶어 제시한 설계도는, 이 들쭉날쭉한 수요를 랙·팟·클러스터 전체에 부드럽게 안분시키는 통합 아키텍처에 가깝다.

  • BlueField-4 + ICS는 KV 캐시·에이전트 컨텍스트를 GPU 밖 외부 스토리지로 빼내어 공유하고, (NVIDIA Newsroom)

  • Spectrum-6 포토닉스 스위치는 800G 링크를 수백~수천 포트 규모로 묶어 랙 간·팟 간 데이터 이동 병목을 줄이려 한다. (Tom's Hardware)


즉, 키노트의 메시지는 “더 센 GPU를 만들었다”보다,
**“데이터를 어떻게 움직일 것인가를 다시 설계했다”**에 더 가깝다.


3. AI SSD와 NAND: ‘추론 메모리 계층’으로 격상


Rubin과 BlueField-4 ICS의 핵심은 KV 캐시 계층의 확장이다.

  1. 기존 구조

    • GPU HBM에 1차 KV 캐시

    • 필요 시 CPU 메모리로 일부 오프로드

    • 더 나아가 SSD·원격 스토리지로 내리는 실험적 아키텍처들이 연구 단계에 머물러 있었다. (Blocks and Files)

  2. Rubin/ICS가 제시하는 구조

    • KV 캐시·에이전트 컨텍스트를 **SSD까지 포함한 다단계 메모리 계층의 ‘정식 구성원’**으로 편입

    • BlueField-4 DPU가 이 계층을 직접 관리하며, NVMe-oF·RDMA 기반으로 스토리지를 GPU 메모리의 확장처럼 취급하는 방향 (NVIDIA Newsroom)


이 때 SSD는 더 이상 단순한 “저장 공간”이 아니라,
LLM 추론의 외부 메모리 계층(External AI SSD, AI-native storage) 으로 성격이 바뀐다.

이 변화는 NAND 수요 구조에 세 가지 영향을 준다.

  1. 엔터프라이즈 SSD 탑재량 증가

    • KV 캐시·벡터 스토어·에이전트 메모리 등 AI 워크로드 비중이 커질수록, 랙당 eSSD 용량은 수십~수백 TB 수준까지 확대된다.

    • 메모리 수요가 PC·스마트폰에서 서버·eSSD로 재배분되는 구조이며, TrendForce도 2025~2026년 NAND 수요의 중심축이 점차 엔터프라이즈 SSD와 AI 스토리지로 이동하고 있음을 지적한다. (TrendForce)

  2. 쓰기 부하 증가 → 감가상각 가속 가능성

    • KV 캐시는 “읽기 위주”만이 아니라,

      • 긴 컨텍스트를 유지하기 위한 지속적인 append,

      • 세션 종료·에이전트 상태 정리 시 GC/삭제/재사용,

      • 재학습·정리 시 대량 overwrite 가 발생한다. (arXiv)

    • 이는 엔터프라이즈 SSD에서 중요한 지표인 DWPD(하루 쓰기 횟수) 를 빠르게 소모시키고,

      • 교체 주기를 앞당기며,

      • 동일한 AI 서비스 기준으로 누적 NAND 비트 수요를 늘리는 요인이 될 수 있다.

  3. 장기 수요의 구조적 상향 가능성

    • NAND는 과거 30%대 연간 비트 성장에서 10~15% 성장 체제로 재조정되며, 제조사들이 감산과 CAPEX 축소를 반복해 왔다. (TrendForce)

    • 그런데 2025년 하반기에는 AI·eSSD 수요와 감산의 조합으로 NAND 웨이퍼 계약가격이 한 달 새 20~60% 급등하는 구간까지 등장했다. (TrendForce)

    • Rubin/ICS·AI SSD 계층이 본격화되면, 이와 같은 상승 국면이 단기 사이클이 아니라 새로운 수요 레벨의 형성으로 귀결될 수 있다.

참고:

 

 

정리하면, 외부 AI SSD 스토리지가 추론 메모리 계층으로 편입될수록

  • NAND 비트 탑재량은 늘고,

  • 쓰기 부하는 커지며,

  • 감가상각이 가속될 여지가 있다.

이는 NAND의 장기 수요를 구조적으로 재정의할 수 있는 변화이다.


4. 외부 AI SSD + 광학 인터커넥트: InP 웨이퍼의 병목


AI SSD를 “외부 메모리”로 본격 활용하려면, GPU–DPU–스토리지 사이를 잇는 네트워크 대역폭이 폭발적으로 늘어날 수밖에 없다.

이 계층을 지탱하는 것이 800G/1.6T급 광학 인터커넥트이다.

  1. 800G+ 광 트랜시버 수요 폭증

    • TrendForce에 따르면, 800G 이상 광 트랜시버 출하량은 2025년 2,400만 개 → 2026년 약 6,300만 개(2.6배) 로 증가할 전망이다.

    • 보고서는 이 과정에서 레이저 광원, 특히 EML(외부 변조 레이저)의 공급이 병목으로 부각되며, 리드타임이 2027년 이후까지 길어질 수 있다고 경고한다. (Communications Today)

  2. InP(인듐 인화물) 웨이퍼·에피 병목

    • 800G+ 트랜시버의 레이저·포토다이오드(PD)·TIA 등 핵심 광소자는 여전히 InP 기반 에피·웨이퍼 의존도가 높다. (Communications Today)

    • InP 기판 및 관련 소재는 이미 AI 데이터센터용 광 모듈 수요 확대로 타이트해졌고, 주요 공급업체들은 CAPA를 20~30% 늘려도 수요를 따라가기 어렵다는 평가가 나온다. (Semiconductorinsight)

    • 여기에 중국이 갈륨·게르마늄에 이어 인듐 등 전략 광물에 대한 수출 규제를 확대하면서, InP 공급망은 지정학적 리스크까지 안게 되었다. (projectblue.com)

  3. NVIDIA 포토닉스 스위치와 레이저 수 절감 효과

    • NVIDIA는 GTC 2025에서 Spectrum-X / Quantum-X 포토닉 스위치를 발표하며,

      • 실리콘 포토닉스·CPO(co-packaged optics)를 통해

      • 기존 플러그형 트랜시버 대비 전력 효율 3.5배 개선, 레이저 수 4분의 1로 축소를 주장했다. (CloudNews.Tech)

    • 이 설계는 포트당 레이저 사용량을 줄여 상류 병목을 완화하는 요인이 된다.

  4. 그러나 “효율 < 총 수요 증가”라면?

핵심 변수는 단순하다.

레이저를 4배 아끼는 속도 vs. 800G+ 링크 수가 늘어나는 속도 중 어느 쪽이 더 빠른가.

 

  • 800G+ 포트 수가 2.6배, 이후에도 기하급수적으로 늘어난다면,

  • 레이저 효율 개선이 있더라도 InP 웨이퍼·레이저·SiPh 패키징 CAPA는 여전히 절대 부족 상태가 될 수 있다.

AI SSD가 본격적으로 KV 캐시·벡터 스토어를 외부로 내리면,

  • SSD ↔ DPU ↔ GPU ↔ 스위치 간 트래픽이 동시에 폭증하고,

  • 이 트래픽을 지탱하는 800G/1.6T 광 링크 수요가 NAND·AI SSD 수요와 동시에 증가한다.


결국, Rubin·ICS·AI SSD·포토닉스는

  • NAND 비트 수급

  • InP·레이저·SiPh 패키징·어드밴스드 패키징이라는 새로운 병목


을 동시에 키우는 구조로 수렴할 가능성이 크다.

참고:

 


5. 800V DC, MLCC, 전력 반도체: 랙 내부 전압 구조의 재편


NVIDIA와 ABB·Eaton은 1MW급 랙, 기가와트급 AI 캠퍼스를 전제로 800V DC 데이터센터 전력 아키텍처를 제시했다. (datacenterfrontier.com)

  • 기존 415/480V AC 기반 구조 대비

    • 변환 단계 수를 줄이고,

    • 케이블 단면적을 줄여 설치비·손실을 줄이며,

    • 고전력 랙 밀도를 가능하게 만드는 것이 목적이다. (ABB Group)

이 변화는 랙·보드 레벨에서 MLCC와 전력 반도체 구조를 바꾼다.

  1. 전압 변환 스테이지 재구성

    • 800V → 수백 V → 수십 V → 수 V로 내려가는 DC/DC 계층이 새로 설계되면서,

    • 각 계층에서 에너지 저장·필터링·EMI 억제를 담당하는 MLCC(*Capacitor)의 역할이 커진다.

  2. 부하 변동성 확대

    • AI 추론 부하는 순간 피크와 평균 부하 차이가 크다.

    • 이 피크를 랙·보드에서 버퍼링하기 위해 대용량 MLCC·폴리머 커패시터·버스 커패시터 탑재량이 늘어날 수밖에 없다.

  3. 전력 반도체 수요

    • 800V급 환경에서는 SiC·GaN 기반 고전압 전력반도체의 채용 여지가 커지고,

    • AI 랙의 전력 변환 효율이 투자 포인트가 된다. (바론스)

결국 Jevons의 역설로 총 전력 사용량이 늘어나는 방향이라면,
그 전력을 버티고 제어하는 MLCC(*Capacitor)·전력반도체·보호 소자의 총 탑재량도 구조적으로 증가하는 그림이다.


6. Jevons의 역설: 토큰당 비용 1/10이 만든 전력·NAND·광학 수요 폭증


Rubin NVL72는 Blackwell 대비 추론 성능 5배, 토큰당 비용 1/10을 내세운다. (Tom's Hardware)


경제학적으로 보면, 가격이 떨어질수록 소비량이 더 빠르게 늘어나는 자원에서 나타나는 전형적인 Jevons의 역설이 작동하기 좋은 환경이다.

  • 토큰당 비용이 1/10로 떨어지면,

    • 동일 예산으로 10배 많은 토큰을 쓸 수 있고,

    • 실제로는 새로운 서비스·에이전트·온디바이스 추론까지 붙으며

    • 토큰 수요는 10배 이상으로 늘어날 수 있다.

그 결과:

  • 전력 소비: 데이터센터 전력 사용량은 감소가 아니라, 효율 개선 속도보다 빠른 속도로 증가할 가능성이 크다. (ABB Group)

  • NAND·DRAM 수요: 2024~2026년 메모리 공급 부족과 가격 급등은, AI 인프라로 CAPA가 재배치된 가운데 DRAM·NAND가 구조적 타이트 국면에 진입했다는 시그널로 읽힌다. (위키피디아)

  • 광학 인터커넥트: 토큰 수요와 모델 크기가 동시에 커질수록, 800G/1.6T 링크 수요는 기하급수적으로 증가한다.


Rubin·ICS·800V·포토닉스는 **“이 폭증하는 AI 사용량을 얼마나 싸게 처리하느냐”**에 대한 해법이지,

총 에너지·총 메모리·총 네트워크 사용량을 줄이겠다는 해법은 아니다.


7. GPU vs ASIC: 범용성·유연성이 만드는 구조적 우위


ASIC은 특정 연산·모델에 최적화되어 TOPS/W 기준으로는 GPU보다 유리할 수 있다. 그러나 Rubin·ICS가 겨냥하는 환경은 다음과 같다.

  • 여러 종류의 LLM·멀티모달 모델·에이전트가 동시에 돌아가는 환경

  • 수시로 바뀌는 프롬프트·컨텍스트·도메인

  • 예측하기 어려운 트래픽 패턴


이 환경에서 중요한 것은 단일 모델의 효율이 아니라,

“주어진 전력·자본·공간 안에서 얼마나 다양한 워크로드를 유연하게 수용·재배치할 수 있는가” 이다.


Rubin 아키텍처는 (Tom's Hardware)

  • NVLink 6로 GPU 간 초고속 통신,

  • Spectrum-6 포토닉스 스위치로 랙/팟 간 연결,

  • BlueField-4로 스토리지·네트워크 오프로딩,

  • ICS로 KV 캐시/컨텍스트를 공유 자원으로 관리하는 구조를 제시한다.


이런 설계에서는

  • 범용성이 높은 GPU·DPU 기반 시스템

  • 불확실한 서비스 믹스와 들쭉날쭉한 트래픽을 감당할 수 있는 기본 옵션이 된다.


반면 ASIC은

  • 특정 대형 서비스(검색·추천·단일 LLM API 등)에 집중된 사업자에게

  • 제한된 도메인에서만 높은 효율을 제공할 수 있다.


따라서, 블랙웰·베라 루빈 시리즈의 범용성·유용성이 높은 GPU
연산에만 최적화된 ASIC을 “성능/전력”이 아니라 “유연성/자본 효율” 측면에서 압도할 가능성이 크다고 볼 수 있다.


8. 노동시장: AI 양극화와 한국의 ‘허리’ 세대


토큰당 비용 하락과 Rubin급 인프라 확산은 노동시장에도 비대칭적 충격을 준다.

  1. 저숙련 노동자의 사회 진입 지연 가능성

    • 단순 리포트 작성, 기초 자료 정리, 기본적인 리서치·요약 등

      • 전통적으로 신입·인턴·주니어가 맡던 업무가 AI로 대체된다.

    • 이는 2030년 전후 사회 진입 세대에게

      • “처음 몇 년간 무엇을 하면서 배우는가” 라는 문제를 던진다.

  2. AI를 레버리지로 쓰는 중견·숙련 인력의 몸값 상승

    • 반대로, 도메인 지식·프로젝트 경험·조직 이해도가 높은 30~40대 숙련 인력

      • AI를 활용해 자신의 산출물을 곱셈적으로 확대할 수 있다.

    • 특히 한국 기업 구조에서

      • 꽉 찬 대리~과장급

        • 실무를 가장 잘 알고,

        • 경영진과도 소통 가능하며,

        • 팀을 이끄는 허리 역할을 수행한다.

    • 이 계층이 Rubin·ICS·포토닉스·AI SSD 등 현재 AI 인프라의 흐름과 도구를 빠르게 이해하고

      • 보고서 작성, 모델링, 리서치, 데이터 분석, 시스템 설계에 AI를 결합하면,

      • 같은 연차 내에서도 생산성과 협상력이 크게 벌어지는 양극화가 발생할 수 있다.


  3. AI 인프라·반도체·전력·네트워크 분야 인력 수요 확대

    • NAND·InP·MLCC·전력·광학 인터커넥트·패키징·데이터센터 전력 등

      • AI 인프라의 모든 서브시스템이 동시에 타이트해지면서,

    • 공정·설계·장비·소재·전력 인프라·투자 분석 등

      • 정량적·기술적 이해가 가능한 인력에 대한 수요는 구조적으로 증가한다.

결과적으로, Rubin/ICS/800V/포토닉스는

  • AI를 “대체재”가 아닌 “레버리지”로 쓰는 집단

  • 그렇지 못한 집단 사이의 노동시장 격차를 더 벌릴 수 있다.

특히 한국에서는 **“꽉 찬 대리~과장급”**이
현재의 AI 흐름을 빠르게 흡수해 자신의 업무에 녹여낼 수 있는지 여부가
향후 5~10년 노동시장 포지셔닝을 가르는 중요한 변수가 될 가능성이 크다.


9. 정리: NAND·광학·전력·노동시장이 만나는 분기점


NVIDIA CES 2026 키노트는 다음과 같은 구조적 메시지를 던진다.

  • NAND·AI SSD

    • KV 캐시·에이전트 컨텍스트를 외부 SSD로 내리는 아키텍처는

    • 엔터프라이즈 SSD 탑재량 증가 + 쓰기 부하 확대 + 감가상각 가속을 통해

    • NAND 장기 비트 수요를 구조적으로 끌어올릴 잠재력을 가진다.

  • 광학 인터커넥트·InP

    • 800G/1.6T 포토닉스 링크 수가 폭발적으로 늘면서

    • InP 웨이퍼·레이저·PD·실리콘 포토닉스·패키징이 새 병목으로 부상한다.

    • NVIDIA의 “레이저 4배 절감” 기술은 효율 측면에서 완화 요인이지만,

      • 총 대역폭 수요 폭증을 상쇄하기엔 부족할 수 있다.

  • 800V DC·MLCC·전력 반도체

    • 1MW급 랙을 겨냥한 800V DC 아키텍처는

      • 데이터센터 내부 전압 계층과 MLCC·전력반도체 구조를 재편하고,

      • 고전압·고밀도 환경에서 동작하는 전력·보호 부품의 전략적 중요성을 높인다.

  • Jevons의 역설·노동시장

    • 토큰당 비용이 떨어질수록 AI 사용량은 더 빠르게 늘고,

    • 전력·메모리·네트워크·인력까지 전방위적으로 수요를 자극한다.

    • AI를 레버리지로 쓰는 숙련 인력과 그렇지 못한 인력 간의 격차는 더 커질 가능성이 크다.


Rubin·BlueField-4·ICS·포토닉스·800V를 하나의 설계도로 보면,
이는 단지 “GPU 세대 교체”가 아니라

NAND·InP·MLCC·전력·노동시장을 동시에 재정렬하는 분기점


으로 해석할 수 있다.


향후 몇 년간 AI 인프라·반도체·전력·노동시장을 분석할 때,
이 통합 설계도가 어떤 방향으로 현실화되고 있는지를 관찰하는 것이 중요하며,
이번 NVIDIA CES 2026 키노트는 그 방향성을 비교적 선명하게 보여준 이벤트이지 않았나 싶다.


#글을 마치며 


젠슨 황의 키노트를 지켜보면서 ‘이 속도로 그대로 가다가는 나도 정말 AI에게 밀려나겠다’는 위기감이 들었으며, 

내가 만약 노동시장에 이제 막 진입하는 세대였다면 어땠을까 하는 생각에 순간 간담이 서늘해지기도 했다.

기술 변화의 속도를 따라잡고, 그 충격파가 거시경제·산업·기업·투자환경으로 어떤 경로를 통해 파급될지 미리 그려본 뒤,

앞으로 전개될 흐름에 맞춰 적시에 포트폴리오(P/F)를 어떻게 재구성할지 훨씬 더 깊게 고민해야겠다는 생각이 들었다.

=끝

댓글 없음:

댓글 쓰기