2026년 6월 2일 화요일

생각정리 271 (* AI Components Up-cycle -4)

지난 3Q25 Review 시즌에 PCB 업체들의 단체 NDR 컨퍼런스에 참석한 적이 있다. 당시 일정 중간에 삼성전기 세션이 있었지만, 별도로 신청하지는 않았었다. 그런데 마침 시간이 비었고, 현장에서 따로 요청드린 끝에 삼성전기 NDR 컨퍼런스에도 참석할 수 있었다.

앞뒤로 진행된 PCB 업체 세션과 비교하면 삼성전기 세션의 참석 인원은 유독 적었다. 그런데 그 자리에서 한 기관투자자분이 상당히 날카로운 질문을 연달아 던졌다. 회사의 답변은 다소 명확하지 않았지만, 그 질의응답을 듣는 순간 기록의 필요성을 느꼈다. 이전 세션까지는 내용을 따로 적어두지 않았지만, 급히 가방에 넣어두었던 노트북을 꺼내 당시 내용을 후다닥 정리하기 시작했던 기억이 있다.

당시에는 ABF 산업을 따로 공부하고 있었기 때문에, MLCC 산업의 업황 변화가 더욱 선명하게 체감됐다. 회사로 돌아와 내용을 다시 정리하는 과정에서, 다른 PCB 업체들보다 삼성전기의 업사이드 포텐셜이 훨씬 크다는 생각이 들었고, 이후 포트폴리오 비중을 조정했다.

그 뒤로도 수동소자 업종을 계속 눈여겨보고 있다. 최근에는 Agentic AI가 AI 인프라 산업의 지형을 바꿔가는 과정에서, 수동소자가 예상보다 더 중요한 축으로 부상할 가능성이 높아지고 있다고 느낀다.

마침 연휴 동안 범용 수동소자의 대표 기업인 Walsin Technology의 최근 어닝콜을 정리하던 중, 이러한 관점을 뒷받침할 만한 흥미로운 변화도 확인할 수 있었다.


Walsin Technology

수동소자 업황은 과거처럼 PC, 스마트폰, TV 수요 사이클만으로 설명하기 어려운 국면에 들어서고 있다.

특히 Computex 2026에서 강조된 agentic AI의 확산은 AI 연산이 데이터센터 내부에만 머무르지 않고, AI PC, edge device, 자동차, 로봇, 휴머노이드로 확산될 가능성을 보여줬다.

이 변화는 수동소자 산업에도 직접적인 영향을 미친다. AI가 더 많은 기기 안에서 상시 작동하려면 전력 공급은 더 정밀해져야 하고, 신호 품질은 더 안정적이어야 하며, 물리세계에서 작동하는 기기는 더 높은 내열성·내진동성·내구성을 갖춰야 한다.

결국 MLCC, 저항기, 인덕터 같은 수동소자는 단순한 후방 부품이 아니라 AI 확산을 가능하게 하는 전력·신호·신뢰성 인프라로 재평가될 수 있다.

이번 글은 Walsin Technology의 코멘트를 출발점으로, Computex 2026 이후 agentic AI 확산이 수동소자 산업의 수요, 제품 믹스, 가격 사이클을 어떻게 바꿀 수 있는지를 정리해보는 리서치 기록이다. 

AI가 물리세계로 내려오면, 수동소자가 먼저 부족해진다


1. AI 투자를 GPU와 HBM만으로 보면 놓치는 것이 있다


AI 인프라 투자는 지금까지 주로 GPU, HBM, 첨단 패키징 중심으로 설명되어 왔다. 그러나 AI 시스템이 고도화될수록 또 하나의 중요한 부품군이 부각되고 있다. 바로 수동소자다.

수동소자는 스스로 연산하지 않는다. 대신 반도체가 안정적으로 작동할 수 있도록 전압을 안정화하고, 전류를 조절하고, 노이즈를 줄이고, 전력 변환을 돕는 역할을 한다.

쉽게 말하면 GPU와 CPU가 엔진이라면, 수동소자는 엔진에 전기를 안정적으로 공급하는 배관, 밸브, 완충 장치, 필터에 가깝다. 엔진 성능이 높아질수록 연료 공급과 열 관리가 중요해지는 것처럼, AI 반도체 성능이 높아질수록 전기적 안정성을 책임지는 수동소자의 중요성도 커진다.

이번 글의 핵심 질문은 단순하다.

AI가 서버에서 PC, 엣지 디바이스, 자율주행, 휴머노이드로 확산될 때 수동소자 수요는 얼마나 구조적으로 증가할 수 있는가.


2. 수동소자의 3대 축: MLCC, 저항기, 인덕터


수동소자는 종류가 많지만, AI 확산과 가장 직접적으로 연결되는 부품은 MLCC, 저항기, 인덕터다.


세 부품의 역할을 한 문장으로 정리하면 다음과 같다.

MLCC는 저장하고 걸러내며, 저항기는 조절하고 감지하고, 인덕터는 완충하고 변환한다.

AI 기기는 순간적으로 전력을 많이 쓰고, 메모리 접근이 잦고, 고속 통신이 많다. 따라서 기존 PC나 스마트폰보다 더 촘촘한 전원 안정화와 노이즈 관리가 필요하다. 이 지점에서 수동소자 탑재량과 요구 사양이 함께 올라간다.


3. AI 서버 랙당 수동소자 사용량은 비선형적으로 증가한다


수동소자 수요를 볼 때 가장 먼저 확인해야 할 변화는 AI 서버 랙당 탑재량 증가다.

AI 서버는 세대가 올라갈수록 GPU 수, 전력 소모, 발열, 통신 속도가 동시에 증가한다. 이 네 가지 변화는 모두 수동소자를 더 많이 필요로 만든다.

HGX H100에서 Rubin Ultra NVL576으로 넘어가면 GPU 수는 8개에서 576개로 증가한다. 이 과정에서 MLCC와 chip resistor 사용량은 단순히 몇 배 늘어나는 수준을 넘어 최대 100배 수준까지 증가할 수 있는 구조로 바뀐다.


이 숫자가 중요한 이유는 명확하다. AI 서버 수요는 더 이상 “서버가 몇 대 팔리는가”만으로 설명하기 어렵다. 이제는 한 랙 안에 얼마나 많은 전력 안정화 부품이 들어가는가가 더 중요해지고 있다.


4. AI 서버의 핵심은 연산·통신·전원 3개 축이다


AI 서버에서 수동소자가 늘어나는 이유는 세 가지다.

첫째, 연산량 증가다. GPU 수가 늘어나면 전력 사용량이 커진다. GPU, CPU, HBM 주변에는 더 많은 MLCC와 저항기, 인덕터가 필요하다.

둘째, 통신량 증가다. AI 서버는 GPU끼리, 서버끼리, 랙끼리 대량의 데이터를 주고받는다. 통신 속도가 빨라질수록 신호 품질과 노이즈 관리가 중요해진다.

셋째, 전원부 복잡도 증가다. AI 랙은 수백 kW에서 MW급 전력을 다루는 방향으로 가고 있다. 전력을 안정적으로 변환하고 분배하려면 고전압 MLCC, 고전류 인덕터, 저저항·고정밀 저항기가 필요하다.

따라서 AI 서버 수요를 볼 때 GPU와 HBM만 보는 것은 부족하다. AI 랙은 연산, 통신, 전원이 동시에 고도화되는 시스템이고, 수동소자는 이 세 축을 모두 떠받치는 부품이다.









5. Computex의 메시지: AI는 서버 밖으로 이동하고 있다


이번 Computex에서 Qualcomm, Intel, Marvell, NVIDIA가 공통적으로 보여준 방향은 분명하다. AI는 데이터센터 안에만 머무르지 않는다. 앞으로 AI는 PC, 스마트폰, 웨어러블, 자동차, 로봇, 산업 장비로 확산된다.

Qualcomm은 agentic AI 시대를 강조했다. Agentic AI는 사용자의 질문에 답하는 수준을 넘어, 스스로 작업을 나누고, 도구를 호출하고, 여러 기기에서 행동하는 AI를 의미한다.

이 변화가 본격화되면 디지털 생태계의 중심은 스마트폰이나 특정 OS가 아니라 AI agent로 이동할 수 있다. 에이전트는 하나의 기기에만 머무르지 않고, 사용자를 따라 스마트폰, PC, 자동차, 웨어러블을 넘나들며 작동한다.

앞으로의 기기는 단순히 앱을 실행하는 장치가 아니다. 사용자의 주변 상황을 계속 인식하고, 필요한 작업을 상시 처리하고, 클라우드가 없어도 일정 수준의 AI 추론을 수행해야 한다. 이를 위해 기기는 고성능, 저전력, 온디바이스 AI, 고속 연결성을 동시에 갖춰야 한다.

이 변화는 엣지 디바이스 교체 사이클과도 연결된다.


Agentic AI가 복잡한 다단계 작업을 수행하면 토큰 사용량도 급증한다. 모든 연산을 클라우드에서 처리하면 비용과 지연시간 문제가 커진다. 이 때문에 Qualcomm은 필요한 작업만 클라우드에서 처리하고, 나머지는 디바이스에서 처리하는 분산형 agentic AI 구조를 제시한다.

이 구조가 확산되면 AI 연산은 데이터센터 한 곳에 집중되지 않는다. 스마트폰, PC, 자동차, 로봇, 웨어러블이 모두 작은 AI 컴퓨터가 된다. 그리고 모든 AI 컴퓨터는 더 많은 전력을 더 정밀하게 다뤄야 한다.


6. AI PC와 AI Deskside PC는 수동소자 탑재 집약도를 높인다


AI PC는 기존 PC에 NPU만 추가한 제품으로 보기 어렵다. 앞으로의 AI PC는 CPU, GPU, NPU, 메모리, SSD, 통신칩, 전원관리칩이 함께 작동하는 고밀도 로컬 AI 장치에 가까워진다.

AI가 로컬에서 실행되면 메모리 접근이 많아지고, 전력 부하가 순간적으로 커진다. 특히 agentic AI는 한 번의 명령으로 끝나지 않는다. 파일을 읽고, 웹을 검색하고, 코드를 작성하고, 결과를 검증하고, 다시 수정하는 작업을 반복한다. 이 과정에서 CPU, 메모리, 저장장치, 네트워크가 동시에 사용된다.

AI Deskside PC는 이 흐름을 더 강하게 보여준다. NVIDIA의 DGX Spark 같은 개인용 AI 슈퍼컴퓨터는 데스크톱 크기 안에서 대형 모델을 추론하고 미세조정할 수 있도록 설계됐다. 일반 PC보다 훨씬 높은 연산 성능과 대용량 통합 메모리를 요구한다.

공식 BOM이 공개된 것은 아니지만, 회로 블록 기준으로 보면 AI PC와 AI Deskside PC의 수동소자 탑재량은 기존 PC보다 높아질 가능성이 크다.


위 수치는 제조사 공식 BOM이 아니라 working estimate다. 그러나 방향성은 분명하다. AI PC와 AI Deskside PC는 더 많은 연산, 더 큰 메모리, 더 높은 전력 변환, 더 빠른 통신을 필요로 한다. 이 네 가지는 모두 수동소자 탑재 집약도를 높이는 요인이다.


7. 휴머노이드는 움직이는 AI 서버에 가깝다


시장에서 가장 기대감이 높은 AI application 중 하나는 휴머노이드다. 휴머노이드는 단순한 로봇이 아니다. AI 연산 장치, 센서, 모터, 배터리, 통신 모듈, 전원 변환 회로가 하나의 몸체 안에 들어간 복합 전자 시스템이다.

데이터센터 서버는 고정된 공간에서 작동한다. 반면 휴머노이드는 실제 물리세계에서 걷고, 보고, 듣고, 판단하고, 물체를 잡고, 사람과 상호작용한다. 이 과정에서 카메라, 라이다, IMU, 힘 센서, 촉각 센서, 모터 드라이버, 배터리 관리 시스템, 엣지 AI 보드가 동시에 작동한다.

휴머노이드를 주요 모듈로 나누면 수동소자 사용량이 왜 커질 수밖에 없는지 이해하기 쉽다.



휴머노이드에서 중요한 것은 개수만이 아니다. 물리세계에서 작동하는 AI 기기는 데이터센터보다 훨씬 거친 환경에 놓인다. 진동, 충격, 열, 습도, 먼지, 전자파, 반복적인 기계적 스트레스가 모두 부품에 부담을 준다.

그래서 휴머노이드에는 단순 범용품보다 내열성, 내습성, 내진동성, 내충격성, 장기 신뢰성을 갖춘 고품질 수동소자가 필요하다. 특히 모터가 많은 제품에서는 전류가 순간적으로 크게 변하고, 모터 구동 과정에서 전압 스파이크가 발생할 수 있다.

이때 MLCC는 전압을 안정화하고, 인덕터는 전류 변화를 완충하며, 저항기는 전류를 감지하고 제어한다. Physical AI가 확산될수록 수동소자는 더 많이 쓰일 뿐 아니라, 더 높은 사양으로 쓰일 수밖에 없다.


8. 수동소자 제조 경쟁력은 소재와 공정에서 갈린다


수동소자는 작은 부품이지만 고성능 제품일수록 제조 난이도가 높다. 핵심은 더 작게 만들면서도 더 높은 전압, 더 큰 전류, 더 높은 온도, 더 강한 진동을 견디게 만드는 것이다.

MLCC의 경쟁력은 세라믹 유전체를 얼마나 얇고 균일하게 만들고, 그 얇은 층을 얼마나 많이 쌓을 수 있는지에서 나온다. 층을 많이 쌓으면 용량은 커지지만, 전압을 버티고 장기 신뢰성을 유지하기는 더 어려워진다. 그래서 고용량·고전압 MLCC는 분말, 전극, 적층, 소성, 검사 공정이 모두 중요하다.






인덕터의 경쟁력은 자성 소재, 코일 설계, 저손실 구조, 열 관리에서 나온다. AI 서버와 전장 전원부는 큰 전류를 다루기 때문에 인덕터가 뜨거워지거나 손실이 커지면 시스템 효율이 떨어진다. 그래서 고전류를 버티면서도 저항을 낮추고, 크기를 줄이고, 발열을 억제하는 기술이 중요하다.

저항기의 경쟁력은 저저항, 고정밀, 낮은 온도계수, 고전력 내구성에서 갈린다. AI 서버 전원부, 전기차, 로봇의 배터리 관리 시스템에서는 전류를 정확하게 감지해야 한다. 온도에 따라 저항값이 흔들리면 전류 측정이 부정확해지고, 이는 안전성과 신뢰성 문제로 이어질 수 있다.

결국 고성능 수동소자는 단순 부품이 아니라 소재·공정·신뢰성 기술이 결합된 전력 인프라 부품이다.





9. 프리미엄 수동소자에서 시작된 타이트닝은 범용품으로 번질 수 있다


수동소자 사이클은 보통 프리미엄 제품에서 먼저 시작된다. 이번에도 같은 흐름이 나타날 가능성이 크다.

AI 서버는 고용량 MLCC, 고전압 MLCC, 고정밀 저항기, 고전류 인덕터를 많이 필요로 한다. 전장과 로봇도 내열성, 내진동성, 내습성, 내황화성 같은 고신뢰성 스펙을 요구한다. 이런 제품은 고객 인증과 신뢰성 검증이 필요하기 때문에 공급이 갑자기 늘어나기 어렵다.

초기에는 AI 서버용, 전장용, 산업용 고사양 수동소자에서 리드타임이 길어지고 가격이 오른다. 이후 공급업체가 한정된 생산능력을 고부가 제품으로 옮기면 범용품 공급 여유도 줄어든다. 이때부터는 소비자 IT 수요가 완전히 강하지 않더라도 범용 MLCC, 범용 저항기, 일반 인덕터 가격에도 반등 압력이 생길 수 있다.

즉, 이번 사이클은 프리미엄 세그먼트의 가격 인상이 범용 세그먼트로 확산되는 구조로 볼 수 있다.


10. 수동소자 upcycle의 추가 근거: 주문을 다 받지 않는 시장으로 전환


이번 수동소자 사이클의 신뢰도를 높이는 또 하나의 근거는 조달 방식의 변화다. 과거에는 수동소자가 범용 전자부품으로 취급되는 경우가 많았다. 재고가 충분하고 납기가 짧으면 필요한 시점에 주문하면 되는 부품에 가까웠다.

그러나 AI 서버 증산이 본격화되면서 분위기가 달라지고 있다. 대만의 Foxconn, Quanta, Wistron 같은 AI 서버 제조업체들은 NVIDIA와 주요 클라우드 고객의 수요에 맞춰 생산능력을 빠르게 늘리고 있다. 이 과정에서 GPU, HBM, 전원공급장치, PCB뿐 아니라 MLCC, 저항기, 인덕터 같은 수동소자도 생산 차질을 막기 위한 핵심 조달 항목으로 올라서고 있다.

특히 AI 서버용 수동소자는 범용품과 다르다. 고출력 전원부, 고속 신호, 고열 환경에서 안정적으로 작동해야 하기 때문에 고용량 MLCC, 고전압 MLCC, 저저항·고정밀 저항기, 고전류 인덕터가 필요하다. 이 제품들은 아무 업체나 즉시 공급하기 어렵고, 고객 인증과 신뢰성 검증에도 시간이 걸린다.

그래서 시장은 단순한 주문 증가 단계를 넘어 물량 확보 경쟁으로 이동하고 있다. 일부 MLCC의 리드타임은 16~24주 이상으로 길어졌고, 대만 유통 채널에서는 재고가 낮아졌다는 신호도 확인된다. 선두 업체들은 AI 서버용 고부가 제품에 생산능력을 우선 배정하고 있으며, 그 결과 일반 범용품 주문은 2선 업체로 밀려나는 흐름도 나타난다.




여기서 중요한 변화는 공급업체가 모든 주문을 무조건 받지 않는다는 점이다. Walsin Technology는 원재료 가격이 급등하는 상황에서 고객 주문이 계속 들어오고 있지만, 비용 전가가 끝나기 전에 무제한으로 물량을 공급할 수 없다는 취지로 설명했다. 이는 수동소자 시장이 과거의 구매자 우위에서 판매자 우위의 가격 협상 구간으로 이동하고 있음을 보여준다.

일본과 대만 업체들의 가격 전략도 같은 방향이다. Taiyo Yuden은 일부 MLCC 가격을 인상했고, Yageo와 Walsin도 손실 제품이나 특정 제품군에 대해 고객별 가격 조정을 협의하고 있다. 이는 전면적인 패닉 쇼티지라기보다, 프리미엄 수동소자부터 가격 협상과 고객별 물량 배정이 시작되는 국면으로 볼 수 있다.

이 구조가 중요한 이유는 가격 인상이 프리미엄 제품에만 머물지 않을 수 있기 때문이다. 선두 업체가 AI 서버용 고부가 제품에 생산능력을 배정하면, 기존 범용 제품의 공급 여유는 줄어든다. 그러면 범용품에서도 리드타임이 늘고, 유통 채널이 선제적으로 재고를 확보하며, 가격 인상 기대가 확산될 수 있다.

결국 이번 수동소자 upcycle은 단순한 수요 회복이 아니다. AI 서버 제조업체의 증산, 선두 수동소자 업체의 고부가 제품 우선 배정, 고객별 가격 협상, 리드타임 확대, 재고 축소가 동시에 나타나는 공급망 재편이다. 이 조합은 수동소자 가격 인상과 제품 믹스 개선이 예상보다 빠르게 진행될 수 있다는 근거가 된다.


11. 원재료 가격 상승은 가격 인상 속도를 더 빠르게 만들 수 있다


이번 수동소자 사이클의 또 다른 특징은 후방 원가 압력이다. 전방에서는 AI 서버, AI PC, edge device, 휴머노이드, 자율주행이 수요를 끌어올리고 있다. 동시에 후방에서는 은, 팔라듐, 구리, 니켈, 주석, 탄탈럼, 희토류, 석유계 소재 가격이 상승하면서 제조 원가를 밀어 올리고 있다.



이 구조는 수동소자 업체에 두 가지 압력을 만든다.

첫째, demand-pull inflation이다. 고객이 더 많은 고품질 수동소자를 요구하면서 가격 협상력이 공급업체 쪽으로 이동한다.

둘째, cost-push inflation이다. 금속과 희귀금속, 에너지, 운송비가 오르면서 제조 원가 자체가 상승한다.

일반적으로 원가가 올라도 최종 수요가 약하면 가격 전가는 어렵다. 그러나 지금은 AI 서버와 전장, 로봇, edge AI 수요가 동시에 커지고 있다. 고객 입장에서는 가격보다 안정적인 물량 확보가 더 중요해질 수 있다.

그래서 이번 가격 사이클은 예상보다 빠르게 진행될 수 있다. 프리미엄 수동소자에서 시작된 가격 인상은 원가 상승과 맞물려 범용 제품군으로 확산될 가능성이 있다.


12. 결론: 수동소자는 AI 인프라의 숨은 병목이다


AI가 발전할수록 더 많은 연산이 필요하다. 그러나 연산만으로 AI 시스템은 완성되지 않는다. 그 연산을 가능하게 하려면 전력 공급이 안정적이어야 하고, 신호가 깨끗해야 하며, 열과 진동을 견딜 수 있어야 한다.

AI 서버는 랙당 수동소자 사용량을 급격히 늘리고 있다. AI PC와 AI Deskside PC는 개인 단말 안으로 고성능 AI 연산과 대용량 메모리를 가져온다. 휴머노이드와 자율주행, 산업용 로봇은 AI를 물리세계로 확산시키며 더 높은 내구성과 신뢰성을 요구한다.

여기에 공급 측면에서는 선두 업체들이 고부가 제품에 생산능력을 우선 배정하고, 일부 주문은 가격 협상과 물량 배정을 거쳐 공급하는 구조로 이동하고 있다. 후방에서는 금속과 희귀금속 가격 상승이 원가를 밀어 올리고 있다.

이 변화는 수동소자 산업에 세 가지 효과를 만든다.

첫째, 기기당 탑재 개수 증가다.
둘째, 고사양 제품 비중 상승이다.
셋째, 리드타임 확대와 ASP 인상 가능성이다.

따라서 수동소자는 더 이상 후방의 저부가 범용 부품으로만 보기 어렵다. AI가 데이터센터에서 PC, edge device, 자동차, 로봇, 산업 장비로 확산될수록 수동소자는 AI 전력·신호·신뢰성 인프라를 지탱하는 핵심 부품군으로 재평가될 수 있다.

=끝

2026년 6월 1일 월요일

생각정리 270 (* AI Components Up-cycle -3)

어제 Nvidia computex 2026를 실시간으로 시청하며 들었던 생각을 두서없이 기록해본다.

Agentic AI 시대의 새로운 병목


토큰 수요는 GPU에서만 늘어나지 않는다


단순 챗봇 대비 에이전틱 AI closed-loop 자동화는 전체 토큰 소비를 보수적으로 10~50배, 업무 자동화에서는 50~200배, 코딩·EDA·데이터 분석형 에이전트에서는 200~1,000배 이상까지 키울 수 있다.

이 문장의 핵심은 간단하다. AI가 “질문에 답하는 도구”에서 업무를 끝까지 수행하는 자동화 시스템으로 바뀌면, 모델 호출 횟수 자체가 늘어난다. 사용자가 한 번 질문하고 모델이 한 번 답하는 구조에서는 토큰 소비가 한 차례 발생한다. 하지만 에이전틱 AI에서는 AI가 계획을 세우고, 도구를 실행하고, 결과를 읽고, 다시 판단하고, 오류를 수정하고, 다음 행동을 반복한다.

젠슨 황이 Computex/GTC Taipei 2026 키노트에서 GitHub commit 증가를 예로 든 것도 같은 맥락이다. 그는 2023년 3억 건, 2024년 4억 건, 2025년 5억 건이던 GitHub commit이 2026년 초 몇 달 만에 거의 3배로 늘었다고 설명했다. 여기서 중요한 부분은 코드 작성이 AI의 대표적인 agentic workload라는 점이다. AI가 실제 업무 생산성을 높이는 순간, 사용량은 단순 채팅이 아니라 자동화된 작업량을 따라 증가한다.

 

(젠슨황 : Agentic ai 시대의 token 사용량 폭증)


따라서 앞으로 AI 인프라 수요를 볼 때는 단순히 “사람들이 챗봇을 얼마나 많이 쓰는가”만 봐서는 부족하다. 더 중요한 질문은 이것이다.

AI가 실제 업무를 대신 수행하면서 내부적으로 몇 번이나 생각하고, 몇 번이나 도구를 쓰고, 몇 번이나 결과를 다시 읽는가.

이 질문이 Agentic AI 시대의 토큰 수요와 하드웨어 병목을 이해하는 출발점이다.


1. 에이전틱 AI는 왜 토큰을 폭발적으로 늘리는가


기존 챗봇은 구조가 단순했다.

사용자 질문 → 모델 답변

이때 토큰 소비는 주로 두 단계에서 발생한다. 먼저 모델이 사용자의 입력을 읽고 이해하는 prefill 단계가 있고, 그다음 모델이 답변을 한 토큰씩 생성하는 decode 단계가 있다.

단순 챗봇에서는 사용자가 짧게 묻고 모델이 길게 답하는 경우가 많았다. 그래서 시장은 자연스럽게 decode 병목에 주목했다. 모델이 답변을 생성할 때마다 과거 토큰의 KV cache를 계속 읽어야 하고, 이 과정에서 HBM 대역폭과 GPU 효율이 중요했기 때문이다.

하지만 에이전틱 AI는 구조가 다르다.

사용자 요청 → 계획 수립 → 도구 실행 → 결과 확인 → 재계획 → 추가 실행 → 검증 → 수정 → 최종 결과

여기서 AI는 한 번만 답하지 않는다. AI는 업무를 수행한다. 즉, 사용자가 시키는 일을 완성하기 위해 closed-loop 자동화를 반복한다.

이 차이가 토큰 수요를 구조적으로 바꾼다.


단순 챗봇은 “1회성 답변”이고, 에이전틱 AI는 “반복 업무 수행”이다


단순 챗봇의 토큰 소비는 다음과 같이 단순화할 수 있다.



이 경우 사용자가 한 번 묻고, 모델이 한 번 답한다. 총 토큰은 4,500개다.

반면 에이전틱 AI는 같은 요청도 훨씬 복잡하게 처리한다. 예를 들어 사용자가 다음과 같이 요청했다고 가정해보자.

“경쟁사 실적 자료를 찾아서, 컨센서스와 비교하고, 표로 정리한 뒤 투자 의견을 써줘.”

단순 챗봇이라면 첨부된 자료만 읽고 요약할 수 있다. 하지만 에이전틱 AI라면 실제 애널리스트 업무처럼 움직인다.

  1. 먼저 어떤 자료가 필요한지 계획한다.

  2. 경쟁사 실적 자료를 검색한다.

  3. 실적표를 읽고 필요한 숫자를 추출한다.

  4. 컨센서스 데이터를 불러온다.

  5. 실제 실적과 컨센서스를 비교한다.

  6. 차이가 큰 항목을 다시 검증한다.

  7. 표를 만든다.

  8. 투자 의견 초안을 작성한다.

  9. 오류가 있는지 다시 확인한다.

  10. 최종 보고서 형태로 정리한다.

각 단계마다 모델은 새로운 정보를 읽고 판단해야 한다. 즉, 매번 prefill과 decode가 다시 발생한다.


이 경우 총 토큰은 약 64,300개다. 단순 챗봇 4,500개와 비교하면 약 14배다.

더 중요한 점은 증가분의 대부분이 decode가 아니라 prefill에서 나온다는 것이다.


여기서 핵심은 명확하다. 에이전틱 AI는 답변을 조금 더 길게 쓰는 기술이 아니다. 업무 과정에서 계속 새로운 정보를 읽고, 판단하고, 재입력하는 구조다. 그래서 prefill 수요가 반복적으로 커진다.


토큰 수요가 늘어나는 첫 번째 이유: 모델 호출 횟수가 늘어난다


에이전틱 AI에서 가장 직관적인 변화는 LLM 호출 횟수 증가다.

단순 챗봇은 보통 한 번의 질문에 한 번의 모델 호출이 발생한다. 하지만 에이전트는 업무를 잘게 쪼개서 처리한다. 계획을 세울 때 한 번, 검색 결과를 읽을 때 한 번, 도구를 실행한 뒤 결과를 해석할 때 한 번, 오류를 발견하면 다시 한 번, 최종 결과를 쓸 때 다시 한 번 호출된다.

이를 단순화하면 다음과 같다.


모델 호출 횟수가 늘어난다는 것은 매번 prefill과 decode가 반복된다는 뜻이다. 단순히 답변 길이가 길어지는 정도의 문제가 아니라, 업무 하나가 여러 개의 LLM 작업으로 분해된다.

이 때문에 에이전틱 AI의 토큰 수요는 사용자 수 증가보다 더 빠르게 늘 수 있다. 같은 사용자가 같은 시간을 쓰더라도, AI가 뒤에서 여러 번 사고하고 여러 번 도구를 실행하면 실제 토큰 소비는 크게 증가한다.


토큰 수요가 늘어나는 두 번째 이유: 도구 사용 결과가 다시 입력으로 들어간다


에이전틱 AI의 가장 큰 차별점은 tool use다. 에이전트는 단순히 답변하지 않고, 실제 도구를 사용한다.

예를 들면 다음과 같다.


이 중간 결과들은 처음에는 토큰이 아니다. CPU memory, SSD, 데이터베이스, 파일 시스템에 저장된 데이터일 뿐이다. 하지만 에이전트가 다음 판단을 하기 위해 이 결과를 다시 LLM에 넣는 순간, 전부 prefill token이 된다.

이 구조가 중요하다.

도구 실행 → 결과 저장 → 결과 재입력 → 판단 → 다음 도구 실행

이 반복이 에이전틱 AI의 기본 작동 방식이다. 따라서 에이전트가 도구를 많이 쓸수록, 중간 결과가 많아지고, 그 결과를 다시 읽는 prefill 수요도 커진다.

이때 CPU-attached memory는 중요한 역할을 한다. CPU와 CPU-attached memory가 토큰을 직접 소비하는 것은 아니다. 하지만 도구 결과, 검색 결과, 코드 실행 로그, agent state를 보관하고 있다가 LLM 입력으로 다시 넘긴다. 그래서 CPU-attached memory는 에이전틱 AI에서 token reservoir 역할을 한다.


토큰 수요가 늘어나는 세 번째 이유: 검증과 재시도가 반복된다


에이전틱 AI는 한 번에 정답을 내는 구조보다, 시도하고 검증하고 수정하는 구조에 가깝다.

특히 코딩, 데이터 분석, EDA, 법률 검토, 금융 리서치처럼 정확성이 중요한 업무에서는 검증과 재시도가 필수다. 모델이 처음 만든 결과가 맞는지 확인해야 하고, 틀렸다면 다시 수정해야 한다.

코딩 에이전트를 예로 들면 흐름은 다음과 같다.

코드 작성 → 실행 → 오류 로그 확인 → 수정 → 테스트 → 재실행 → 리팩토링 → 문서화

이 과정에서 오류 로그, 코드 파일, 테스트 결과, dependency 정보가 계속 모델 입력으로 들어간다.

간단한 가정을 두면 다음과 같다.


계산하면 다음과 같다.


단순 챗봇 4,500 tokens와 비교하면 약 145배다.

이 예시에서 decode도 늘어나지만, 압도적으로 큰 부분은 반복 prefill이다. 코딩 에이전트는 매번 코드와 오류 로그를 다시 읽어야 하기 때문이다.


EDA·칩 설계 검증에서는 1,000배 이상도 가능하다


반도체 설계 검증 에이전트는 더 극단적이다. RTL, testbench, simulation log, regression result, bug trace를 읽고 다시 수정하는 과정이 반복된다. 젠슨 황도 Cadence와 NVIDIA가 chip design agent를 구축했고, 검증 사이클을 몇 주에서 몇 시간으로 줄였다고 설명했다.

이런 업무는 데이터 크기가 크고, 반복 횟수도 많다. 단순히 한두 개 문서를 읽는 수준이 아니라, 대량의 코드와 로그를 계속 읽고 해석해야 한다.


https://www.youtube.com/watch?v=wSp6AiNIrsY&t=1s


https://www.youtube.com/watch?v=wSp6AiNIrsY&t=1s


예를 들어 다음과 같이 가정할 수 있다.



단순 챗봇 4,500 tokens 대비 1,000배 이상이다.

이런 영역에서는 토큰 수요의 본질이 완전히 달라진다. 사용자가 질문을 많이 해서 토큰이 늘어나는 것이 아니라, AI가 업무를 자동으로 수행하는 과정에서 내부적으로 수많은 읽기·판단·검증 loop를 돌기 때문에 토큰이 늘어난다.


토큰 수요는 “사용자 수 × 질문 수”가 아니라 “업무 수 × loop 수 × context 크기”가 된다


에이전틱 AI 시대에는 토큰 수요를 보는 방식도 바뀐다.

기존 챗봇 시대의 토큰 수요는 대략 다음과 같이 볼 수 있었다.

토큰 수요 = 사용자 수 × 질문 수 × 평균 답변 길이

하지만 에이전틱 AI 시대에는 공식이 달라진다.

토큰 수요 = 업무 수 × loop 횟수 × 회당 context 크기 × 검증·재시도 비율

이 변화가 가장 중요하다.

사용자 한 명이 “보고서 하나 작성해줘”라고 요청해도, 에이전트는 내부적으로 수십 번의 loop를 돌 수 있다. 검색하고, 읽고, 비교하고, 계산하고, 표를 만들고, 오류를 검증하고, 최종 문장을 작성한다. 사용자 관점에서는 요청 한 번이지만, 인프라 관점에서는 수십 번의 모델 호출과 수십만 토큰 소비가 발생할 수 있다.

그래서 에이전틱 AI가 실제 업무 자동화로 들어가면 토큰 수요는 사용자 수 증가보다 훨씬 빠르게 늘어난다.


반복 prefill이 특히 중요한 이유


여기서 가장 중요한 변화는 prefill의 재부상이다.

기존 챗봇에서는 decode가 중심이었다. 모델이 답변을 생성할 때 active KV cache를 계속 읽어야 했고, 이 과정에서 GPU와 HBM이 핵심 병목이었다.

그러나 에이전틱 AI에서는 prefill이 다시 중요해진다. 이유는 매 loop마다 모델이 새로운 context를 읽어야 하기 때문이다.


특히 과거 작업 이력을 계속 누적해서 넣으면 prefill은 빠르게 커진다. 예를 들어 10단계 업무에서 매 단계의 결과를 모두 다음 단계에 넣으면, 뒤로 갈수록 읽어야 할 context가 길어진다. 이 경우 토큰 수요는 단순히 loop 횟수만큼 늘어나는 것이 아니라, 누적 context 때문에 더 빠르게 증가할 수 있다.

물론 실제 시스템은 요약, 압축, retrieval, memory pruning을 통해 context를 줄이려 한다. 하지만 이 역시 새로운 인프라 병목을 만든다. 어떤 정보를 버리고, 어떤 정보를 다시 읽고, 어떤 정보를 GPU로 보낼지 결정해야 하기 때문이다.

결국 에이전틱 AI의 경쟁력은 모델 성능만으로 결정되지 않는다. 필요한 context를 얼마나 잘 고르고, 압축하고, 빠르게 읽어와서 GPU에 공급하느냐가 핵심이 된다.


시나리오별 토큰 증가율


투자 관점에서는 다음과 같은 프레임으로 볼 수 있다.


이 표의 의미는 특정 숫자를 정확히 예측하자는 것이 아니다. 더 중요한 것은 방향성이다. 에이전틱 AI가 closed-loop 자동화로 진화할수록 decode보다 prefill 증가율이 더 커질 가능성이 높다. AI가 매번 새로 읽어야 하는 문서, 로그, 코드, 도구 결과, 과거 작업 이력이 늘어나기 때문이다.


2. 병목은 decode에서 repeated prefill로 넓어진다


기존 AI 인프라 투자 논리는 비교적 명확했다. 모델이 답변을 생성하는 decode 단계에서는 과거 토큰의 KV cache를 계속 읽어야 한다. 그래서 GPU, HBM, NVLink가 핵심이었다. active KV cache가 HBM에 있어야 빠르게 토큰을 생성할 수 있었기 때문이다.

반면 에이전틱 AI에서는 병목이 더 넓어진다. 이제 중요한 것은 모델이 답변을 얼마나 빨리 쓰느냐뿐 아니라, 모델이 다음 판단을 위해 필요한 정보를 얼마나 빠르게 읽어오느냐다.

이 차이를 정리하면 다음과 같다.


여기서 CPU-attached memory의 역할이 중요해진다. CPU-attached memory는 토큰을 직접 생성하지 않는다. 그러나 에이전트가 사용하는 도구 결과, 작업 상태, 검색 결과, 코드 로그, 데이터베이스 응답, 이전 단계의 판단 결과를 보관한다. 이 데이터들이 다시 모델 입력으로 들어가는 순간 prefill token이 된다.

따라서 CPU-attached memory는 에이전틱 AI 시대의 token reservoir, 즉 토큰 수요를 증폭시키는 저장고에 가깝다.

이 관점에서 보면, 에이전틱 AI 시대의 병목은 단순히 GPU 안에서만 발생하지 않는다. GPU는 여전히 토큰을 생성하는 핵심 장치지만, GPU가 처리해야 할 context를 준비하고 공급하는 계층의 중요성이 커진다. CPU, DRAM, NAND, 네트워크, 스토리지가 모두 하나의 AI 추론 파이프라인에 포함된다.


3. Prefill 병목이 두터워지면 왜 NAND warm tier가 부각되는가


Decode 병목은 주로 active KV cache를 HBM에서 얼마나 빠르게 읽고 쓰느냐의 문제다. 그래서 decode 중심 시대에는 HBM과 GPU interconnect가 가장 직접적인 수혜였다.

하지만 prefill 병목이 커지면 이야기가 달라진다. Prefill은 모델이 새로운 입력 context를 읽는 단계다. 이 context는 보통 HBM에 처음부터 들어 있지 않다. 문서, 코드, 로그, 이메일, 데이터베이스, 벡터DB, 시뮬레이션 결과, 과거 작업 이력 같은 형태로 DRAM이나 SSD/NAND에 저장돼 있다.

예를 들어 코딩 에이전트를 생각해보면 쉽다. 에이전트는 전체 코드베이스를 읽고, 테스트를 실행하고, 오류 로그를 확인하고, 다시 코드를 수정한다. 이 과정에서 코드 파일, 테스트 로그, dependency 정보, 이전 수정 내역은 대부분 NAND 기반 SSD나 스토리지 계층에 저장된다. 모델이 이를 다시 읽을 때마다 prefill이 발생한다.

즉, 구조는 이렇게 이어진다.

NAND / SSD / DB에 저장된 데이터
→ CPU-attached memory로 로딩
→ 필요한 부분을 선별·압축·정렬
→ GPU로 context 전달
→ Prefill 수행
→ Reasoning / tool call 생성
→ 결과를 다시 저장
→ 다음 loop에서 다시 읽음

이 반복 구조 때문에 NAND는 단순 저장장치에서 에이전트의 warm memory 계층으로 올라온다. HBM이 decode의 hot memory라면, NAND는 반복 prefill의 backing store다.

NVIDIA도 Vera Rubin 플랫폼에서 이 변화를 직접 보여주고 있다. NVIDIA Korea 자료는 BlueField-4 STX 스토리지 랙을 “GPU 메모리를 POD 전반에 확장하는 AI 네이티브 스토리지 인프라”로 설명하고, LLM과 에이전틱 AI 워크플로우에서 생성되는 대규모 KV cache 데이터를 저장·검색하는 고대역폭 공유 계층이라고 소개했다. 또 DOCA Memos는 전용 KV cache 스토리지 처리를 통해 추론 처리량을 높이는 구조로 설명된다. (NVIDIA Blog Korea)

이 부분이 중요하다. NVIDIA가 스토리지를 별도 랙으로 제시한다는 것은, 에이전틱 AI 시대의 병목이 GPU 안에서만 끝나지 않는다는 뜻이다. 메모리와 스토리지 계층 전체가 AI 인프라의 일부가 된다.


4. Warm NAND 수요는 어디서 발생하는가

에이전틱 AI에서 NAND 수요가 커지는 이유는 용량뿐 아니라 사용 패턴의 변화에 있다.

기존 스토리지는 데이터를 보관하는 역할이 강했다. 하지만 에이전트 시대의 NAND는 계속 읽히고, 갱신되고, 다시 호출된다. 특히 다음 영역에서 warm NAND 수요가 커질 가능성이 높다.


여기서 중요한 변화는 NAND의 품질 요구가 올라간다는 점이다. 단순히 많은 데이터를 싸게 저장하는 것보다, 많은 에이전트가 동시에 작은 파일과 로그를 자주 읽어야 한다. 그러면 random read IOPS, tail latency, SSD controller 성능, PCIe/NVMe 대역폭, endurance가 중요해진다.

결국 repeated prefill이 커질수록 수혜는 단순 NAND 용량 증가에 그치지 않는다. Enterprise SSD, 고성능 SSD controller, PCIe Gen5/Gen6, NVMe, CXL, storage networking까지 함께 봐야 한다.


5. NVIDIA가 Vera Rubin으로 보여준 방향: GPU가 아니라 full-stack rack


이번 GTC 2026에서 NVIDIA가 강조한 Vera Rubin은 단일 GPU 제품으로 보기 어렵다. NVIDIA는 Vera Rubin 플랫폼을 Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Ethernet Switch, Groq 3 LPU가 함께 작동하는 하나의 AI 슈퍼컴퓨터로 설명했다. 이 플랫폼은 pretraining, post-training, test-time scaling, real-time agentic inference까지 AI의 전 단계를 지원하도록 설계됐다. (NVIDIA Newsroom)

Vera Rubin NVL72 사양을 보면 이 방향은 더 선명하다. NVIDIA 공식 페이지 기준 Vera Rubin NVL72는 72개 Rubin GPU와 36개 Vera CPU를 통합한 rack-scale AI supercomputer다. GPU memory는 20.7TB HBM4, CPU memory는 54TB LPDDR5X로 제시돼 있다. (NVIDIA)












이 숫자는 단순 스펙 이상의 의미를 가진다. GPU와 HBM은 여전히 토큰 생성의 핵심이다. 하지만 NVIDIA가 36개 Vera CPU와 54TB LPDDR5X CPU memory를 하나의 랙 안에 넣었다는 것은, 에이전틱 AI에서 CPU orchestration과 CPU-attached memory가 시스템 성능을 좌우하는 계층으로 올라왔다는 뜻이다.




cpu는 agentic ai 시대의 새로운 병목 Layer로 부상



Vera cpu는 agentic ai 병목 해결의 key



Vera cpu는 agentic ai 시대의 병목 해결의 key


기존 cpu진영대비 1.8x의 성능향상
(*TCO, 전력효율면에서 Rack scale을 넘어선 d/c scael까지 고려하면 엄청난 거라고함)


Vera CPU 발표 내용도 같은 방향이다. NVIDIA는 Vera CPU를 agentic AI와 reinforcement learning 시대를 위해 설계된 프로세서로 소개했고, agentic AI가 발전할수록 작업 계획, 도구 실행, 데이터 상호작용, 코드 실행, 결과 검증을 지원하는 인프라가 성능과 비용을 좌우한다고 설명했다. 


https://t.me/cahier_de_market

"이전까지 업계는 '인간이 사용하기 위한' CPU를 만들어왔다"

"이제 우리는 '에이전트가 사용하기 위한 CPU를 만든다"

"인간 유저는 십억명이지만 에이전트는 수십억대가 될 것이며, 그들은 '쉬지 않는다'"


따라서 Vera Rubin의 메시지는 명확하다. AI 인프라는 GPU 카드 판매 사이클에서 rack-scale, pod-scale, AI factory 시스템 사이클로 이동하고 있다.


6. Enterprise server와 hybrid 업무환경의 확산


에이전틱 AI가 기업 업무로 들어가면 모든 추론을 public cloud에서만 처리하기 어렵다. 기업 데이터는 민감하고, 업무 자동화는 내부 시스템과 연결돼야 하며, 일부 업무는 latency와 비용 통제가 중요하다. 이 때문에 기업들은 public cloud, private cloud, on-prem server, edge device를 섞는 hybrid AI infrastructure를 선택할 가능성이 높다.

에이전트가 기업 내부에서 실제 업무를 수행하려면 다음 자원이 필요하다.

  • 업무 데이터를 읽기 위한 CPU와 DRAM

  • 장기 문서와 로그를 저장할 SSD/NAND

  • GPU를 활용하기 위한 HBM과 고속 interconnect

  • 보안과 격리를 위한 DPU/NIC

  • 항상 안정적인 전력을 공급할 PMIC, MLCC, power inductor


NVIDIA가 Vera Rubin을 hyperscaler뿐 아니라 enterprise server 생태계와 함께 전개하려는 이유도 이 흐름과 맞닿아 있다. 에이전틱 AI의 확산은 클라우드 AI 팩토리 수요를 키우는 동시에, 기업 내부 서버 수요도 다시 자극할 수 있다.

특히 이 변화는 업무 방식 자체의 변화와 연결된다. 과거에는 직원이 애플리케이션을 직접 열고, 데이터를 찾고, 표를 만들고, 보고서를 작성했다. 에이전틱 AI 환경에서는 사용자가 목표를 제시하면, 에이전트가 여러 내부 시스템에 접근해 자료를 찾고, 분석하고, 초안을 만들고, 검증한다. 기업 입장에서는 AI가 새로운 사무 자동화 계층이 되는 셈이다.

이때 기업 서버 수요는 단순한 서버 교체 수요가 아니다. 업무 자동화가 늘어날수록 내부 데이터 접근, 보안 격리, 지연시간 관리, 사내 문서 검색, 모델 실행을 동시에 처리할 수 있는 AI 서버 수요가 늘어난다. 이것이 hybrid enterprise AI가 중요한 이유다.


7. On-device AI와 Physical AI로 이어지는 하드웨어 확장


Vera Rubin이 데이터센터와 AI factory의 방향이라면, NVIDIA가 Computex/GTC Taipei 2026에서 공개한 RTX Spark는 on-device AI의 방향을 보여준다. 키노트에서는 에이전트가 PC에서 네이티브로 실행되고, local 또는 cloud 모델과 연결되며, 보안 샌드박스 안에서 계속 작업을 수행하는 개인 AI 컴퓨터의 비전이 제시됐다. RTX Spark는 Blackwell RTX GPU, MediaTek과 협력한 Grace CPU, 128GB unified memory를 갖춘 agent용 PC 플랫폼으로 소개됐다.


https://www.youtube.com/watch?v=wSp6AiNIrsY&t=1s

이 흐름은 B2B에서 시작한 agentic AI가 B2C 디바이스로 내려오는 그림이다. AI PC, 스마트폰, 태블릿, 워크스테이션에서 로컬 에이전트가 돌아가려면 더 큰 메모리, 더 복잡한 전원부, 더 많은 고속 신호, 더 많은 수동소자가 필요하다.

그 다음 단계는 Physical AI다. 젠슨 황은 같은 agentic computing pattern이 cloud, on-prem, PC, robot에서 반복될 것이라고 설명했다. 또한 Vera Rubin은 Grace Blackwell처럼 단순 inference를 처리하기 위해 만들어진 것이 아니라, agents를 실행하기 위해 만들어진 disaggregated, distributed agent processing system이라고 말했다.

Physical AI로 가면 하드웨어 content expansion은 더 커진다. 로봇, 자율주행차, 산업장비, 기지국, 위성은 모두 센서, 카메라, 모터, 배터리, 통신, edge AI computer를 필요로 한다. 이 경우 단순히 GPU와 메모리만 늘어나는 구조가 아니다. PMIC, MLCC, 파워인덕터, 정밀저항, 센서 전원 IC, 모터 드라이버, NAND storage까지 탑재량이 늘어난다.




결국 에이전틱 AI의 확산은 세 단계로 이어질 가능성이 높다.


이 흐름에서 중요한 것은 AI 수요가 소프트웨어 안에만 머물지 않는다는 점이다. AI가 업무를 자동화하고, 개인 디바이스 안으로 들어가고, 물리 세계의 로봇과 장비로 확장될수록 하드웨어 탑재량 자체가 늘어나는 구조가 된다.


8. 투자 관점: AI hardware content expansion의 범위가 넓어진다


에이전틱 AI 시대의 투자 아이디어는 GPU/HBM에서 시작하지만, 거기서 끝나지 않는다.

Decode 중심 수요는 여전히 GPU와 HBM을 밀어올린다. active KV cache를 빠르게 읽고 쓰고, 대형 모델을 낮은 latency로 돌리려면 HBM과 GPU가 핵심이다.

하지만 repeated prefill 중심 수요는 CPU, CPU-attached memory, NAND warm tier, storage controller, DPU/NIC, interconnect를 함께 끌어올린다. 에이전트가 읽어야 할 데이터가 많아지고, 도구 실행 결과가 반복적으로 context에 들어가기 때문이다.

여기에 on-device AI와 Physical AI가 붙으면 전력부품과 수동소자까지 연결된다. AI 기능이 고도화된 디바이스는 더 많은 전압 레일, 더 높은 전류 변동, 더 많은 decoupling capacitor, 더 정교한 PMIC를 필요로 한다. 서버에서는 고전력·고신뢰 MLCC가 중요해지고, 로봇과 자동차에서는 고온·고전압·고신뢰 수동소자 수요가 커진다.

정리하면 다음과 같다.


기존 AI 인프라 투자는 GPU를 얼마나 더 많이 설치할 것인가의 문제로 보이기 쉬웠다. 하지만 Agentic AI 시대에는 질문이 바뀐다.

GPU가 계속 일할 수 있도록, 누가 context를 공급하고, 누가 데이터를 저장하고, 누가 도구 실행을 처리하고, 누가 전력을 안정적으로 공급할 것인가.

이 질문의 답이 CPU, DRAM, NAND, DPU, NIC, PMIC, MLCC로 이어진다.


결론: Agentic AI는 새로운 병목을 만든다


에이전틱 AI의 핵심은 AI가 스스로 업무를 반복 수행하는 closed-loop 자동화다. 이 변화는 전체 토큰 소비를 빠르게 늘리고, 특히 기존 챗봇 시대에 상대적으로 덜 주목받던 repeated prefill을 새로운 병목으로 부상시킨다.

토큰 수요는 더 이상 “사용자 수 × 질문 수 × 답변 길이”만으로 설명되지 않는다. Agentic AI 시대의 토큰 수요는 업무 수 × loop 횟수 × 회당 context 크기 × 검증·재시도 비율에 의해 결정된다. 이 구조에서는 AI가 실제 업무를 많이 수행할수록, 내부적으로 읽고 판단하고 검증하는 횟수가 늘어난다. 그 결과 토큰 수요는 사용자 체감 사용량보다 훨씬 빠르게 증가할 수 있다.

Prefill 병목이 커지면 CPU-attached memory는 에이전트의 작업 상태와 도구 결과를 보관하는 token reservoir가 된다. NAND SSD는 문서, 코드, 로그, 벡터DB, 장기 기억을 저장하는 warm memory 계층으로 올라온다. 그리고 이 모든 계층을 연결하기 위해 DPU, NIC, CXL, NVLink, PCIe, storage controller의 중요성도 커진다.

NVIDIA가 Vera Rubin을 통해 보여준 방향도 같다. Vera Rubin은 AI를 GPU 판매 사이클이 아니라 agentic AI factory 시스템 사이클로 확장하고 있다. 이 변화는 GPU/HBM 수요를 강화하는 동시에 CPU memory, storage, networking, power component, MLCC까지 AI hardware content expansion을 동반한다.

마지막으로 이 글의 결론은 이렇게 정리할 수 있다.

Agentic AI 시대에는 AI hardware content expansion이 새로운 국면에 진입한다. 앞으로의 병목은 GPU 하나에 머물지 않고, memory hierarchy, storage hierarchy, networking, power delivery, passive components 전반으로 확산될 가능성이 높다.

=끝

2026년 5월 31일 일요일

생각정리 269 (* AI Components Up-cycle -2)

오늘 시장은 전자·반도체 관련 레버리지 ETF로 수급이 쏠리는 가운데, 중소형주와 일부 ETF에는 매도 압력이 커지며 하락 종목 수가 늘어나는 모습이다.

그러나 단기 수급과 같은 외적 변수는 잠시 뒤로 두고, 다시 본질적인 변화에 집중해보고자 한다.  

이번 리서치 기록의 핵심은 Agentic AI가 기업의 업무 방식, 컴퓨팅 인프라, 그리고 하드웨어 밸류체인에 어떤 구조적 변화를 가져올 것인가
에 있다.

생각정리 182 (* MoltBot, Agent AI, Agent PC)

Agentic AI 시대, AI PC는 왜 다시 중요해지는가


GPU 메모리 위에 CPU 메모리와 전력관리 부품 수요가 얹히는 새로운 하드웨어 사이클


생성형 AI의 첫 번째 국면은 “누가 더 좋은 모델을 쓰는가”의 경쟁이었다. 기업들은 GPT, Claude, Gemini 같은 대형 언어모델을 업무에 붙이기 시작했고, 직원들은 질문을 입력하고 답변을 받는 방식으로 AI를 사용했다. 이 단계에서는 AI 사용량이 비교적 예측 가능했다. 사람이 질문해야 토큰이 발생했고, 비용도 사용량에 비례해 관리할 수 있었다.

하지만 Agentic AI 시대에는 비용 구조가 달라진다. Agentic AI는 사용자가 한 번 질문하면 그 뒤에서 AI가 스스로 계획을 세우고, 파일을 찾고, 데이터베이스를 조회하고, 코드를 실행하고, 외부 도구를 호출하고, 결과를 검증한 뒤 다시 작업을 반복한다. 사용자가 직접 입력하는 질문 수보다, agent가 백그라운드에서 반복 호출하는 토큰량이 비용을 결정하는 구조로 바뀐다.

이 지점에서 기업의 고민은 분명해진다. 모든 요청을 항상 최고급 frontier model에 보내면 품질은 높아지지만, cloud token OPEX는 빠르게 증가한다. 특히 여러 agent가 동시에 돌아가는 업무환경에서는 토큰 사용량이 선형적으로 늘지 않는다. Agentic AI가 도입될수록 기업은 단순히 “AI를 더 많이 쓰는 방법”보다 “AI를 감당 가능한 비용으로 계속 쓰는 방법”을 고민하게 된다.


토큰비용이 인건비보다 비쌀 때, "AI 내러티브"는 문제에 직면합니다—월스트리트CN


https://t.me/cahier_de_market

토큰 사용량이 2023년에는 commit 수가 3억 건이었고,
2024년에는 4억 건,
2025년에는 5억 건
 
그런데 2026년 들어 첫 몇 달 만에 이 수치가 거의 3배로 급증

따라서 기업은 점차 세 가지 방식으로 AI 비용을 나누게 될 가능성이 높다. 반복적이고 민감도가 낮은 작업은 로컬 AI PC에서 처리하고, 사내 데이터와 연결되는 업무는 enterprise AI server에서 수행하며, 정말 어려운 판단이나 범용 reasoning이 필요한 작업만 cloud frontier model에 넘기는 구조다.

이 변화의 핵심은 Hybrid Edge AI PC다. AI PC는 단순한 새 노트북이 아니라, cloud token 비용의 예측 가능성을 높이고 최고급 대형 LLM 호출량을 줄이는 enterprise cost-control hardware가 된다. 앞으로 NVIDIA N1X, DGX Spark, Dell Deskside Agentic AI, Vera Rubin 기반 AI Factory를 하나의 흐름으로 봐야 하는 이유가 여기에 있다.



1. COMPUTEX 2026이 보여주는 AI PC 시대의 개막


이번 COMPUTEX 2026은 AI PC 시대의 개막을 상징적으로 보여주는 이벤트가 될 가능성이 높다. PC 행사는 과거처럼 노트북, 메인보드, 그래픽카드 중심의 전시에 머물지 않고, AI가 어디에서 실행되고 어떻게 배치되는지를 보여주는 무대로 바뀌고 있다.

Intel, AMD, Qualcomm, Arm은 모두 AI PC를 다음 PC 사이클의 핵심으로 보고 있다. CPU 성능 경쟁에 NPU, GPU, on-device AI 성능이 더해지면서 PC의 정의 자체가 달라지고 있다. 앞으로의 PC는 단순히 문서 작성과 웹브라우징을 처리하는 기기가 아니라, 사용자의 업무 문맥을 이해하고 반복 작업을 대신 수행하는 local AI endpoint에 가까워진다.

그중에서도 이번 사이클에서 가장 주목되는 변화는 NVIDIA의 PC 시장 진입 가능성이다. NVIDIA, Microsoft, Arm은 COMPUTEX를 앞두고 “a new era of PC”라는 메시지를 공개했고, 이는 NVIDIA의 ARM 기반 N1·N1X 노트북 프로세서 공개 가능성과 연결돼 해석되고 있다.


https://wallstreetcn.com/articles/3773517#from=ios


https://wallstreetcn.com/articles/3773517#from=ios


https://wallstreetcn.com/articles/3773517#from=ios

NVIDIA가 Windows on Arm 생태계에 본격 진입한다면, AI PC 시장은 Intel·AMD·Qualcomm 중심의 CPU 경쟁을 넘어 NVIDIA CUDA 생태계와 로컬 AI 추론 능력이 결합되는 새로운 국면으로 넘어갈 수 있다. 기존 PC가 CPU 중심의 업무 장치였다면, 다음 AI PC는 CPU, GPU, NPU, local memory가 결합된 개인용 agent 실행 장치에 가까워진다.




2. NVIDIA N1X가 중요한 이유: AI PC가 로컬 추론 장치로 바뀐다


현재까지 알려진 N1 및 N1X 사양은 공식 발표 전 유출 정보이므로 확정 사양으로 보기는 어렵다. 다만 보도 기준으로 보면 방향성은 분명하다. N1X는 20개 CPU 코어와 48개 SM, 6,144개 CUDA 코어를 갖춘 GPU 구성이 언급됐고, 이는 DGX Spark에 사용된 GB10 Superchip과 유사한 구조로 해석된다.

여기서 중요한 부분은 CPU 코어 수나 CUDA 코어 수 자체보다 로컬 AI 실행 환경이 일반 Windows PC로 내려올 수 있다는 점이다. DGX Spark는 개발자용 Ubuntu 기반 AI 장비에 가까웠다. 반면 N1X가 Windows on Arm 노트북으로 등장한다면, NVIDIA의 AI 컴퓨팅 구조가 일반 업무용 PC 안으로 들어오게 된다.

AI PC의 역할도 달라진다. 기존 PC는 사람이 앱을 실행하는 도구였다. AI PC는 사람이 요청하기 전에 agent가 문서, 이메일, 코드, 회의록, 브라우저, 사내 시스템을 오가며 작업을 수행하는 장치로 바뀐다. 사용자는 “이 자료 정리해줘”, “지난 회의 내용 기반으로 보고서 초안 만들어줘”, “이 코드 오류 찾아줘”라고 말하지만, 내부에서는 여러 개의 AI 작업이 동시에 돌아간다.

이 모든 작업을 cloud LLM으로 보내면 비용과 보안 문제가 커진다. 그래서 반복적이고 개인화된 업무는 로컬 AI PC에서 처리하고, 고난도 판단은 cloud 또는 사내 AI server에 넘기는 구조가 필요해진다. N1X가 의미 있는 이유는 바로 이 로컬 agent 실행 계층을 강화할 수 있기 때문이다.




3. DGX Spark가 보여준 한계와 N1X 이후의 보완 방향


NVIDIA DGX Spark는 개인용 AI 슈퍼컴퓨터라는 개념을 대중화한 장비다. DGX Spark는 대용량 unified memory와 높은 AI 연산 성능을 바탕으로 개인·팀 단위에서 대형 모델을 실험할 수 있는 환경을 제시했다.

하지만 초기 DGX Spark에 대한 기대는 실제 사용환경에서 일부 조정될 필요가 있었다. 대형 모델을 로컬에서 돌릴 수 있다는 점은 강력했지만, 실제 token throughput은 모델 크기, memory bandwidth, KV cache, 추론 엔진 최적화에 크게 좌우됐다. 특히 GB10 계열의 LPDDR5X 통합 메모리는 대용량 모델을 한 장비 안에 올리는 데 유리하지만, HBM 기반 데이터센터 GPU처럼 매우 높은 대역폭을 제공하는 구조와는 다르다.

이 한계는 DGX Spark의 의미를 약화시키기보다, 역할을 더 명확하게 만든다. DGX Spark는 모든 대형 모델을 단독으로 완벽하게 처리하는 장비라기보다, 개인과 팀 단위에서 agent를 실험하고, 로컬 RAG를 만들고, 사내 데이터 기반 prototype을 검증하는 장비에 가깝다.

N1X는 이 흐름을 더 넓은 PC 시장으로 확장할 수 있다. DGX Spark가 개발자와 연구자에게 AI 실험 환경을 제공했다면, N1X 기반 AI PC는 일반 업무자에게 local AI agent 실행 환경을 제공한다. 즉 과거 DGX Spark의 한계는 “개인 장비 하나로 모든 AI를 처리한다”는 기대에서 나왔고, N1X 이후의 보완 방향은 “개인 장비와 기업 서버가 역할을 나눠 처리한다”는 구조에서 나온다.






4. 30B 미만은 AI PC, 30B 이상은 기업용 AI 서버로 가는 하이브리드 구조


Agentic AI가 본격 도입되면 기업 업무환경은 세 계층으로 나뉠 가능성이 높다.

첫 번째 계층은 AI PC다. 여기서는 30B 미만의 sLLM이나 업무 특화 모델이 주로 쓰일 수 있다. 개인 문서 검색, 회의 요약, 이메일 초안, 코드 보조, 사내 규정 질의, 로컬 파일 정리 같은 작업이 여기에 해당한다. 이 작업들은 반복 빈도가 높고, 민감한 개인·업무 데이터가 포함될 가능성이 크다. 따라서 cloud frontier model에 매번 보내기보다, 로컬에서 처리하는 편이 비용과 보안 측면에서 유리하다.

두 번째 계층은 개인용 AI 슈퍼컴퓨터 또는 deskside AI 장비다. DGX Spark, Dell Pro Max GB10 같은 장비가 여기에 해당한다. 이 계층은 개인 PC보다 무겁고, 데이터센터보다는 가까운 작업을 담당한다. 예를 들어 팀 단위 RAG, 30B~200B급 모델 테스트, 코드베이스 분석, 내부 데이터 기반 agent 개발, fine-tuning prototype이 이 계층에서 수행될 수 있다.

세 번째 계층은 enterprise AI server와 AI data center다. 30B 이상 대형 모델, 장기 context, 다중 agent orchestration, 대규모 RAG, 기업 데이터베이스 질의, 고신뢰 의사결정 지원은 이 계층으로 올라간다. NVIDIA Vera Rubin NVL72와 같은 rack-scale AI system은 이 흐름을 상징한다. GPU뿐 아니라 Vera CPU, 대용량 CPU memory, 고속 네트워크, DPU를 함께 묶어 agentic AI와 대규모 reasoning workload를 처리하는 구조다.

결국 앞으로의 기업 AI 환경은 하나의 모델, 하나의 서버, 하나의 cloud로 끝나지 않는다. AI PC가 앞단에서 반복 업무를 처리하고, deskside AI가 팀 단위 실험과 중간 규모 모델을 담당하며, enterprise AI server와 AI data center가 대형 모델과 장기 context를 처리하는 계층형 구조로 진화한다.




5. AI 메모리는 하나가 아니다: HBM, GDDR, CPU memory가 함께 커진다


여기서 중요한 포인트가 있다. 지금까지 AI 메모리 이야기는 주로 HBM 중심으로 진행됐다. 데이터센터 AI accelerator는 GPU 옆에 HBM을 붙여 대형 모델의 파라미터와 KV cache를 빠르게 처리한다. HBM은 AI 서버에서 여전히 가장 중요한 memory 병목이다.

하지만 모든 GPU memory가 HBM은 아니다. 일반 PC, 워크스테이션, 게이밍 노트북, creator PC에 들어가는 discrete GPU는 대개 GPU 옆에 GDDR 계열 VRAM을 둔다. 즉 AI PC와 workstation 환경에서는 CPU memory와 GPU memory가 따로 존재할 수 있다. CPU 옆에는 DDR5 또는 LPDDR5X 같은 system memory가 붙고, discrete GPU 옆에는 GDDR6·GDDR7 같은 VRAM이 붙는다.

반면 데이터센터 AI accelerator에서는 GPU 옆에 HBM이 붙고, 서버 CPU 옆에는 DDR5 RDIMM, MRDIMM, CXL memory 같은 CPU-attached memory가 붙는다. DGX Spark나 N1X처럼 unified memory 구조를 쓰는 경우도 있다. 이 경우 CPU와 GPU가 하나의 LPDDR5X memory pool을 공유한다.

따라서 앞으로의 AI memory 수요를 볼 때는 세 가지를 구분해야 한다. 첫째, 데이터센터 GPU 옆 HBM이다. 둘째, PC와 워크스테이션의 discrete GPU 옆 GDDR이다. 셋째, CPU 주변의 DDR5, LPDDR, RDIMM, MRDIMM, CXL memory다.

핵심은 CPU memory 수요가 GPU memory 수요를 대체하는 구조가 아니라, GPU memory 수요 위에 추가로 얹히는 구조라는 점이며 Agentic ai 시대에는 CPU memory 중요성이 더욱 부각될 것이라는 것이다.

즉, AI PC와 workstation에서는 GDDR 기반 GPU VRAM 수요가 유지되면서, 로컬 agent 실행을 위한 system DRAM 또는 LPDDR 용량도 함께 커진다.





6. Agentic AI가 CPU를 다시 중요하게 만드는 이유


기존 LLM 사용 방식에서는 GPU가 대부분의 주목을 받았다. 모델 파라미터를 읽고, 행렬 연산을 수행하고, 토큰을 생성하는 과정에서 GPU와 HBM이 핵심 병목이었기 때문이다. 이 구조에서는 “더 많은 GPU, 더 빠른 HBM”이 성능 개선의 중심이었다.

Agentic AI에서는 GPU가 여전히 중요하지만, CPU의 역할이 커진다. agent는 단순히 답변만 생성하지 않는다. 작업을 쪼개고, 여러 도구를 호출하고, 파일을 읽고, 코드를 실행하고, 결과를 비교하고, 실패하면 다시 시도한다. 이 모든 흐름을 조율하는 계층이 CPU다.

AI 서버에서 CPU는 더 이상 GPU를 깨우는 host processor에 머물지 않는다. agent workflow를 실제로 움직이는 orchestration engine에 가까워진다. CPU는 tool call, file I/O, network I/O, security policy, scheduling, sandbox execution, agent state management를 처리한다. Agentic AI 도입이 확대될수록 GPU 병목에 CPU 병목이 추가되는 구조가 된다.

대형 모델 추론에는 여전히 GPU memory가 필요하다. 다만 Agentic AI가 업무 전반에 들어오면, CPU와 CPU-attached memory가 처리해야 하는 context, tool output, file I/O, network I/O, 보안 정책, scheduling workload가 함께 늘어난다.





7. CPU-attached memory는 Agentic AI의 작업 공간이 된다


CPU가 중요해지면 자연스럽게 CPU-attached memory도 중요해진다. 여기서 CPU-attached memory는 CPU 옆에 붙어 CPU가 직접 접근하는 DRAM, LPDDR, DDR5 RDIMM, MRDIMM, CXL memory 등을 의미한다.

Agentic AI는 한 번의 답변으로 끝나지 않는다. 여러 단계의 작업 기록, 검색된 문서, tool output, 코드 실행 결과, 사용자별 context, 장기 memory를 계속 참조한다. GPU HBM은 active inference와 hot KV cache를 처리하지만, 모든 데이터를 HBM 안에 계속 둘 수는 없다. HBM은 빠르지만 비싸고, 용량도 제한적이다.

여기서 메모리 계층이 나뉜다. 가장 뜨거운 데이터는 GPU memory에 머문다. 데이터센터 GPU에서는 HBM, PC·워크스테이션 discrete GPU에서는 GDDR VRAM이 이 역할을 맡는다. 반면 agent state, warm context, tool output, system process, 문서 검색 결과는 CPU-attached memory에 머문다. 더 긴 기록과 대규모 문서는 CXL memory, NVMe, shared storage, context memory tier로 내려간다.

이 구조를 이해하면 AI memory 수요의 방향이 명확해진다. GPU memory 수요는 계속 증가한다. 동시에 Agentic AI가 확산될수록 CPU memory 수요도 추가로 증가한다. 기존 생성형 AI 사이클이 HBM 중심이었다면, 다음 Agentic AI 사이클은 HBM과 GDDR 위에 CPU-attached memory 수요가 겹쳐지는 구조가 될 가능성이 높다.

AI PC에서도 같은 논리가 적용된다. discrete GPU가 있는 AI PC는 GPU 옆 GDDR VRAM으로 로컬 AI와 그래픽 workload를 처리하고, CPU 옆 DDR5·LPDDR memory로 agent orchestration과 앱·파일·브라우저·보안 프로세스를 처리한다. 통합 SoC형 AI PC는 하나의 LPDDR memory pool을 CPU와 GPU가 공유한다. 두 구조 모두 공통적으로 메모리 용량과 대역폭의 중요도가 올라간다.

기업용 AI 서버에서는 이 현상이 더 강하게 나타난다. GPU HBM은 대형 모델 inference를 담당하고, CPU DDR5·MRDIMM·CXL memory는 agent state와 long-context workflow를 받쳐준다. Vera Rubin NVL72 같은 rack-scale 구조가 GPU뿐 아니라 Vera CPU와 CPU memory 계층을 함께 강조하는 이유도 여기에 있다.




8. 메모리 컨트롤러와 RCD: 보이지 않지만 병목을 줄이는 부품


CPU-attached memory가 중요해지면, 그 사이를 연결하는 부품도 중요해진다. 대표적인 것이 메모리 컨트롤러와 RCD다.

메모리 컨트롤러는 CPU가 DRAM과 데이터를 주고받도록 관리하는 관문이다. CPU 코어가 많아지고, agentic workload가 병렬로 늘어나면, 메모리 컨트롤러는 더 많은 요청을 더 빠르게 처리해야 한다. 단순히 데이터를 많이 읽는 문제가 아니다. 여러 agent의 요청이 동시에 들어오고, tool call 결과와 context가 섞이며, latency와 bandwidth 요구가 계속 바뀐다.

서버 DDR5 RDIMM에서는 RCD, 즉 Registering Clock Driver가 핵심 역할을 한다. RCD는 host memory controller와 DRAM 칩 사이에서 command, address, clock 신호를 분배하고 안정화한다. CPU가 더 많은 DRAM 칩과 더 큰 용량의 모듈을 안정적으로 구동하려면, 신호 무결성과 타이밍 관리가 중요하다. RCD는 이 역할을 수행하면서 서버 메모리의 고용량화와 고속화를 가능하게 한다.

Agentic AI 서버에서는 메모리 용량과 속도가 동시에 필요하다. 더 많은 사용자의 context를 담아야 하고, 더 많은 agent state를 유지해야 하며, 더 많은 tool output을 처리해야 한다. 이 과정에서 RDIMM의 고속화와 고용량화가 중요해지고, 이를 안정적으로 구동하는 RCD의 가치도 높아진다.

더 나아가 MRDIMM에서는 MRCD와 MDB 같은 인터페이스 칩이 중요해진다. MRDIMM은 서버 CPU가 더 넓은 메모리 대역폭을 확보하기 위한 방향 중 하나다. AI·HPC·Agentic AI workload가 CPU memory bandwidth를 더 요구할수록 MRDIMM과 관련 인터페이스 칩의 중요성도 커질 수 있다.



9. PMIC, MLCC, ABF substrate로 이어지는 CPU 주변 부품 사이클


CPU와 CPU-attached memory의 중요성이 올라가면 전력 관리 부품과 기판도 함께 중요해진다. Agentic AI workload는 부하가 일정하지 않다. 모델 추론, 파일 검색, 코드 실행, tool call, 네트워크 통신, 보안 검증이 짧은 주기로 반복된다. 이런 환경에서는 CPU, 메모리, SSD, NIC, DPU의 전력 부하가 빠르게 변한다.

이때 PMIC의 역할이 커진다. PMIC는 각 부품에 필요한 전력을 효율적으로 공급하고 전압을 안정화하는 부품이다. 중요한 변화는 DDR4에서 DDR5로 넘어오면서 전력 관리 구조 자체가 달라졌다는 점이다. 과거 DDR4에서는 메모리 모듈에 필요한 전력 관리 기능이 주로 메인보드 또는 CPU 주변 전원부에 위치했다. 반면 DDR5부터는 PMIC가 DIMM 모듈 위에 직접 탑재된다. 즉 전력 관리 기능이 보드 레벨에서 모듈 레벨로 이동한 것이다.


DDR4에서는 메모리 전압을 조정하는 VR 기능이 주로 메인보드 전원부에 있었다. 메인보드가 12V를 1.2V로 낮춘 뒤 DIMM에 공급하는 구조였다. 반면 DDR5부터는 DIMM이 12V를 직접 받고, 모듈 위에 탑재된 PMIC가 이를 1.1V 등 필요한 전압으로 변환한다. 즉 전력 관리 기능이 보드 레벨에서 모듈 레벨로 이동한 것이다.


이 변화는 부품 수요의 성격을 바꾼다. DDR4에서는 메인보드 전원부가 여러 메모리 모듈에 전력을 공급하는 구조였다면, DDR5에서는 모듈 자체가 전력 변환과 전압 안정화 기능을 더 많이 담당한다. 그 결과 메모리 모듈 하나당 PMIC, MLCC, 인덕터 등 전력관리 부품의 탑재 가치가 높아진다. 메모리 용량이 커지고 채널 수가 늘어날수록, 단순 DRAM 칩 수요뿐 아니라 모듈 주변 전력관리 부품의 BoM도 함께 증가할 수 있다.

수혜 강도도 이 지점에서 달라진다. DDR4에서 DDR5로 바뀌는 변화는 단순히 DRAM 세대가 바뀌는 문제가 아니다. 전력 관리 기능이 모듈 내부로 이동하면서, PMIC는 선택적 주변 부품이 아니라 DDR5 모듈의 핵심 부품으로 자리 잡는다. 서버용 DDR5 RDIMM과 고용량 DIMM에서는 안정성, 전력 효율, 발열 관리가 더 중요하기 때문에 PMIC의 사양도 높아질 수 있다. 이는 전력관리 부품의 수량 증가뿐 아니라 단가 상승 여지까지 만들어내는 변화다.

MLCC도 같은 맥락에서 중요하다. MLCC는 전자회로에서 전압을 안정화하고 노이즈를 줄이는 대표 수동소자다. DDR5 DIMM에 PMIC가 올라오면, 그 주변에는 전압 변동을 줄이고 전원 품질을 안정화하기 위한 MLCC와 인덕터가 함께 필요해진다. 특히 AI 서버처럼 고속 메모리와 높은 전력 밀도를 요구하는 시스템에서는 작은 전압 흔들림도 신호 품질과 안정성에 영향을 줄 수 있다. 따라서 고성능 MLCC, 파워 인덕터, 전원 안정화 부품의 중요도는 함께 높아진다.

ABF substrate는 더 하부의 핵심 인프라다. ABF는 고성능 반도체 패키지 기판에 쓰이는 절연 재료다. CPU, GPU, AI accelerator, networking ASIC처럼 입출력 밀도가 높고 전력 소모가 큰 칩은 고성능 패키지 기판이 필요하다. Agentic AI 시스템은 단일 칩 성능만으로 발전하지 않는다. CPU, GPU, memory controller, DPU, NIC, storage controller, high-speed interconnect가 하나의 시스템으로 묶인다. 이 칩들을 고밀도로 연결하고, 신호 무결성과 전력 전달 능력을 유지하려면 ABF substrate의 중요성은 더 커질 수밖에 없다.

Morgan Stanley

결국 CPU 주변 부품 사이클은 단순히 “전력 부품이 조금 더 필요하다”는 수준이 아니다. Agentic AI가 CPU와 CPU-attached memory 사용량을 늘리고, DDR5 전환이 전력 관리 기능을 메모리 모듈 안으로 이동시키며, 서버 메모리 고용량화가 RCD·PMIC·MLCC·인덕터·ABF substrate의 중요도를 동시에 높이는 구조다. 이는 GPU와 HBM 중심의 AI 밸류체인 위에, CPU memory와 전력관리 수동소자 사이클이 추가로 형성될 수 있음을 의미한다.




10. 결론: AI PC는 PC 교체 사이클을 넘어 token OPEX 절감 장치가 된다


Agentic AI 시대의 핵심 변화는 모델 성능 향상만으로 설명하기 어렵다. 비용 구조, 업무 방식, 컴퓨팅 배치, 메모리 계층, 전력 관리 부품 수요가 동시에 바뀐다.

기업은 앞으로 모든 작업을 cloud frontier model에 보내지 않을 가능성이 높다. 반복적이고 개인정보·사내정보가 많은 업무는 AI PC에서 처리하고, 팀 단위 실험과 중간 규모 모델은 deskside AI 장비에서 수행하며, 대형 모델과 장기 context는 enterprise AI server와 AI data center로 올리는 방식이 더 현실적이다.

이 구조에서 AI PC의 의미는 단순한 PC 교체 수요를 넘어선다. AI PC는 cloud token OPEX를 줄이고, 보안 민감 데이터를 로컬에서 처리하며, agentic workflow의 앞단을 담당하는 enterprise cost-control hardware가 된다.

동시에 하드웨어 밸류체인도 넓어진다. 지난 AI 인프라 사이클의 중심이 GPU와 HBM이었다면, Agentic AI 사이클에서는 HBM, GDDR, CPU-attached memory가 함께 중요해진다. 데이터센터 GPU 옆 HBM 수요는 계속 커지고, AI PC·워크스테이션의 discrete GPU 옆 GDDR 수요도 유지된다. 여기에 CPU가 agent orchestration을 담당하면서 DDR5, LPDDR, MRDIMM, CXL memory 같은 CPU memory 수요가 추가로 얹힌다.

또 하나의 중요한 변화는 전력 관리 구조다. DDR5 전환 이후 PMIC가 메모리 모듈 위로 올라오면서, 메모리 모듈은 단순 DRAM 집합체가 아니라 전력 변환과 안정화 기능을 포함한 고부가 부품 플랫폼으로 바뀌고 있다. 이 변화는 PMIC, MLCC, 인덕터, RCD, MRCD, ABF substrate까지 이어지는 CPU 주변 부품 수요를 자극할 수 있다.

NVIDIA N1X, DGX Spark, Dell Deskside Agentic AI, Vera Rubin 기반 AI Factory는 서로 다른 제품군처럼 보이지만, 실제로는 하나의 흐름 안에 있다. AI를 cloud에서만 쓰던 시대에서, AI가 PC·서버·데이터센터 전반에 분산 배치되는 시대로 넘어가는 변화다.

그래서 이번 AI PC 사이클은 과거의 노트북 교체 사이클과 성격이 다르다. 앞으로의 AI PC는 더 빠른 PC를 넘어, 기업이 Agentic AI를 감당 가능한 비용으로 운영하기 위한 가장 앞단의 인프라가 될 가능성이 높다. 그리고 그 변화는 GPU와 HBM만이 아니라, GDDR, CPU memory, RCD, PMIC, MLCC, 인덕터, ABF substrate까지 이어지는 새로운 부품 사이클로 확장될 수 있다.


골드만 삭스, "AI 병목 현상"에 합류: MLCC가 새로운 저장소로 자리 잡았으며 AI 서버에서 "세 번째로 큰 비용 항목"이 되었습니다 - 월스트리트CN


골드만 삭스, "AI 병목 현상"에 합류: MLCC가 새로운 저장소로 자리 잡았으며 AI 서버에서 "세 번째로 큰 비용 항목"이 되었습니다 - 월스트리트CN




=끝.