어제 Nvidia computex 2026를 실시간으로 시청하며 들었던 생각을 두서없이 기록해본다.
Agentic AI 시대의 새로운 병목
토큰 수요는 GPU에서만 늘어나지 않는다
단순 챗봇 대비 에이전틱 AI closed-loop 자동화는 전체 토큰 소비를 보수적으로 10~50배, 업무 자동화에서는 50~200배, 코딩·EDA·데이터 분석형 에이전트에서는 200~1,000배 이상까지 키울 수 있다.
이 문장의 핵심은 간단하다. AI가 “질문에 답하는 도구”에서 업무를 끝까지 수행하는 자동화 시스템으로 바뀌면, 모델 호출 횟수 자체가 늘어난다. 사용자가 한 번 질문하고 모델이 한 번 답하는 구조에서는 토큰 소비가 한 차례 발생한다. 하지만 에이전틱 AI에서는 AI가 계획을 세우고, 도구를 실행하고, 결과를 읽고, 다시 판단하고, 오류를 수정하고, 다음 행동을 반복한다.
젠슨 황이 Computex/GTC Taipei 2026 키노트에서 GitHub commit 증가를 예로 든 것도 같은 맥락이다. 그는 2023년 3억 건, 2024년 4억 건, 2025년 5억 건이던 GitHub commit이 2026년 초 몇 달 만에 거의 3배로 늘었다고 설명했다. 여기서 중요한 부분은 코드 작성이 AI의 대표적인 agentic workload라는 점이다. AI가 실제 업무 생산성을 높이는 순간, 사용량은 단순 채팅이 아니라 자동화된 작업량을 따라 증가한다.
| (젠슨황 : Agentic ai 시대의 token 사용량 폭증) |
따라서 앞으로 AI 인프라 수요를 볼 때는 단순히 “사람들이 챗봇을 얼마나 많이 쓰는가”만 봐서는 부족하다. 더 중요한 질문은 이것이다.
AI가 실제 업무를 대신 수행하면서 내부적으로 몇 번이나 생각하고, 몇 번이나 도구를 쓰고, 몇 번이나 결과를 다시 읽는가.
이 질문이 Agentic AI 시대의 토큰 수요와 하드웨어 병목을 이해하는 출발점이다.
1. 에이전틱 AI는 왜 토큰을 폭발적으로 늘리는가
기존 챗봇은 구조가 단순했다.
사용자 질문 → 모델 답변
이때 토큰 소비는 주로 두 단계에서 발생한다. 먼저 모델이 사용자의 입력을 읽고 이해하는 prefill 단계가 있고, 그다음 모델이 답변을 한 토큰씩 생성하는 decode 단계가 있다.
단순 챗봇에서는 사용자가 짧게 묻고 모델이 길게 답하는 경우가 많았다. 그래서 시장은 자연스럽게 decode 병목에 주목했다. 모델이 답변을 생성할 때마다 과거 토큰의 KV cache를 계속 읽어야 하고, 이 과정에서 HBM 대역폭과 GPU 효율이 중요했기 때문이다.
하지만 에이전틱 AI는 구조가 다르다.
사용자 요청 → 계획 수립 → 도구 실행 → 결과 확인 → 재계획 → 추가 실행 → 검증 → 수정 → 최종 결과
여기서 AI는 한 번만 답하지 않는다. AI는 업무를 수행한다. 즉, 사용자가 시키는 일을 완성하기 위해 closed-loop 자동화를 반복한다.
이 차이가 토큰 수요를 구조적으로 바꾼다.
단순 챗봇은 “1회성 답변”이고, 에이전틱 AI는 “반복 업무 수행”이다
단순 챗봇의 토큰 소비는 다음과 같이 단순화할 수 있다.
이 경우 사용자가 한 번 묻고, 모델이 한 번 답한다. 총 토큰은 4,500개다.
반면 에이전틱 AI는 같은 요청도 훨씬 복잡하게 처리한다. 예를 들어 사용자가 다음과 같이 요청했다고 가정해보자.
“경쟁사 실적 자료를 찾아서, 컨센서스와 비교하고, 표로 정리한 뒤 투자 의견을 써줘.”
단순 챗봇이라면 첨부된 자료만 읽고 요약할 수 있다. 하지만 에이전틱 AI라면 실제 애널리스트 업무처럼 움직인다.
먼저 어떤 자료가 필요한지 계획한다.
경쟁사 실적 자료를 검색한다.
실적표를 읽고 필요한 숫자를 추출한다.
컨센서스 데이터를 불러온다.
실제 실적과 컨센서스를 비교한다.
차이가 큰 항목을 다시 검증한다.
표를 만든다.
투자 의견 초안을 작성한다.
오류가 있는지 다시 확인한다.
최종 보고서 형태로 정리한다.
각 단계마다 모델은 새로운 정보를 읽고 판단해야 한다. 즉, 매번 prefill과 decode가 다시 발생한다.
이 경우 총 토큰은 약 64,300개다. 단순 챗봇 4,500개와 비교하면 약 14배다.
더 중요한 점은 증가분의 대부분이 decode가 아니라 prefill에서 나온다는 것이다.
여기서 핵심은 명확하다. 에이전틱 AI는 답변을 조금 더 길게 쓰는 기술이 아니다. 업무 과정에서 계속 새로운 정보를 읽고, 판단하고, 재입력하는 구조다. 그래서 prefill 수요가 반복적으로 커진다.
토큰 수요가 늘어나는 첫 번째 이유: 모델 호출 횟수가 늘어난다
에이전틱 AI에서 가장 직관적인 변화는 LLM 호출 횟수 증가다.
단순 챗봇은 보통 한 번의 질문에 한 번의 모델 호출이 발생한다. 하지만 에이전트는 업무를 잘게 쪼개서 처리한다. 계획을 세울 때 한 번, 검색 결과를 읽을 때 한 번, 도구를 실행한 뒤 결과를 해석할 때 한 번, 오류를 발견하면 다시 한 번, 최종 결과를 쓸 때 다시 한 번 호출된다.
이를 단순화하면 다음과 같다.
모델 호출 횟수가 늘어난다는 것은 매번 prefill과 decode가 반복된다는 뜻이다. 단순히 답변 길이가 길어지는 정도의 문제가 아니라, 업무 하나가 여러 개의 LLM 작업으로 분해된다.
이 때문에 에이전틱 AI의 토큰 수요는 사용자 수 증가보다 더 빠르게 늘 수 있다. 같은 사용자가 같은 시간을 쓰더라도, AI가 뒤에서 여러 번 사고하고 여러 번 도구를 실행하면 실제 토큰 소비는 크게 증가한다.
토큰 수요가 늘어나는 두 번째 이유: 도구 사용 결과가 다시 입력으로 들어간다
에이전틱 AI의 가장 큰 차별점은 tool use다. 에이전트는 단순히 답변하지 않고, 실제 도구를 사용한다.
예를 들면 다음과 같다.
이 중간 결과들은 처음에는 토큰이 아니다. CPU memory, SSD, 데이터베이스, 파일 시스템에 저장된 데이터일 뿐이다. 하지만 에이전트가 다음 판단을 하기 위해 이 결과를 다시 LLM에 넣는 순간, 전부 prefill token이 된다.
이 구조가 중요하다.
도구 실행 → 결과 저장 → 결과 재입력 → 판단 → 다음 도구 실행
이 반복이 에이전틱 AI의 기본 작동 방식이다. 따라서 에이전트가 도구를 많이 쓸수록, 중간 결과가 많아지고, 그 결과를 다시 읽는 prefill 수요도 커진다.
이때 CPU-attached memory는 중요한 역할을 한다. CPU와 CPU-attached memory가 토큰을 직접 소비하는 것은 아니다. 하지만 도구 결과, 검색 결과, 코드 실행 로그, agent state를 보관하고 있다가 LLM 입력으로 다시 넘긴다. 그래서 CPU-attached memory는 에이전틱 AI에서 token reservoir 역할을 한다.
토큰 수요가 늘어나는 세 번째 이유: 검증과 재시도가 반복된다
에이전틱 AI는 한 번에 정답을 내는 구조보다, 시도하고 검증하고 수정하는 구조에 가깝다.
특히 코딩, 데이터 분석, EDA, 법률 검토, 금융 리서치처럼 정확성이 중요한 업무에서는 검증과 재시도가 필수다. 모델이 처음 만든 결과가 맞는지 확인해야 하고, 틀렸다면 다시 수정해야 한다.
코딩 에이전트를 예로 들면 흐름은 다음과 같다.
코드 작성 → 실행 → 오류 로그 확인 → 수정 → 테스트 → 재실행 → 리팩토링 → 문서화
이 과정에서 오류 로그, 코드 파일, 테스트 결과, dependency 정보가 계속 모델 입력으로 들어간다.
간단한 가정을 두면 다음과 같다.
계산하면 다음과 같다.
단순 챗봇 4,500 tokens와 비교하면 약 145배다.
이 예시에서 decode도 늘어나지만, 압도적으로 큰 부분은 반복 prefill이다. 코딩 에이전트는 매번 코드와 오류 로그를 다시 읽어야 하기 때문이다.
EDA·칩 설계 검증에서는 1,000배 이상도 가능하다
반도체 설계 검증 에이전트는 더 극단적이다. RTL, testbench, simulation log, regression result, bug trace를 읽고 다시 수정하는 과정이 반복된다. 젠슨 황도 Cadence와 NVIDIA가 chip design agent를 구축했고, 검증 사이클을 몇 주에서 몇 시간으로 줄였다고 설명했다.
이런 업무는 데이터 크기가 크고, 반복 횟수도 많다. 단순히 한두 개 문서를 읽는 수준이 아니라, 대량의 코드와 로그를 계속 읽고 해석해야 한다.
| https://www.youtube.com/watch?v=wSp6AiNIrsY&t=1s |
| https://www.youtube.com/watch?v=wSp6AiNIrsY&t=1s |
예를 들어 다음과 같이 가정할 수 있다.
단순 챗봇 4,500 tokens 대비 1,000배 이상이다.
이런 영역에서는 토큰 수요의 본질이 완전히 달라진다. 사용자가 질문을 많이 해서 토큰이 늘어나는 것이 아니라, AI가 업무를 자동으로 수행하는 과정에서 내부적으로 수많은 읽기·판단·검증 loop를 돌기 때문에 토큰이 늘어난다.
토큰 수요는 “사용자 수 × 질문 수”가 아니라 “업무 수 × loop 수 × context 크기”가 된다
에이전틱 AI 시대에는 토큰 수요를 보는 방식도 바뀐다.
기존 챗봇 시대의 토큰 수요는 대략 다음과 같이 볼 수 있었다.
토큰 수요 = 사용자 수 × 질문 수 × 평균 답변 길이
하지만 에이전틱 AI 시대에는 공식이 달라진다.
토큰 수요 = 업무 수 × loop 횟수 × 회당 context 크기 × 검증·재시도 비율
이 변화가 가장 중요하다.
사용자 한 명이 “보고서 하나 작성해줘”라고 요청해도, 에이전트는 내부적으로 수십 번의 loop를 돌 수 있다. 검색하고, 읽고, 비교하고, 계산하고, 표를 만들고, 오류를 검증하고, 최종 문장을 작성한다. 사용자 관점에서는 요청 한 번이지만, 인프라 관점에서는 수십 번의 모델 호출과 수십만 토큰 소비가 발생할 수 있다.
그래서 에이전틱 AI가 실제 업무 자동화로 들어가면 토큰 수요는 사용자 수 증가보다 훨씬 빠르게 늘어난다.
반복 prefill이 특히 중요한 이유
여기서 가장 중요한 변화는 prefill의 재부상이다.
기존 챗봇에서는 decode가 중심이었다. 모델이 답변을 생성할 때 active KV cache를 계속 읽어야 했고, 이 과정에서 GPU와 HBM이 핵심 병목이었다.
그러나 에이전틱 AI에서는 prefill이 다시 중요해진다. 이유는 매 loop마다 모델이 새로운 context를 읽어야 하기 때문이다.
특히 과거 작업 이력을 계속 누적해서 넣으면 prefill은 빠르게 커진다. 예를 들어 10단계 업무에서 매 단계의 결과를 모두 다음 단계에 넣으면, 뒤로 갈수록 읽어야 할 context가 길어진다. 이 경우 토큰 수요는 단순히 loop 횟수만큼 늘어나는 것이 아니라, 누적 context 때문에 더 빠르게 증가할 수 있다.
물론 실제 시스템은 요약, 압축, retrieval, memory pruning을 통해 context를 줄이려 한다. 하지만 이 역시 새로운 인프라 병목을 만든다. 어떤 정보를 버리고, 어떤 정보를 다시 읽고, 어떤 정보를 GPU로 보낼지 결정해야 하기 때문이다.
결국 에이전틱 AI의 경쟁력은 모델 성능만으로 결정되지 않는다. 필요한 context를 얼마나 잘 고르고, 압축하고, 빠르게 읽어와서 GPU에 공급하느냐가 핵심이 된다.
시나리오별 토큰 증가율
투자 관점에서는 다음과 같은 프레임으로 볼 수 있다.
이 표의 의미는 특정 숫자를 정확히 예측하자는 것이 아니다. 더 중요한 것은 방향성이다. 에이전틱 AI가 closed-loop 자동화로 진화할수록 decode보다 prefill 증가율이 더 커질 가능성이 높다. AI가 매번 새로 읽어야 하는 문서, 로그, 코드, 도구 결과, 과거 작업 이력이 늘어나기 때문이다.
2. 병목은 decode에서 repeated prefill로 넓어진다
기존 AI 인프라 투자 논리는 비교적 명확했다. 모델이 답변을 생성하는 decode 단계에서는 과거 토큰의 KV cache를 계속 읽어야 한다. 그래서 GPU, HBM, NVLink가 핵심이었다. active KV cache가 HBM에 있어야 빠르게 토큰을 생성할 수 있었기 때문이다.
반면 에이전틱 AI에서는 병목이 더 넓어진다. 이제 중요한 것은 모델이 답변을 얼마나 빨리 쓰느냐뿐 아니라, 모델이 다음 판단을 위해 필요한 정보를 얼마나 빠르게 읽어오느냐다.
이 차이를 정리하면 다음과 같다.
여기서 CPU-attached memory의 역할이 중요해진다. CPU-attached memory는 토큰을 직접 생성하지 않는다. 그러나 에이전트가 사용하는 도구 결과, 작업 상태, 검색 결과, 코드 로그, 데이터베이스 응답, 이전 단계의 판단 결과를 보관한다. 이 데이터들이 다시 모델 입력으로 들어가는 순간 prefill token이 된다.
따라서 CPU-attached memory는 에이전틱 AI 시대의 token reservoir, 즉 토큰 수요를 증폭시키는 저장고에 가깝다.
이 관점에서 보면, 에이전틱 AI 시대의 병목은 단순히 GPU 안에서만 발생하지 않는다. GPU는 여전히 토큰을 생성하는 핵심 장치지만, GPU가 처리해야 할 context를 준비하고 공급하는 계층의 중요성이 커진다. CPU, DRAM, NAND, 네트워크, 스토리지가 모두 하나의 AI 추론 파이프라인에 포함된다.
3. Prefill 병목이 두터워지면 왜 NAND warm tier가 부각되는가
Decode 병목은 주로 active KV cache를 HBM에서 얼마나 빠르게 읽고 쓰느냐의 문제다. 그래서 decode 중심 시대에는 HBM과 GPU interconnect가 가장 직접적인 수혜였다.
하지만 prefill 병목이 커지면 이야기가 달라진다. Prefill은 모델이 새로운 입력 context를 읽는 단계다. 이 context는 보통 HBM에 처음부터 들어 있지 않다. 문서, 코드, 로그, 이메일, 데이터베이스, 벡터DB, 시뮬레이션 결과, 과거 작업 이력 같은 형태로 DRAM이나 SSD/NAND에 저장돼 있다.
예를 들어 코딩 에이전트를 생각해보면 쉽다. 에이전트는 전체 코드베이스를 읽고, 테스트를 실행하고, 오류 로그를 확인하고, 다시 코드를 수정한다. 이 과정에서 코드 파일, 테스트 로그, dependency 정보, 이전 수정 내역은 대부분 NAND 기반 SSD나 스토리지 계층에 저장된다. 모델이 이를 다시 읽을 때마다 prefill이 발생한다.
즉, 구조는 이렇게 이어진다.
NAND / SSD / DB에 저장된 데이터
→ CPU-attached memory로 로딩
→ 필요한 부분을 선별·압축·정렬
→ GPU로 context 전달
→ Prefill 수행
→ Reasoning / tool call 생성
→ 결과를 다시 저장
→ 다음 loop에서 다시 읽음
이 반복 구조 때문에 NAND는 단순 저장장치에서 에이전트의 warm memory 계층으로 올라온다. HBM이 decode의 hot memory라면, NAND는 반복 prefill의 backing store다.
NVIDIA도 Vera Rubin 플랫폼에서 이 변화를 직접 보여주고 있다. NVIDIA Korea 자료는 BlueField-4 STX 스토리지 랙을 “GPU 메모리를 POD 전반에 확장하는 AI 네이티브 스토리지 인프라”로 설명하고, LLM과 에이전틱 AI 워크플로우에서 생성되는 대규모 KV cache 데이터를 저장·검색하는 고대역폭 공유 계층이라고 소개했다. 또 DOCA Memos는 전용 KV cache 스토리지 처리를 통해 추론 처리량을 높이는 구조로 설명된다. (NVIDIA Blog Korea)
이 부분이 중요하다. NVIDIA가 스토리지를 별도 랙으로 제시한다는 것은, 에이전틱 AI 시대의 병목이 GPU 안에서만 끝나지 않는다는 뜻이다. 메모리와 스토리지 계층 전체가 AI 인프라의 일부가 된다.
4. Warm NAND 수요는 어디서 발생하는가
에이전틱 AI에서 NAND 수요가 커지는 이유는 용량뿐 아니라 사용 패턴의 변화에 있다.
기존 스토리지는 데이터를 보관하는 역할이 강했다. 하지만 에이전트 시대의 NAND는 계속 읽히고, 갱신되고, 다시 호출된다. 특히 다음 영역에서 warm NAND 수요가 커질 가능성이 높다.
여기서 중요한 변화는 NAND의 품질 요구가 올라간다는 점이다. 단순히 많은 데이터를 싸게 저장하는 것보다, 많은 에이전트가 동시에 작은 파일과 로그를 자주 읽어야 한다. 그러면 random read IOPS, tail latency, SSD controller 성능, PCIe/NVMe 대역폭, endurance가 중요해진다.
결국 repeated prefill이 커질수록 수혜는 단순 NAND 용량 증가에 그치지 않는다. Enterprise SSD, 고성능 SSD controller, PCIe Gen5/Gen6, NVMe, CXL, storage networking까지 함께 봐야 한다.
5. NVIDIA가 Vera Rubin으로 보여준 방향: GPU가 아니라 full-stack rack
이번 GTC 2026에서 NVIDIA가 강조한 Vera Rubin은 단일 GPU 제품으로 보기 어렵다. NVIDIA는 Vera Rubin 플랫폼을 Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Ethernet Switch, Groq 3 LPU가 함께 작동하는 하나의 AI 슈퍼컴퓨터로 설명했다. 이 플랫폼은 pretraining, post-training, test-time scaling, real-time agentic inference까지 AI의 전 단계를 지원하도록 설계됐다. (NVIDIA Newsroom)
Vera Rubin NVL72 사양을 보면 이 방향은 더 선명하다. NVIDIA 공식 페이지 기준 Vera Rubin NVL72는 72개 Rubin GPU와 36개 Vera CPU를 통합한 rack-scale AI supercomputer다. GPU memory는 20.7TB HBM4, CPU memory는 54TB LPDDR5X로 제시돼 있다. (NVIDIA)
이 숫자는 단순 스펙 이상의 의미를 가진다. GPU와 HBM은 여전히 토큰 생성의 핵심이다. 하지만 NVIDIA가 36개 Vera CPU와 54TB LPDDR5X CPU memory를 하나의 랙 안에 넣었다는 것은, 에이전틱 AI에서 CPU orchestration과 CPU-attached memory가 시스템 성능을 좌우하는 계층으로 올라왔다는 뜻이다.
| cpu는 agentic ai 시대의 새로운 병목 Layer로 부상 |
| Vera cpu는 agentic ai 병목 해결의 key |
| Vera cpu는 agentic ai 시대의 병목 해결의 key |
| 기존 cpu진영대비 1.8x의 성능향상 (*TCO, 전력효율면에서 Rack scale을 넘어선 d/c scael까지 고려하면 엄청난 거라고함) |
Vera CPU 발표 내용도 같은 방향이다. NVIDIA는 Vera CPU를 agentic AI와 reinforcement learning 시대를 위해 설계된 프로세서로 소개했고, agentic AI가 발전할수록 작업 계획, 도구 실행, 데이터 상호작용, 코드 실행, 결과 검증을 지원하는 인프라가 성능과 비용을 좌우한다고 설명했다.
| https://t.me/cahier_de_market "이전까지 업계는 '인간이 사용하기 위한' CPU를 만들어왔다" "이제 우리는 '에이전트가 사용하기 위한 CPU를 만든다" "인간 유저는 십억명이지만 에이전트는 수십억대가 될 것이며, 그들은 '쉬지 않는다'" |
따라서 Vera Rubin의 메시지는 명확하다. AI 인프라는 GPU 카드 판매 사이클에서 rack-scale, pod-scale, AI factory 시스템 사이클로 이동하고 있다.
6. Enterprise server와 hybrid 업무환경의 확산
에이전틱 AI가 기업 업무로 들어가면 모든 추론을 public cloud에서만 처리하기 어렵다. 기업 데이터는 민감하고, 업무 자동화는 내부 시스템과 연결돼야 하며, 일부 업무는 latency와 비용 통제가 중요하다. 이 때문에 기업들은 public cloud, private cloud, on-prem server, edge device를 섞는 hybrid AI infrastructure를 선택할 가능성이 높다.
에이전트가 기업 내부에서 실제 업무를 수행하려면 다음 자원이 필요하다.
업무 데이터를 읽기 위한 CPU와 DRAM
장기 문서와 로그를 저장할 SSD/NAND
GPU를 활용하기 위한 HBM과 고속 interconnect
보안과 격리를 위한 DPU/NIC
항상 안정적인 전력을 공급할 PMIC, MLCC, power inductor
NVIDIA가 Vera Rubin을 hyperscaler뿐 아니라 enterprise server 생태계와 함께 전개하려는 이유도 이 흐름과 맞닿아 있다. 에이전틱 AI의 확산은 클라우드 AI 팩토리 수요를 키우는 동시에, 기업 내부 서버 수요도 다시 자극할 수 있다.
특히 이 변화는 업무 방식 자체의 변화와 연결된다. 과거에는 직원이 애플리케이션을 직접 열고, 데이터를 찾고, 표를 만들고, 보고서를 작성했다. 에이전틱 AI 환경에서는 사용자가 목표를 제시하면, 에이전트가 여러 내부 시스템에 접근해 자료를 찾고, 분석하고, 초안을 만들고, 검증한다. 기업 입장에서는 AI가 새로운 사무 자동화 계층이 되는 셈이다.
이때 기업 서버 수요는 단순한 서버 교체 수요가 아니다. 업무 자동화가 늘어날수록 내부 데이터 접근, 보안 격리, 지연시간 관리, 사내 문서 검색, 모델 실행을 동시에 처리할 수 있는 AI 서버 수요가 늘어난다. 이것이 hybrid enterprise AI가 중요한 이유다.
7. On-device AI와 Physical AI로 이어지는 하드웨어 확장
Vera Rubin이 데이터센터와 AI factory의 방향이라면, NVIDIA가 Computex/GTC Taipei 2026에서 공개한 RTX Spark는 on-device AI의 방향을 보여준다. 키노트에서는 에이전트가 PC에서 네이티브로 실행되고, local 또는 cloud 모델과 연결되며, 보안 샌드박스 안에서 계속 작업을 수행하는 개인 AI 컴퓨터의 비전이 제시됐다. RTX Spark는 Blackwell RTX GPU, MediaTek과 협력한 Grace CPU, 128GB unified memory를 갖춘 agent용 PC 플랫폼으로 소개됐다.
| https://www.youtube.com/watch?v=wSp6AiNIrsY&t=1s |
이 흐름은 B2B에서 시작한 agentic AI가 B2C 디바이스로 내려오는 그림이다. AI PC, 스마트폰, 태블릿, 워크스테이션에서 로컬 에이전트가 돌아가려면 더 큰 메모리, 더 복잡한 전원부, 더 많은 고속 신호, 더 많은 수동소자가 필요하다.
그 다음 단계는 Physical AI다. 젠슨 황은 같은 agentic computing pattern이 cloud, on-prem, PC, robot에서 반복될 것이라고 설명했다. 또한 Vera Rubin은 Grace Blackwell처럼 단순 inference를 처리하기 위해 만들어진 것이 아니라, agents를 실행하기 위해 만들어진 disaggregated, distributed agent processing system이라고 말했다.
Physical AI로 가면 하드웨어 content expansion은 더 커진다. 로봇, 자율주행차, 산업장비, 기지국, 위성은 모두 센서, 카메라, 모터, 배터리, 통신, edge AI computer를 필요로 한다. 이 경우 단순히 GPU와 메모리만 늘어나는 구조가 아니다. PMIC, MLCC, 파워인덕터, 정밀저항, 센서 전원 IC, 모터 드라이버, NAND storage까지 탑재량이 늘어난다.
결국 에이전틱 AI의 확산은 세 단계로 이어질 가능성이 높다.
이 흐름에서 중요한 것은 AI 수요가 소프트웨어 안에만 머물지 않는다는 점이다. AI가 업무를 자동화하고, 개인 디바이스 안으로 들어가고, 물리 세계의 로봇과 장비로 확장될수록 하드웨어 탑재량 자체가 늘어나는 구조가 된다.
8. 투자 관점: AI hardware content expansion의 범위가 넓어진다
에이전틱 AI 시대의 투자 아이디어는 GPU/HBM에서 시작하지만, 거기서 끝나지 않는다.
Decode 중심 수요는 여전히 GPU와 HBM을 밀어올린다. active KV cache를 빠르게 읽고 쓰고, 대형 모델을 낮은 latency로 돌리려면 HBM과 GPU가 핵심이다.
하지만 repeated prefill 중심 수요는 CPU, CPU-attached memory, NAND warm tier, storage controller, DPU/NIC, interconnect를 함께 끌어올린다. 에이전트가 읽어야 할 데이터가 많아지고, 도구 실행 결과가 반복적으로 context에 들어가기 때문이다.
여기에 on-device AI와 Physical AI가 붙으면 전력부품과 수동소자까지 연결된다. AI 기능이 고도화된 디바이스는 더 많은 전압 레일, 더 높은 전류 변동, 더 많은 decoupling capacitor, 더 정교한 PMIC를 필요로 한다. 서버에서는 고전력·고신뢰 MLCC가 중요해지고, 로봇과 자동차에서는 고온·고전압·고신뢰 수동소자 수요가 커진다.
정리하면 다음과 같다.
기존 AI 인프라 투자는 GPU를 얼마나 더 많이 설치할 것인가의 문제로 보이기 쉬웠다. 하지만 Agentic AI 시대에는 질문이 바뀐다.
GPU가 계속 일할 수 있도록, 누가 context를 공급하고, 누가 데이터를 저장하고, 누가 도구 실행을 처리하고, 누가 전력을 안정적으로 공급할 것인가.
이 질문의 답이 CPU, DRAM, NAND, DPU, NIC, PMIC, MLCC로 이어진다.
결론: Agentic AI는 새로운 병목을 만든다
에이전틱 AI의 핵심은 AI가 스스로 업무를 반복 수행하는 closed-loop 자동화다. 이 변화는 전체 토큰 소비를 빠르게 늘리고, 특히 기존 챗봇 시대에 상대적으로 덜 주목받던 repeated prefill을 새로운 병목으로 부상시킨다.
토큰 수요는 더 이상 “사용자 수 × 질문 수 × 답변 길이”만으로 설명되지 않는다. Agentic AI 시대의 토큰 수요는 업무 수 × loop 횟수 × 회당 context 크기 × 검증·재시도 비율에 의해 결정된다. 이 구조에서는 AI가 실제 업무를 많이 수행할수록, 내부적으로 읽고 판단하고 검증하는 횟수가 늘어난다. 그 결과 토큰 수요는 사용자 체감 사용량보다 훨씬 빠르게 증가할 수 있다.
Prefill 병목이 커지면 CPU-attached memory는 에이전트의 작업 상태와 도구 결과를 보관하는 token reservoir가 된다. NAND SSD는 문서, 코드, 로그, 벡터DB, 장기 기억을 저장하는 warm memory 계층으로 올라온다. 그리고 이 모든 계층을 연결하기 위해 DPU, NIC, CXL, NVLink, PCIe, storage controller의 중요성도 커진다.
NVIDIA가 Vera Rubin을 통해 보여준 방향도 같다. Vera Rubin은 AI를 GPU 판매 사이클이 아니라 agentic AI factory 시스템 사이클로 확장하고 있다. 이 변화는 GPU/HBM 수요를 강화하는 동시에 CPU memory, storage, networking, power component, MLCC까지 AI hardware content expansion을 동반한다.
마지막으로 이 글의 결론은 이렇게 정리할 수 있다.
Agentic AI 시대에는 AI hardware content expansion이 새로운 국면에 진입한다. 앞으로의 병목은 GPU 하나에 머물지 않고, memory hierarchy, storage hierarchy, networking, power delivery, passive components 전반으로 확산될 가능성이 높다.
=끝