2026년 5월 5일 화요일

생각정리 240 (* chip, packaging bottleneck)

예전 여러 주식 운용사를 전전하던 시절, 잠깐이나마 내 주된 역할이 해외 리서치 담당이었던 때가 있었다.

당시 Amazon, Facebook, Nvidia, Microsoft, Alphabet 같은 빅테크 기업들을 분석해보라는 지시를 받았다. 여기에 삼성전기, 무라타까지 함께 보게 되면서, 1~2개월 동안 거의 아무것도 없는 맨바닥에서 위 기업들을 하나씩 파고들었던 기억이 있다.

당시에는 어린 마음에는 빨리 돈을 벌고 싶었다. 국내 스몰캡 기업을 빠르게 훑고, 남들보다 한발 앞서 투자 아이디어를 찾고 싶었다. 그래서 무겁고 낯선 해외 기업부터 공부해야 하는 그 포지션이 당시에는 그리 마음에 들지 않았다.

짧은 인턴 기간이 끝난 뒤 그 운용사를 나오게 되었지만, 이후에도 개인적으로 빅테크 기업들의 어닝콜은 분기마다 나름의 방식으로 정리해 어닝모델을 업데이트하며 계속 추적해왔다.

그때 특히 기억에 남았던 기업이 Nvidia였다. 당시 Nvidia의 무모해 보일 정도의 R&D 지출이 괜스레 마음에 걸렸다. “대박 아니면 쪽박”이라는 어정쩡한 생각으로 소액을 투자했다가, 어느 정도 수익이 나자 홀라당 팔아버린 기억도 있다.

7년이 지난 이제 와서 돌아보면, 짧은 인턴 기간 동안 접했던 빅테크 기업들과 이후 이어온 몇 분기, 몇 년간의 트래킹이 지금의 나에게 적지 않은 자산이 되었다는 생각이 든다.

늘 그렇듯, 뒤늦게야 감사한 일들이 보인다.


생각정리: AI Infra는 얼마나 커지고 있는가


OpenAI·Anthropic, Neocloud, Sovereign AI D/C까지 보면 병목은 결국 반도체 Physical Capa로 간다


이전 글에서는 Microsoft, Amazon, Alphabet, Meta 네 개사의 AI CapEx 사이클을 정리했다. 당시의 핵심은 분명했다. 2026~2027년에는 GPU, TPU, custom silicon, 데이터센터, 전력 인프라 투자가 먼저 집행되면서 FCF margin이 눌리고,

2028~2030년부터는 이미 깔린 AI capacity가 Azure, AWS, Google Cloud, Meta Ads의 매출 및 효율 개선으로 회수되는 구간에 들어간다는 점이었다. 기존 글에서도 Big Tech 4 합산 기준으로 2026~2028년은 AI 장비·칩·데이터센터 선투자와 감가상각 부담이 집중되고,

2028~2030년은 capacity monetization이 본격화되는 흐름으로 정리했다. 


https://uiyeonassociation.blogspot.com/2026/04/237-big-tech-ai-fcf-capex.html

이번에는 분석 범위를 더 넓혀보려 한다. 기존 Big Tech 4에 Oracle을 더한 BIG5를 기준으로, 여기에 OpenAI·Anthropic, Neocloud 3사, Sovereign AI D/C까지 붙이면 전체 AI infra 수요와 공급이 얼마나 커지는지 계산해보는 것이다.

결론부터 말하면, BIG5의 2026~2030년 AI infra-equivalent capacity를 약 80.8GW로 놓을 때, OpenAI·Anthropic, Neocloud 3사, Sovereign AI D/C까지 합산한 신규 visible AI infra pool은 약 36.9GW다. 이는 BIG5 대비 **약 45.7%**에 해당한다.

투자금액 기준으로도 Stargate의 $500B / 10GW, 즉 $50B/GW를 적용하면 약 $1.65~1.85T 규모이며, BIG5의 약 $4.04T 대비 40~46% 수준이다. Stargate는 OpenAI·Oracle·SoftBank가 추진하는 미국 AI 인프라 buildout으로, OpenAI는 이를 $500B, 10GW 규모라고 설명했다. (openai.com)

이 숫자가 중요한 이유는 단순하다. 불과 짧은 기간에 BIG5 외부에서도 30GW가 넘는 신규 AI D/C 수요처가 생겼다.

하지만 반도체, 메모리, 패키징, 전력, 냉각, 변압기, 토지, 인허가 같은 물리적 공급망은 수요 증가 속도만큼 단기간에 탄력적으로 늘어나기 어렵다. 따라서 AI infra cycle의 핵심은 “누가 D/C를 더 많이 짓느냐”에서 “어디서 물리적 병목이 먼저 터지느냐”로 이동하고 있다.


1. 계산 기준: BIG5와 Stargate 환산 단가


먼저 BIG5의 기준선을 잡는다.


기존 Big Tech 4 글의 차트는 2026~2030년 누적 기준으로 대략 3.79조 달러 수준의 CapEx 사이클을 가정하고 있다. 여기에 Oracle을 더한다. Oracle은 FY2026에 cloud 및 AI compute capacity 확대를 위해 약 500억 달러의 capital investment를 집행할 계획으로 알려져 있다. Oracle의 투자는 OpenAI, Meta, NVIDIA, AMD, xAI 등 대형 OCI 고객의 committed demand를 충족하기 위한 성격이 강하다. (channeldive.com)


Oracle의 2027~2030년 CapEx는 아직 불확실하다. 여기서는 보수적으로 Oracle이 FY2026의 500억 달러 수준을 5년간 유지한다고 가정한다.


다음으로 GW 환산 기준을 둔다. Stargate의 공식 발표 기준은 $500B / 10GW다. 이를 단순 환산하면 AI 인프라 1GW당 총 투자비는 약 $50B다. 이 기준은 데이터센터, 전력, 서버, 네트워크, 냉각, GPU·ASIC 시스템까지 포함한 거친 총액 기준으로 보는 것이 맞다. (openai.com)

따라서 BIG5의 2026~2030년 CapEx 4.04조 달러를 Stargate 기준으로 환산하면 다음과 같다.

BIG5 AI infra-equivalent capacity

= $4.04T ÷ $50B/GW
= 약 80.8GW

물론 BIG5 CapEx 전체가 AI 전용은 아니다. 기존 클라우드 증설, 서버 교체, 네트워크, 데이터센터 건물, 전력 인프라, 내부 서비스 투자가 함께 섞여 있다. 따라서 이 숫자는 정확한 물리적 전력 capacity라기보다, BIG5의 AI 인프라 투자 체급을 Stargate 기준으로 환산한 GW-equivalent로 보는 편이 맞다.


2. OpenAI·Anthropic: 중복 제거 후 22GW, 약 $0.9~1.1T


먼저 OpenAI와 Anthropic을 보자. 두 회사는 AI infra를 직접 모두 소유한다기보다, hyperscaler와 장기 cloud usage commitment를 맺는 anchor tenant에 가깝다.


Anthropic


Anthropic은 AWS와 Google 양쪽에서 대규모 custom cloud capacity를 확보하고 있다.

Amazon과 Anthropic은 확장 협력에서 Anthropic이 향후 10년간 AWS 기술에 $100B 이상을 지출하고, 최대 5GW의 Amazon Trainium capacity를 확보한다고 밝혔다. 이 capacity에는 Trainium 계열 custom silicon과 Graviton CPU가 포함된다. (aboutamazon.com)

Google 쪽은 공식 발표와 보도 수치를 구분해야 한다. Google 공식 발표는 Anthropic이 2027년부터 multiple gigawatts 규모의 TPU capacity를 확보한다는 내용까지 확인된다. 이 capacity는 Google Cloud services와 Broadcom을 통해 공급되는 Google-built TPU를 통해 제공된다. (googlecloudpresscorner.com)

다만 The Information을 인용한 Investing.com 보도에 따르면, 이 계약은 2027년부터 시작되는 5년간 약 $200B 규모이며, Google이 Anthropic에 제공하기로 한 서버 capacity는 5GW로 보도됐다. 같은 보도는 이 계약 규모가 Google의 cloud revenue backlog의 40% 이상에 해당한다고 설명했다. (investing.com)



Anthropic의 AWS 5GW와 Google 5GW는 서로 다른 cloud platform에 배치되는 capacity다. 따라서 두 물량은 중복으로 보기 어렵다. 다만 Google 5GW 계약은 보도 기준 5년짜리이므로, 10년 기준으로 연장해 보면 Anthropic의 장기 compute spend는 $500B까지 올라갈 수 있다.

OpenAI


OpenAI는 더 복잡하다. Stargate, Oracle, AWS, Broadcom, NVIDIA, AMD 물량이 모두 섞여 있기 때문이다. 여기서 중요한 점은 데이터센터·전력 capacity와 칩·시스템 capacity를 중복 계산하지 않는 것이다.

OpenAI, Oracle, SoftBank는 Stargate를 $500B / 10GW 규모의 미국 AI infrastructure buildout으로 발표했다. 또한 OpenAI와 Oracle은 Stargate의 일환으로 최대 4.5GW의 추가 capacity를 개발하는 계약을 맺었고, SoftBank 발표 기준으로 이 파트너십은 향후 5년간 $300B 이상 규모다. (openai.com, group.softbank)

OpenAI와 AWS도 전략적 파트너십을 확대했다. 공개 보도와 업계 자료 기준으로 OpenAI는 AWS Trainium capacity 약 2GW를 사용하고, 관련 계약 규모는 $100B / 8년으로 언급된다. (convergedigest.com)

반면 Broadcom 10GW, NVIDIA 10GW, AMD 6GW 같은 숫자는 칩·가속기·시스템 레이어다. 이 시스템들은 Stargate나 Oracle, AWS, 기타 partner facility 안에 들어갈 수 있다. 따라서 이를 Stargate 10GW와 그대로 더하면 같은 물리 capacity를 두 번 세는 오류가 생긴다.



따라서 OpenAI와 Anthropic을 합치면 다음과 같다.



BIG5의 80.8GW와 비교하면, OpenAI·Anthropic 22GW는 **27.2%**다. 금액 기준으로는 $0.9~1.1T로, BIG5 $4.04T 대비 22.3~27.2% 수준이다.


3. Neocloud 3사: BIG5 밖에서 약 8.4GW, 투자환산 약 $420B


여기서 끝내면 전체 AI infra 그림이 절반만 보인다. 2025~2026년 이후에는 BIG5 밖에서 Neocloud가 빠르게 커지고 있다.

Neocloud는 일반 클라우드와 다르다. 핵심 사업은 GPU·AI accelerator capacity를 대규모로 확보해 Microsoft, Meta, OpenAI, enterprise 고객에게 임대하는 것이다. CoreWeave, Nebius, Lambda가 대표적이다. 이들은 hyperscaler가 직접 모든 데이터센터를 짓는 대신, AI GPU cloud capacity를 외부에서 조달하는 통로가 되고 있다.

Neocloud 3사 capacity




CoreWeave는 Q3 기준 active power가 590MW, contracted power가 2.9GW로 확대됐고, 2025년 CapEx 가이던스는 $12~14B로 제시됐다. 회사는 backlog 확대와 AI cloud demand를 근거로 2026년 CapEx가 2025년의 두 배를 크게 넘을 수 있다고 설명했다. (convergedigest.com, fierce-network.com)

Nebius는 2026년 말까지 contracted power를 2.5GW로 늘리고, connected power를 800MW~1GW까지 확보하는 목표를 제시했다. 동시에 Microsoft와 최대 $19.4B 규모의 AI infrastructure deal, Meta와 $3B 규모의 5년 계약을 확보했다. (nebius.com, datacenterdynamics.com)

Lambda는 Microsoft와 수만 개 NVIDIA GPU 기반의 multibillion-dollar AI infrastructure agreement를 체결했다. 별도 보도에 따르면 Lambda는 장기적으로 100만 개 이상의 NVIDIA GPU와 3GW liquid-cooled data center capacity 배치를 목표로 하고 있다. (lambda.ai, datacenterdynamics.com)

따라서 Neocloud 3사만 단순 capacity target으로 보면 다음과 같다.

CoreWeave 2.9GW + Nebius 2.5GW + Lambda 3.0GW = 약 8.4GW

Stargate 기준 $50B/GW를 적용하면 투자환산 금액은 다음과 같다.

8.4GW × $50B/GW = 약 $420B

다만 이 8.4GW를 OpenAI·Anthropic 또는 BIG5 수요에 그대로 더하면 안 된다. Nebius와 Lambda의 대형 고객은 Microsoft이고, CoreWeave도 OpenAI·Microsoft·NVIDIA ecosystem과 깊게 연결돼 있다. 따라서 Neocloud capacity는 글로벌 AI 총수요에 그대로 더하는 항목이라기보다, BIG5 balance sheet 밖에서 AI CapEx를 대신 집행하는 공급층으로 보는 편이 맞다.


4. Sovereign AI D/C: UAE와 Saudi만 봐도 약 6.5GW, 투자환산 약 $325B


Neocloud 다음으로 봐야 할 축은 Sovereign AI D/C다.


Sovereign AI D/C는 기업 단위 cloud 수요보다 국가 단위의 AI 주권, 데이터 주권, 전력 인프라, 산업정책이 결합된 구조다. 미국 hyperscaler나 OpenAI가 들어가더라도, 프로젝트의 본질은 국가가 전력·부지·자본·규제를 묶어 AI compute hub를 만드는 데 있다.

현재 실행 가시성이 높은 프로젝트는 UAE와 Saudi다.



UAE-US AI Campus는 Abu Dhabi에 5GW 규모의 AI data center capacity를 구축하는 프로젝트다. OpenAI는 Stargate UAE를 1GW cluster로 설명했고, 2026년에 200MW가 우선 가동될 예정이라고 밝혔다. Gulf News도 Stargate UAE가 5GW UAE-US AI Campus 안에서 개발되는 1GW AI infrastructure cluster라고 보도했다. (openai.com, gulfnews.com)

Saudi는 HUMAIN을 중심으로 움직이고 있다. NVIDIA와 HUMAIN은 사우디아라비아에 향후 5년간 최대 500MW 규모의 AI factories를 구축한다고 발표했다. 첫 단계는 NVIDIA GB300 Grace Blackwell 기반 supercomputer 배치다. (nvidianews.nvidia.com)

여기에 AMD·Cisco·HUMAIN JV가 붙는다. 이 JV는 2030년까지 최대 1GW의 AI infrastructure를 배치하고, 2026년에 사우디에서 100MW 규모의 1차 배치를 시작할 계획이다. (newsroom.cisco.com)

따라서 실행 가시성이 높은 UAE와 Saudi만 합쳐도 다음과 같다.

UAE 5GW + Saudi 1.5GW = 약 6.5GW

Stargate 기준으로 환산하면 투자금액은 다음과 같다.

6.5GW × $50B/GW = 약 $325B

France, India, EU AI gigafactory까지 넣으면 숫자는 더 커질 수 있다. 다만 일부 프로젝트는 MoU, 정책 발표, 또는 실행 변동 가능성이 크기 때문에 기본 계산에는 넣지 않고 upside pipeline으로 처리하는 편이 안전하다.


5. BIG5 대비 신규 AI infra pool 비교


이제 전체 그림을 합쳐보자.

기준은 BIG5다.



즉 BIG5의 AI infra-equivalent capacity를 약 80.8GW로 놓으면, OpenAI·Anthropic, Neocloud 3사, Sovereign AI D/C만으로도 약 36.9GW의 신규 visible pool이 형성된다. 이는 BIG5 대비 **45.7%**다.

금액 기준으로도 OpenAI·Anthropic의 발표·보도 금액 $0.9~1.1T, Neocloud의 Stargate 환산 $0.42T, Sovereign AI D/C의 Stargate 환산 $0.325T를 더하면 약 $1.645~1.845T다. 이는 BIG5의 $4.04T 대비 **40.7~45.7%**에 해당한다.

여기서 핵심은 이 숫자를 단순 합산 수요로 보면 안 된다는 점이다. Neocloud capacity의 최종 고객은 Microsoft, Meta, OpenAI일 수 있고, Sovereign AI D/C에도 OpenAI, Oracle, NVIDIA, Cisco, AMD 같은 기존 플레이어가 들어간다. 따라서 이 숫자는 “완전히 독립적인 신규 수요”라기보다, BIG5 바깥에서 새롭게 등장한 AI infra 공급·수요의 visible expansion으로 해석해야 한다.

그럼에도 결론은 분명하다.

짧은 기간에 BIG5 대비 40~46%에 해당하는 AI infra 수요처와 공급 프로젝트가 새로 보이기 시작했다.

이 정도 속도라면 병목은 수요가 아니라 공급에서 먼저 나타날 가능성이 높다.


6. 해석: 신규 AI D/C 수요처는 빠르게 생기지만, 물리적 공급망은 그렇게 빨리 늘지 못한다


OpenAI·Anthropic의 장기 cloud commitment, CoreWeave·Nebius·Lambda의 Neocloud 증설, UAE·Saudi의 Sovereign AI D/C 프로젝트를 합치면 AI infra 수요는 매우 빠르게 확산되고 있다.

문제는 공급망이다.

AI D/C 수요는 몇 개월 만에 새로 생길 수 있다. 정부가 AI campus를 발표하고, LLM 기업이 hyperscaler와 5년·10년 계약을 맺고, Neocloud가 private credit과 vendor financing으로 GPU cluster를 조달하면 신규 수요처는 빠르게 생긴다.

하지만 물리적 공급망은 다르다.

선단공정 파운드리 capacity, HBM wafer capacity, CoWoS advanced packaging capacity, ABF substrate, optical interconnect, networking switch, liquid cooling, 변압기, 전력망, 데이터센터 부지와 인허가는 단기간에 같은 속도로 늘어나기 어렵다.

특히 반도체 공급망은 장비 발주, 클린룸 증설, 공정 안정화, 수율 개선에 시간이 필요하다. 따라서 수요 증가 속도와 공급 증가 속도 사이의 mismatch는 점점 커질 수 있다.


7. 가장 큰 병목은 칩: 선단공정, HBM, Advanced Packaging


AI infra의 병목은 전력과 냉각에서도 나타나겠지만, 가장 중요한 bottleneck은 결국 칩이다.

첫 번째는 선단공정 파운드리다. NVIDIA GPU, AMD GPU, Google TPU, AWS Trainium, OpenAI custom accelerator, Broadcom ASIC은 모두 TSMC의 선단공정과 선단 패키징 생태계에 크게 의존한다. AI accelerator 수요가 늘어날수록 3nm, 4nm, 5nm급 wafer allocation 경쟁이 심화된다.

두 번째는 HBM이다. AI accelerator는 일반 DRAM이 아니라 HBM을 대량으로 필요로 한다. 최근 보도에 따르면 Samsung과 SK hynix는 AI-driven memory shortage가 2027년 이후까지 이어질 수 있다고 경고했고, 고객들이 이미 수년치 물량을 선점하고 있다는 내용도 전해졌다. HBM 공급은 SK hynix, Samsung, Micron에 집중돼 있어 신규 AI D/C 수요가 늘어날수록 병목이 더 뚜렷해진다. (tomshardware.com)

세 번째는 advanced packaging이다. 최신 AI accelerator는 GPU 또는 ASIC die와 HBM을 같은 package 안에서 고대역폭으로 연결해야 한다. 이 과정에서 CoWoS, CoWoS-L, hybrid bonding, interposer, substrate 같은 advanced packaging capacity가 필수다. TrendForce는 TSMC의 CoWoS capacity가 2026년 약 130만 units, 2027년 200만 units까지 확대될 수 있다고 보도했지만, 이 역시 빠르게 늘어나는 AI accelerator 수요를 따라잡기 위한 증설이지 공급 과잉을 의미하기는 어렵다. (trendforce.com)

결국 AI D/C가 10GW, 20GW, 30GW 단위로 늘어날 때 가장 먼저 물어야 할 질문은 “전력이 있느냐”만이 아니다. 더 중요한 질문은 그 D/C를 채울 GPU·ASIC·HBM·패키징 capacity가 실제로 있느냐다.


8. Agent AI가 오면 CPU 병목까지 부각된다


여기에 새로운 변수가 붙는다. 바로 Agent AI다.

기존 AI infra 논의는 GPU 중심이었다. 대규모 모델 학습과 추론에서 GPU가 핵심이었기 때문이다. 하지만 Agent AI는 workload 구조를 바꾼다. Agent는 한 번의 답변을 생성하는 데서 끝나지 않는다. 여러 tool call, memory retrieval, planning, execution, verification, database query, browser action, API call을 반복한다. 이 과정에서 GPU뿐 아니라 CPU, memory, storage, networking, orchestration layer의 부담이 함께 증가한다.

최근 보도에서도 agentic AI가 확산되면서 AI data center의 CPU demand가 커지고, 일부 AI deployment에서는 CPU-GPU ratio가 기존보다 훨씬 높아질 수 있다는 분석이 나온다. Intel과 AMD의 server CPU 공급이 tight해지고 가격 인상 가능성이 부각되는 배경도 이 흐름과 연결된다. (trendforce.com, tomshardware.com)

이 점이 중요하다. CPU도 결국 선단공정 또는 준선단공정을 사용한다. 고성능 server CPU는 GPU와 동일한 선단공정 capacity를 직접적으로 공유하거나, 최소한 동일한 foundry ecosystem, advanced packaging, substrate, memory supply chain을 공유한다. 따라서 Agent AI가 본격화되면 병목은 GPU에서 끝나지 않는다. GPU와 선단공정을 share하는 CPU까지 병목에 들어오면서, 파운드리와 패키징의 physical capacity bottleneck이 더 부각될 가능성이 높다.


9. 투자 관점에서의 결론


이번 계산의 핵심은 수요가 얼마나 빠르게 늘고 있는지를 숫자로 확인하는 데 있다.

BIG5의 2026~2030년 AI infra-equivalent capacity를 약 80.8GW로 놓으면, OpenAI·Anthropic, Neocloud 3사, Sovereign AI D/C에서 새롭게 보이는 visible pool은 약 36.9GW다. 이는 BIG5 대비 45.7%다. 금액 기준으로도 약 $1.65~1.85T로, BIG5 대비 40~46% 수준이다.



해석은 명확하다.

단기간에 AI D/C 수요처는 폭발적으로 늘었다. OpenAI와 Anthropic은 hyperscaler의 anchor tenant가 됐고, Neocloud는 BIG5 바깥에서 GPU cloud capacity를 빠르게 증설하고 있으며, UAE와 Saudi는 AI를 국가 전략 인프라로 보고 GW급 sovereign AI D/C를 추진하고 있다.

그러나 물리적 공급망은 신규 수요처 증가 속도만큼 단기간에 탄력적으로 늘어나기 어렵다. AI D/C는 발표할 수 있지만, 그 안에 들어갈 accelerator, HBM, advanced package, substrate, networking, 전력 설비는 실제 공장과 장비와 수율의 제약을 받는다.

따라서 앞으로 AI infra cycle의 핵심 병목은 다음 순서로 부각될 가능성이 높다.



결국 AI infra의 투자 결론은 단순히 “클라우드 기업이 많이 투자한다”가 아니다.

AI D/C 수요는 OpenAI·Anthropic, Neocloud, Sovereign AI까지 확산되며 BIG5 대비 40~46%에 해당하는 신규 visible pool을 만들고 있다. 하지만 그 수요를 실제 capacity로 전환하는 병목은 선단공정 파운드리, HBM, advanced packaging, 그리고 agent AI로 인해 다시 중요해지는 server CPU에 있다.

따라서 이번 cycle에서 가장 중요한 투자 포인트는 hyperscaler의 CapEx 규모만 보는 것이 아니다. 더 중요한 것은 그 CapEx가 실제 물리적 capacity로 전환되는 경로에서 누가 bottleneck pricing power를 갖는가다.

그 관점에서 보면 향후 가장 부각될 영역은 분명하다.

파운드리, HBM, advanced packaging, substrate, optical interconnect, 그리고 AI server CPU까지 포함한 반도체 physical capa bottleneck이다.



TSMC


INTEL


GlobalFoundries


Amkor Technology


ASE Technology


UMC






이전 전력반도체 기업군들과의 통합비교


=끝

댓글 없음:

댓글 쓰기