제미나이 3 이후의 AI 인프라:

구글의 제미나이 3.0 발표 이후 시장에는 익숙한 서사가 다시 등장했다.

https://t.me/HANAchina

“이제 OpenAI·NVIDIA 시대는 끝났다.”
“전용칩과 인프라에서 앞선 구글이 결국 승자가 될 것이다.”

하지만 실제 구조를 뜯어보면,

**단기(1~3년)**와 **중장기(5년 이상)**를 분리해서 보는 것이 훨씬 합리적이다.

단기적으로는

상위권 모델 간 성능 수렴,
플랫폼 락인(대화 아카이브·CUDA 생태계),
전력·데이터센터라는 물리적 병목,

이 세 가지 이유 때문에,
제미나이 3.0이 나왔다고 해서 OpenAI·NVIDIA 진영이 바로 위축되거나, 사용자가 대거 이탈할 가능성은 낮다.

반면 중장기적으로는,

전용칩(ASIC)·메모리·전력 효율이 “AI 한 단위당 비용”을 낮추면서 Jevons의 역설을 다시 작동시킬 가능성이 크다.

그 결과는 AI 전체 파이의 확대 + GPU 절대 사용량 증가 + 전용칩 비중의 구조적 상승이라는 다층적인 그림에 가깝다.

아래에서 순서대로 살펴본다.

1. 단기: 제미나이 3.0은 강력하지만, OpenAI·NVIDIA를 즉시 대체하지 못한다

1-1. 상위권 모델 간 성능은 이미 수렴 구간에 진입

현재 상위 LLM·멀티모달 모델들을 보면,

GPT-5 계열
Gemini 3,
Claude 3.x,
DeepSeek-R1/V3

등이 벤치마크에서 서로 **“다른 강점을 가진 비슷한 급”**으로 수렴하고 있다.
사용자 입장에서 체감되는 차이는 분명 있지만,
어느 한쪽이 나머지를 압도하는 “절대 1등” 구조는 아니다.

이 구간에 들어오면 승부는 자연스럽게

제품 출시 속도(실행력),
에이전트·툴·앱·API 통합,
가격·플랜·에코시스템

같은 제품 레벨의 속도와 완성도로 이동한다.

OpenAI는 여전히:

비교적 작은 조직 체계,
짧은 의사결정 체인,
“연구→제품”이 빠르게 연결되는 구조

를 유지하고 있어,
제미나이 3.0이 강력하다고 해도 단기 제품 속도에서 OpenAI가 뒤처진다고 보긴 어렵다.

1-2. ChatGPT·CUDA 생태계의 락인: “갈아타기”가 점점 비싸진다

단기에서 더 중요한 것은 **락인(lock-in)**이다.

사용자·엔터프라이즈 레벨의 ChatGPT 락인

ChatGPT에는 이미
- 개인의 대화 히스토리,
- 문체·사고 스타일,
- 작업 맥락과 프로젝트 로그
  가 쌓여 있다.
기업·조직 입장에서는
- 내부 문서·코드·DB와의 RAG,
- 워크플로·에이전트 자동화,
- SSO·권한·감사 체계
  등이 OpenAI·Azure OpenAI, Nvidia GPU 기반 CUDA 등의 스택에 맞춰 설계되어 있다.

이 상태에서 제미나이가 조금 싸고, 조금 빠른 정도로 좋아져서는
그동안 쌓아 둔 컨텍스트·워크플로·보안 구조를 버리고 갈아타기 어렵다.
락인은 시간이 지날수록 가속되는 구조다.

GPU·CUDA 생태계의 락인

거의 모든 대형 모델·프레임워크·툴이
CUDA+NVIDIA GPU를 1순위 타깃으로 삼는다.
연구·훈련·PoC를 할 때
“일단 GPU에서 먼저 돌려보고, 나중에 전용칩 포팅을 고민한다”는 패턴이 기본값이 되었다.

즉, 모델·코드·툴의 초기 실험·도입은 GPU에서 시작하고,
워크로드가 충분히 크고 안정적일 때 전용칩으로 이관하는 구조가 형성되어 있다.

이 두 가지 락인은 단기적으로

“좋은 모델이 하나 더 나왔다고 해서
기존 GPU·ChatGPT 스택을 바로 버리고 이동하긴 어렵다”

는 현실적인 제약을 만든다.

1-3. 물리적 인프라 병목: 구글의 자본력도 단기엔 제한적이다

구글·마이크로소프트·아마존은
전력·데이터센터·전용칩(TPU, Maia, Trainium 등)에서
OpenAI 단독보다 훨씬 큰 자본력을 갖고 있다.

구글 TPU
이미지 출처: servethehome.com

그러나 이러한 우위가 단기간에 5배·10배 성능 차이로 바로 전이되지는 않는다.

전력·부지·냉각·송전망은
허가·설계·공사·전력회사 계약이 필요한 물리 자산이다.
아무리 돈이 많아도 최소 수년 단위의 타임라인이 필요하다.
HBM·CoWoS 패키징·서버랙 등도
전세계 공급망 캐파가 정해져 있어,
추가 수요를 즉각적으로 흡수하기 어렵다.

따라서 **단기(1~3년)**에는

OpenAI·구글·MS 모두
비슷한 물리적 상한에 걸려 있고,
구글의 자본력이
당장 “10배 더 큰 모델·10배 더 저렴한 서비스”로 나타나긴 어렵다.

이 전제하에서 보면,
제미나이 3.0이 나왔다고 해서
단기적으로 OpenAI·NVIDIA 진영이 크게 위축될 가능성은 낮다는 결론이 자연스럽게 도출된다.

2. 중장기: 메모리·전력·전용칩이 AI 파이를 키우는 Jevons형 드라이버

2-1. 병목은 FLOPS가 아니라 메모리와 전력

LLM·멀티모달 추론 워크로드의 구조를 보면,

입력보다 출력 토큰이 더 많아지고,
체인오브소트, 자기검증, 다단계 계획, 에이전트 호출 등으로
내부적으로 생성·평가·폐기되는 토큰이 폭증한다.
각 토큰을 생성할 때마다
모든 과거 토큰의 KV 캐시를 레이어별로 다시 읽어야 하기 때문에,
HBM 대역폭·KV 캐시 메모리가 성능·전력의 병목이 된다.
데이터센터 차원에서는
송전망·부지·냉각 한계로 인해
**MW(전력 자체)가 캡(cap)**으로 작동한다.

따라서 KPI는 자연스럽게

토큰/초/MW,
토큰/TCO

같은 지표로 재정의된다.

“FLOPS를 얼마나 많이 때리느냐”보다
**“주어진 전력·비용으로 유효 토큰을 얼마나 많이 뽑느냐”**가 핵심이 된다.

2-2. 전용칩 + 계층형 메모리: 선택된 해법

이 병목을 풀기 위해 업계가 선택한 방향은 두 가지이다.

전용칩(ASIC)
- 구글 TPU, AWS Trainium/Inferentia, MS Maia, 메타 MTIA 등
- LLM 추론·광고·검색·추천 등 패턴이 어느 정도 고정된 워크로드에 맞춰
  연산 구조·정밀도·메모리 엑세스를 최적화한 칩
계층형 메모리 구조
- HBM–GDDR/LPDDR–CXL DRAM–플래시(HBF)로 이어지는 계층
- “비싼 와트(HBM·NVLink)”는 핫 파라미터·핫 KV에만 쓰고,
  나머지 상태·아카이브·콜드 데이터는
  더 싼 와트(LPDDR·플래시)로 내려보내
  전체 토큰/MW·토큰/TCO를 최적화하는 구조

이 조합이 성공하면,

특정 워크로드에서는 GPU 대비
같은 성능을 더 적은 전력·더 낮은 비용으로 제공할 수 있고,
그만큼 클라우드 사업자는
전용칩 존에 워크로드를 옮겨
자기 손익계산서를 개선할 유인이 커진다.

2-3. DeepSeek와 Jevons의 역설: 효율이 수요를 죽이는 것이 아니라 폭발시킨다

딥시크(DeepSeek) 모먼트에서 이미 한 번 확인했듯,

모델·소프트웨어 레벨에서
“GPT-4급 성능을 훨씬 낮은 비용에 제공”하는 사례가 등장하자,
단기적으로는
“AI 인프라 투자·엔비디아 수요가 줄어드는 것 아니냐”는 공포가 나왔지만,
곧이어
**“쿼리 단가가 내려가면 더 많은 기업·개인이 더 많은 업무에 AI를 쓸 것이고,
결과적으로 인프라 수요는 더 커질 것”**이라는
Jevons식 해석이 다시 우세해졌다.

전용칩·전력·메모리 효율이 개선될 때도 구조는 같다.

전용칩 + 계층형 메모리로 토큰 단가·쿼리 단가가 내려간다.
경쟁이 있는 이상
이 효율 이득의 일부는
- 가격 인하,
- 같은 가격에서 더 긴 컨텍스트·더 높은 성능 제공
  의 형태로 시장에 전가된다.
그 결과
- “AI를 쓰면 좋겠지만 비용 때문에 못 썼던” 워크로드가
  도입 검토로 이동하고,
- 기존보다 훨씬 많은 영역에서, 훨씬 긴 시간 동안 AI가 사용되기 시작한다.

즉, 전용칩·메모리 효율 개선은 “GPU vs ASIC의 제로섬”이 아니라,
AI 전체 파이를 키우는 Jevons형 가속기로 작동할 공산이 크다.

2-4. GPU vs 전용칩: 절대량은 같이 늘고, 점유율 곡선만 갈라진다

중장기적으로 워크로드를 나눠보면:

개척·연구·훈련·시뮬레이션 영역
- 월드모델, Physical AI, 강화학습, 새로운 아키텍처 실험
- 구조가 자주 바뀌고 실패·재시도가 많다
  → GPU(또는 동급 범용 가속기) 중심
안정화된 대규모 추론·서비스 영역
- 검색·광고·추천,
- 대규모 LLM API,
- 코파일럿·에이전트 서비스
- 트래픽 패턴과 SLA가 비교적 안정된 워크로드
  → 전용칩(ASIC) + 계층형 메모리 비중 확대

이 구조에서는:

AI 전체 파이는 전용칩 덕분에 더 빠르게 커지고,
그 안에서 GPU의 절대 사용량·Capex·전력 소비도 계속 늘어나겠지만,
GPU가 담당하는 “비율”은 전용칩·ASIC이 잠식해 가는 방향이 된다.

즉, 현실적인 그림은

“전용칩 비중↑ / GPU 비중↓ / GPU 절대량↑ / AI 전체 파이↑”

에 가깝다고 볼 수 있다.

3. NVIDIA GPU vs 구글 TPU: 폐쇄성은 데이터센터 사업자에게도 리스크다

지금까지는 “전용칩 vs GPU”를 기능·경제성 관점에서 보았다.
여기에 폐쇄성·락인·선택 옵션이라는 축을 더하면
NVIDIA GPU vs Google TPU의 차이가 더 뚜렷해진다.

3-1. NVIDIA GPU: 폐쇄지만 사실상의 “공용 표준”

먼저 NVIDIA GPU부터 보자.

CUDA는 오픈소스가 아닌, 엔비디아가 통제하는 폐쇄 스택이다.
그럼에도 불구하고
- PyTorch·TensorFlow·JAX,
- 각종 최적화 라이브러리·서빙 프레임워크,
- 논문 구현 코드
  대부분이 CUDA를 1순위 타깃으로 삼는다.

그 결과:

어떤 클라우드(AWS, Azure, GCP, Oracle 등)를 쓰든
**“GPU를 쓰면 대체로 비슷한 개발 경험”**을 제공할 수 있고,
온프레미스 데이터센터로 워크로드를 옮기더라도
“GPU 코드·모델·툴을 그대로 가져갈 수 있는” 이동성이 확보된다.

즉, CUDA는 본질적으로는 폐쇄지만,
사용자·툴·코드가 워낙 많아져서 **“폐쇄이면서도 사실상의 공용 표준”**처럼 작동하는 특이한 상태에 있다.

데이터센터·클라우드 사업자 입장에서 보면:

GPU에 투자하면
- 여러 고객·다양한 워크로드를 유치할 수 있고,
- 장기적으로도 “이 하드웨어가 쓸모 없어질 가능성”이 상대적으로 낮다.
이는 Capex·리스크 관리 측면에서 매우 큰 장점이다.

3-2. 구글 TPU: 성능·TCO는 매력적이지만, 선택 옵션을 줄이는 구조

TPU는 다른 그림이다.

성능·전력·TCO에서는
- LLM 추론·광고·검색·추천 등에서
  GPU 대비 경쟁력이 높은 영역이 분명히 있다.
그러나 실제 배치는
- 대부분 구글 내부 워크로드 + Google Cloud TPU 고객에 한정된다.

이 말은 곧,

다른 클라우드나 온프레미스 데이터센터 사업자는
TPU를 자유롭게 사서 자기 인프라에 깔 수 없다는 뜻이다.
TPU에 최적화된 워크로드가 많아질수록,
그 워크로드는 GCP에서 벗어나기 어려운 락인 구조가 된다.

데이터센터·클라우드 사업자 입장에서 보면, TPU는 다음과 같이 보일 수 있다.

구글 입장에서는
- “우리 내부·GCP 고객 워크로드의 TCO를 낮춰주는 전략 자산”이지만,
나머지 사업자 입장에서는
- “우리가 채택할 수 있는 범용 옵션은 아니고,
  오히려 구글의 락인을 강화하는 도구”에 가깝다.

이 때문에 AWS·Azure·Oracle 등은
각자 Trainium·Inferentia·Maia·AMD 협업 등 자기 전용칩 라인업을 별도로 키우려는 것이다.

남의 폐쇄 생태계(TPU)에 깊게 얹히면,
장기적으로 자기 고객에게 제공할 수 있는 선택 옵션이 줄어드는 리스크가 크기 때문이다.

3-3. 폐쇄성의 트레이드오프: TCO vs 옵션가치

정리하면, 데이터센터/클라우드 사업자 입장에서:

GPU 중심 전략
- 장점:
  - 어떤 클라우드를 쓰든, 온프레로 나가든
    워크로드를 비교적 쉽게 이동시킬 수 있다.
  - 고객 입장에서도 “GPU 기반 서비스”는
    다른 사업자로 옮겨도 재사용성이 높다.
- 단점:
  - 엔비디아 마진 + GPU 프리미엄을 고스란히 부담해야 한다.
  - 특정 워크로드에서는 전용칩 대비 TCO가 떨어진다.
전용칩(TPU 등) 비중 확대
- 장점:
  - 특정 워크로드에서 토큰/W, 토큰/$를 크게 개선할 수 있다.
  - 클라우드 사업자 입장에서는
    엔비디아에 지불하던 마진 일부를
    자기 P&L 안으로 내재화할 수 있다.
- 단점:
  - 특정 벤더·플랫폼에 워크로드가 깊게 묶이는 락인 구조가 된다.
  - 나중에 다른 칩·다른 클라우드로 옮기고 싶을 때
    포팅 비용·엔지니어링 리스크가 커진다.

그래서 합리적인 균형은 대체로 다음과 같은 모습에 수렴할 가능성이 크다.

개척·훈련·새 워크로드 → GPU 중심,
충분히 크고 안정된 워크로드 → 각자 전용칩 존으로 이관,
다만
- 전용칩 비중을 너무 과도하게 키우면
  “우리가 쓸 수 있는 옵션”이 줄어든다는 점을 항상 의식하면서
- TCO vs 옵션가치를 저울질하는 구조.

이때 “폐쇄성 리스크”는
애플의 폐쇄적 전략이 결국 AI 경쟁에서 뒤처지는 요인으로 작용한 것처럼,
데이터센터·클라우드 사업자의 전략적 선택이라는 층위에서도 작동한다는 점이 중요하다.

4. 결론: 락인·인프라·폐쇄성의 균형 위에서 커지는 AI 파이

지금까지의 논의를 한 줄로 압축하면 다음과 같다.

단기(1~3년)
- 제미나이 3.0이 나와도,
  상위권 모델 간 성능 수렴,
  ChatGPT·CUDA 생태계의 강력한 락인,
  전력·데이터센터라는 물리적 병목 때문에
  OpenAI·NVIDIA 진영이 단숨에 위축될 가능성은 낮다.
- 오히려 시간이 지날수록 사용자·워크플로·코드가 쌓이며 락인은 강화될 가능성이 크다.
중장기(5년 이상)
- 병목은 FLOPS가 아니라 메모리와 전력이고,
- 전용칩 + 계층형 메모리가
  DeepSeek 때처럼 제번스의 역설을 작동시켜
  “AI 한 단위당 비용↓ → AI 총수요·총토큰↑” 경로를 밟을 가능성이 크다.
- 이 과정에서
  - AI 전체 파이는 커지고,
  - GPU 절대 사용량도 계속 늘어나지만,
  - 전용칩·ASIC의 성장 기울기가 더 가팔라져
    GPU의 산업 내 점유율은 서서히 낮아지는 구조가 나타날 수 있다.
폐쇄성·락인 관점
- NVIDIA GPU는 본질적으로는 폐쇄(CUDA)지만,
  워크로드·툴·고객이 워낙 많아
  **“폐쇄이면서 사실상의 공용 표준”**처럼 작동한다.
- 구글 TPU·각사 전용칩은
  개별 사업자 입장에서 TCO 개선 효과가 크지만,
  자기·타 사업자의 “운신의 폭”을 줄이는 폐쇄성 리스크를 동시에 안고 있다.
- 따라서 데이터센터·클라우드 사업자는
  GPU와 전용칩 사이에서 TCO vs 옵션가치를 항상 맞바꾸는 게임을 하고 있으며,
  이 균형이 향후 5~10년 AI 인프라 지형을 결정할 것이다.

결국 앞으로의 AI 경쟁은
“누가 FLOPS를 더 많이 때리는가”가 아니라,

플랫폼 락인(ChatGPT·CUDA) ×
인프라·전력·메모리 효율(전용칩·계층형 메모리) ×
폐쇄성·선택 옵션(락인을 얼마나 활용·관리하는가)

이 세 축의 곱으로 결정될 것이다.

단기에는 GPU·ChatGPT 락인과 제품 속도가,
중장기에는 전용칩·메모리·전력 인프라와 폐쇄성 관리 능력이
각각 더 큰 비중으로 작동하게 될 것으로,
GPU, ASIC의 하이브리드 사용형태가 꽤 장기간 이어질 것으로 본다.

OpenAI와 NVIDIA GPU 진영이 마치 곧 붕괴할 것처럼 이야기하는 것은, 상당히 성급하고 과도하게 비관적인 반응에 가깝다고 본다.

무엇보다 AI 산업은 아직 극초기 단계에 있으며, 향후 OpenAI와 NVIDIA의 전략적 대응에 따라 산업 지형이 어떻게 바뀔지는 누구도 단정할 수 없다.

지금의 국면만을 근거로 장기적인 판도를 예측하는 것 자체가 애초에 큰 의미가 없을 수도 있다.

=끝

나만의 투자이야기

2025년 11월 25일 화요일

생각정리 127 (* GPU vs ASIC?)