제미나이 3 이후의 AI 인프라:
구글의 제미나이 3.0 발표 이후 시장에는 익숙한 서사가 다시 등장했다.
| https://t.me/HANAchina |
-
“이제 OpenAI·NVIDIA 시대는 끝났다.”
-
“전용칩과 인프라에서 앞선 구글이 결국 승자가 될 것이다.”
하지만 실제 구조를 뜯어보면,
**단기(1~3년)**와 **중장기(5년 이상)**를 분리해서 보는 것이 훨씬 합리적이다.
단기적으로는
-
상위권 모델 간 성능 수렴,
-
플랫폼 락인(대화 아카이브·CUDA 생태계),
-
전력·데이터센터라는 물리적 병목,
이 세 가지 이유 때문에,
제미나이 3.0이 나왔다고 해서 OpenAI·NVIDIA 진영이 바로 위축되거나, 사용자가 대거 이탈할 가능성은 낮다.
반면 중장기적으로는,
전용칩(ASIC)·메모리·전력 효율이 “AI 한 단위당 비용”을 낮추면서 Jevons의 역설을 다시 작동시킬 가능성이 크다.
그 결과는 AI 전체 파이의 확대 + GPU 절대 사용량 증가 + 전용칩 비중의 구조적 상승이라는 다층적인 그림에 가깝다.
아래에서 순서대로 살펴본다.
1. 단기: 제미나이 3.0은 강력하지만, OpenAI·NVIDIA를 즉시 대체하지 못한다
1-1. 상위권 모델 간 성능은 이미 수렴 구간에 진입
현재 상위 LLM·멀티모달 모델들을 보면,
-
GPT-5 계열
-
Gemini 3,
-
Claude 3.x,
-
DeepSeek-R1/V3
등이 벤치마크에서 서로 **“다른 강점을 가진 비슷한 급”**으로 수렴하고 있다.
사용자 입장에서 체감되는 차이는 분명 있지만,
어느 한쪽이 나머지를 압도하는 “절대 1등” 구조는 아니다.
이 구간에 들어오면 승부는 자연스럽게
-
제품 출시 속도(실행력),
-
에이전트·툴·앱·API 통합,
-
가격·플랜·에코시스템
같은 제품 레벨의 속도와 완성도로 이동한다.
OpenAI는 여전히:
-
비교적 작은 조직 체계,
-
짧은 의사결정 체인,
-
“연구→제품”이 빠르게 연결되는 구조
를 유지하고 있어,
제미나이 3.0이 강력하다고 해도 단기 제품 속도에서 OpenAI가 뒤처진다고 보긴 어렵다.
1-2. ChatGPT·CUDA 생태계의 락인: “갈아타기”가 점점 비싸진다
단기에서 더 중요한 것은 **락인(lock-in)**이다.
-
사용자·엔터프라이즈 레벨의 ChatGPT 락인
-
ChatGPT에는 이미
-
개인의 대화 히스토리,
-
문체·사고 스타일,
-
작업 맥락과 프로젝트 로그
가 쌓여 있다.
-
-
기업·조직 입장에서는
-
내부 문서·코드·DB와의 RAG,
-
워크플로·에이전트 자동화,
-
SSO·권한·감사 체계
등이 OpenAI·Azure OpenAI, Nvidia GPU 기반 CUDA 등의 스택에 맞춰 설계되어 있다.
-
이 상태에서 제미나이가 조금 싸고, 조금 빠른 정도로 좋아져서는
그동안 쌓아 둔 컨텍스트·워크플로·보안 구조를 버리고 갈아타기 어렵다.
락인은 시간이 지날수록 가속되는 구조다.
-
GPU·CUDA 생태계의 락인
-
거의 모든 대형 모델·프레임워크·툴이
CUDA+NVIDIA GPU를 1순위 타깃으로 삼는다. -
연구·훈련·PoC를 할 때
“일단 GPU에서 먼저 돌려보고, 나중에 전용칩 포팅을 고민한다”는 패턴이 기본값이 되었다.
즉, 모델·코드·툴의 초기 실험·도입은 GPU에서 시작하고,
워크로드가 충분히 크고 안정적일 때 전용칩으로 이관하는 구조가 형성되어 있다.
이 두 가지 락인은 단기적으로
“좋은 모델이 하나 더 나왔다고 해서
기존 GPU·ChatGPT 스택을 바로 버리고 이동하긴 어렵다”
는 현실적인 제약을 만든다.
1-3. 물리적 인프라 병목: 구글의 자본력도 단기엔 제한적이다
구글·마이크로소프트·아마존은
전력·데이터센터·전용칩(TPU, Maia, Trainium 등)에서
OpenAI 단독보다 훨씬 큰 자본력을 갖고 있다.
| 구글 TPU 이미지 출처: servethehome.com |
그러나 이러한 우위가 단기간에 5배·10배 성능 차이로 바로 전이되지는 않는다.
-
전력·부지·냉각·송전망은
허가·설계·공사·전력회사 계약이 필요한 물리 자산이다.
아무리 돈이 많아도 최소 수년 단위의 타임라인이 필요하다. -
HBM·CoWoS 패키징·서버랙 등도
전세계 공급망 캐파가 정해져 있어,
추가 수요를 즉각적으로 흡수하기 어렵다.
따라서 **단기(1~3년)**에는
-
OpenAI·구글·MS 모두
비슷한 물리적 상한에 걸려 있고, -
구글의 자본력이
당장 “10배 더 큰 모델·10배 더 저렴한 서비스”로 나타나긴 어렵다.
이 전제하에서 보면,
제미나이 3.0이 나왔다고 해서
단기적으로 OpenAI·NVIDIA 진영이 크게 위축될 가능성은 낮다는 결론이 자연스럽게 도출된다.
2. 중장기: 메모리·전력·전용칩이 AI 파이를 키우는 Jevons형 드라이버
2-1. 병목은 FLOPS가 아니라 메모리와 전력
LLM·멀티모달 추론 워크로드의 구조를 보면,
-
입력보다 출력 토큰이 더 많아지고,
-
체인오브소트, 자기검증, 다단계 계획, 에이전트 호출 등으로
내부적으로 생성·평가·폐기되는 토큰이 폭증한다. -
각 토큰을 생성할 때마다
모든 과거 토큰의 KV 캐시를 레이어별로 다시 읽어야 하기 때문에,
HBM 대역폭·KV 캐시 메모리가 성능·전력의 병목이 된다. -
데이터센터 차원에서는
송전망·부지·냉각 한계로 인해
**MW(전력 자체)가 캡(cap)**으로 작동한다.
따라서 KPI는 자연스럽게
-
토큰/초/MW,
-
토큰/TCO
같은 지표로 재정의된다.
“FLOPS를 얼마나 많이 때리느냐”보다
**“주어진 전력·비용으로 유효 토큰을 얼마나 많이 뽑느냐”**가 핵심이 된다.
2-2. 전용칩 + 계층형 메모리: 선택된 해법
이 병목을 풀기 위해 업계가 선택한 방향은 두 가지이다.
-
전용칩(ASIC)
-
구글 TPU, AWS Trainium/Inferentia, MS Maia, 메타 MTIA 등
-
LLM 추론·광고·검색·추천 등 패턴이 어느 정도 고정된 워크로드에 맞춰
연산 구조·정밀도·메모리 엑세스를 최적화한 칩
-
-
계층형 메모리 구조
-
HBM–GDDR/LPDDR–CXL DRAM–플래시(HBF)로 이어지는 계층
-
“비싼 와트(HBM·NVLink)”는 핫 파라미터·핫 KV에만 쓰고,
나머지 상태·아카이브·콜드 데이터는
더 싼 와트(LPDDR·플래시)로 내려보내
전체 토큰/MW·토큰/TCO를 최적화하는 구조
-
이 조합이 성공하면,
-
특정 워크로드에서는 GPU 대비
같은 성능을 더 적은 전력·더 낮은 비용으로 제공할 수 있고, -
그만큼 클라우드 사업자는
전용칩 존에 워크로드를 옮겨
자기 손익계산서를 개선할 유인이 커진다.
2-3. DeepSeek와 Jevons의 역설: 효율이 수요를 죽이는 것이 아니라 폭발시킨다
딥시크(DeepSeek) 모먼트에서 이미 한 번 확인했듯,
-
모델·소프트웨어 레벨에서
“GPT-4급 성능을 훨씬 낮은 비용에 제공”하는 사례가 등장하자, -
단기적으로는
“AI 인프라 투자·엔비디아 수요가 줄어드는 것 아니냐”는 공포가 나왔지만, -
곧이어
**“쿼리 단가가 내려가면 더 많은 기업·개인이 더 많은 업무에 AI를 쓸 것이고,
결과적으로 인프라 수요는 더 커질 것”**이라는
Jevons식 해석이 다시 우세해졌다.
전용칩·전력·메모리 효율이 개선될 때도 구조는 같다.
-
전용칩 + 계층형 메모리로 토큰 단가·쿼리 단가가 내려간다.
-
경쟁이 있는 이상
이 효율 이득의 일부는-
가격 인하,
-
같은 가격에서 더 긴 컨텍스트·더 높은 성능 제공
의 형태로 시장에 전가된다.
-
-
그 결과
-
“AI를 쓰면 좋겠지만 비용 때문에 못 썼던” 워크로드가
도입 검토로 이동하고, -
기존보다 훨씬 많은 영역에서, 훨씬 긴 시간 동안 AI가 사용되기 시작한다.
-
즉, 전용칩·메모리 효율 개선은 “GPU vs ASIC의 제로섬”이 아니라,
AI 전체 파이를 키우는 Jevons형 가속기로 작동할 공산이 크다.
2-4. GPU vs 전용칩: 절대량은 같이 늘고, 점유율 곡선만 갈라진다
중장기적으로 워크로드를 나눠보면:
-
개척·연구·훈련·시뮬레이션 영역
-
월드모델, Physical AI, 강화학습, 새로운 아키텍처 실험
-
구조가 자주 바뀌고 실패·재시도가 많다
→ GPU(또는 동급 범용 가속기) 중심
-
-
안정화된 대규모 추론·서비스 영역
-
검색·광고·추천,
-
대규모 LLM API,
-
코파일럿·에이전트 서비스
-
트래픽 패턴과 SLA가 비교적 안정된 워크로드
→ 전용칩(ASIC) + 계층형 메모리 비중 확대
-
이 구조에서는:
-
AI 전체 파이는 전용칩 덕분에 더 빠르게 커지고,
-
그 안에서 GPU의 절대 사용량·Capex·전력 소비도 계속 늘어나겠지만,
-
GPU가 담당하는 “비율”은 전용칩·ASIC이 잠식해 가는 방향이 된다.
즉, 현실적인 그림은
“전용칩 비중↑ / GPU 비중↓ / GPU 절대량↑ / AI 전체 파이↑”
에 가깝다고 볼 수 있다.
3. NVIDIA GPU vs 구글 TPU: 폐쇄성은 데이터센터 사업자에게도 리스크다
지금까지는 “전용칩 vs GPU”를 기능·경제성 관점에서 보았다.
여기에 폐쇄성·락인·선택 옵션이라는 축을 더하면
NVIDIA GPU vs Google TPU의 차이가 더 뚜렷해진다.
3-1. NVIDIA GPU: 폐쇄지만 사실상의 “공용 표준”
먼저 NVIDIA GPU부터 보자.
-
CUDA는 오픈소스가 아닌, 엔비디아가 통제하는 폐쇄 스택이다.
-
그럼에도 불구하고
-
PyTorch·TensorFlow·JAX,
-
각종 최적화 라이브러리·서빙 프레임워크,
-
논문 구현 코드
대부분이 CUDA를 1순위 타깃으로 삼는다.
-
그 결과:
-
어떤 클라우드(AWS, Azure, GCP, Oracle 등)를 쓰든
**“GPU를 쓰면 대체로 비슷한 개발 경험”**을 제공할 수 있고, -
온프레미스 데이터센터로 워크로드를 옮기더라도
“GPU 코드·모델·툴을 그대로 가져갈 수 있는” 이동성이 확보된다.
즉, CUDA는 본질적으로는 폐쇄지만,
사용자·툴·코드가 워낙 많아져서 **“폐쇄이면서도 사실상의 공용 표준”**처럼 작동하는 특이한 상태에 있다.
데이터센터·클라우드 사업자 입장에서 보면:
-
GPU에 투자하면
-
여러 고객·다양한 워크로드를 유치할 수 있고,
-
장기적으로도 “이 하드웨어가 쓸모 없어질 가능성”이 상대적으로 낮다.
-
-
이는 Capex·리스크 관리 측면에서 매우 큰 장점이다.
3-2. 구글 TPU: 성능·TCO는 매력적이지만, 선택 옵션을 줄이는 구조
TPU는 다른 그림이다.
-
성능·전력·TCO에서는
-
LLM 추론·광고·검색·추천 등에서
GPU 대비 경쟁력이 높은 영역이 분명히 있다.
-
-
그러나 실제 배치는
-
대부분 구글 내부 워크로드 + Google Cloud TPU 고객에 한정된다.
-
이 말은 곧,
-
다른 클라우드나 온프레미스 데이터센터 사업자는
TPU를 자유롭게 사서 자기 인프라에 깔 수 없다는 뜻이다. -
TPU에 최적화된 워크로드가 많아질수록,
그 워크로드는 GCP에서 벗어나기 어려운 락인 구조가 된다.
데이터센터·클라우드 사업자 입장에서 보면, TPU는 다음과 같이 보일 수 있다.
-
구글 입장에서는
-
“우리 내부·GCP 고객 워크로드의 TCO를 낮춰주는 전략 자산”이지만,
-
-
나머지 사업자 입장에서는
-
“우리가 채택할 수 있는 범용 옵션은 아니고,
오히려 구글의 락인을 강화하는 도구”에 가깝다.
-
이 때문에 AWS·Azure·Oracle 등은
각자 Trainium·Inferentia·Maia·AMD 협업 등 자기 전용칩 라인업을 별도로 키우려는 것이다.
남의 폐쇄 생태계(TPU)에 깊게 얹히면,
장기적으로 자기 고객에게 제공할 수 있는 선택 옵션이 줄어드는 리스크가 크기 때문이다.
3-3. 폐쇄성의 트레이드오프: TCO vs 옵션가치
정리하면, 데이터센터/클라우드 사업자 입장에서:
-
GPU 중심 전략
-
장점:
-
어떤 클라우드를 쓰든, 온프레로 나가든
워크로드를 비교적 쉽게 이동시킬 수 있다. -
고객 입장에서도 “GPU 기반 서비스”는
다른 사업자로 옮겨도 재사용성이 높다.
-
-
단점:
-
엔비디아 마진 + GPU 프리미엄을 고스란히 부담해야 한다.
-
특정 워크로드에서는 전용칩 대비 TCO가 떨어진다.
-
-
-
전용칩(TPU 등) 비중 확대
-
장점:
-
특정 워크로드에서 토큰/W, 토큰/$를 크게 개선할 수 있다.
-
클라우드 사업자 입장에서는
엔비디아에 지불하던 마진 일부를
자기 P&L 안으로 내재화할 수 있다.
-
-
단점:
-
특정 벤더·플랫폼에 워크로드가 깊게 묶이는 락인 구조가 된다.
-
나중에 다른 칩·다른 클라우드로 옮기고 싶을 때
포팅 비용·엔지니어링 리스크가 커진다.
-
-
그래서 합리적인 균형은 대체로 다음과 같은 모습에 수렴할 가능성이 크다.
-
개척·훈련·새 워크로드 → GPU 중심,
-
충분히 크고 안정된 워크로드 → 각자 전용칩 존으로 이관,
-
다만
-
전용칩 비중을 너무 과도하게 키우면
“우리가 쓸 수 있는 옵션”이 줄어든다는 점을 항상 의식하면서 -
TCO vs 옵션가치를 저울질하는 구조.
-
이때 “폐쇄성 리스크”는
애플의 폐쇄적 전략이 결국 AI 경쟁에서 뒤처지는 요인으로 작용한 것처럼,
데이터센터·클라우드 사업자의 전략적 선택이라는 층위에서도 작동한다는 점이 중요하다.
4. 결론: 락인·인프라·폐쇄성의 균형 위에서 커지는 AI 파이
지금까지의 논의를 한 줄로 압축하면 다음과 같다.
-
단기(1~3년)
-
제미나이 3.0이 나와도,
상위권 모델 간 성능 수렴,
ChatGPT·CUDA 생태계의 강력한 락인,
전력·데이터센터라는 물리적 병목 때문에
OpenAI·NVIDIA 진영이 단숨에 위축될 가능성은 낮다. -
오히려 시간이 지날수록 사용자·워크플로·코드가 쌓이며 락인은 강화될 가능성이 크다.
-
-
중장기(5년 이상)
-
병목은 FLOPS가 아니라 메모리와 전력이고,
-
전용칩 + 계층형 메모리가
DeepSeek 때처럼 제번스의 역설을 작동시켜
“AI 한 단위당 비용↓ → AI 총수요·총토큰↑” 경로를 밟을 가능성이 크다. -
이 과정에서
-
AI 전체 파이는 커지고,
-
GPU 절대 사용량도 계속 늘어나지만,
-
전용칩·ASIC의 성장 기울기가 더 가팔라져
GPU의 산업 내 점유율은 서서히 낮아지는 구조가 나타날 수 있다.
-
-
-
폐쇄성·락인 관점
-
NVIDIA GPU는 본질적으로는 폐쇄(CUDA)지만,
워크로드·툴·고객이 워낙 많아
**“폐쇄이면서 사실상의 공용 표준”**처럼 작동한다. -
구글 TPU·각사 전용칩은
개별 사업자 입장에서 TCO 개선 효과가 크지만,
자기·타 사업자의 “운신의 폭”을 줄이는 폐쇄성 리스크를 동시에 안고 있다. -
따라서 데이터센터·클라우드 사업자는
GPU와 전용칩 사이에서 TCO vs 옵션가치를 항상 맞바꾸는 게임을 하고 있으며,
이 균형이 향후 5~10년 AI 인프라 지형을 결정할 것이다.
-
결국 앞으로의 AI 경쟁은
“누가 FLOPS를 더 많이 때리는가”가 아니라,
플랫폼 락인(ChatGPT·CUDA) ×
인프라·전력·메모리 효율(전용칩·계층형 메모리) ×
폐쇄성·선택 옵션(락인을 얼마나 활용·관리하는가)
이 세 축의 곱으로 결정될 것이다.
단기에는 GPU·ChatGPT 락인과 제품 속도가,
중장기에는 전용칩·메모리·전력 인프라와 폐쇄성 관리 능력이
각각 더 큰 비중으로 작동하게 될 것으로,
GPU, ASIC의 하이브리드 사용형태가 꽤 장기간 이어질 것으로 본다.
OpenAI와 NVIDIA GPU 진영이 마치 곧 붕괴할 것처럼 이야기하는 것은, 상당히 성급하고 과도하게 비관적인 반응에 가깝다고 본다.
무엇보다 AI 산업은 아직 극초기 단계에 있으며, 향후 OpenAI와 NVIDIA의 전략적 대응에 따라 산업 지형이 어떻게 바뀔지는 누구도 단정할 수 없다.
지금의 국면만을 근거로 장기적인 판도를 예측하는 것 자체가 애초에 큰 의미가 없을 수도 있다.
=끝
댓글 없음:
댓글 쓰기