2025년 11월 25일 화요일

생각정리 127 (* GPU vs ASIC?)

제미나이 3 이후의 AI 인프라:


구글의 제미나이 3.0 발표 이후 시장에는 익숙한 서사가 다시 등장했다.


https://t.me/HANAchina


  • “이제 OpenAI·NVIDIA 시대는 끝났다.”

  • “전용칩과 인프라에서 앞선 구글이 결국 승자가 될 것이다.”

하지만 실제 구조를 뜯어보면,

**단기(1~3년)**와 **중장기(5년 이상)**를 분리해서 보는 것이 훨씬 합리적이다.

단기적으로는

  1. 상위권 모델 간 성능 수렴,

  2. 플랫폼 락인(대화 아카이브·CUDA 생태계),

  3. 전력·데이터센터라는 물리적 병목,

이 세 가지 이유 때문에,
제미나이 3.0이 나왔다고 해서 OpenAI·NVIDIA 진영이 바로 위축되거나, 사용자가 대거 이탈할 가능성은 낮다.

반면 중장기적으로는,

전용칩(ASIC)·메모리·전력 효율이 “AI 한 단위당 비용”을 낮추면서 Jevons의 역설을 다시 작동시킬 가능성이 크다.

그 결과는 AI 전체 파이의 확대 + GPU 절대 사용량 증가 + 전용칩 비중의 구조적 상승이라는 다층적인 그림에 가깝다.

아래에서 순서대로 살펴본다.


1. 단기: 제미나이 3.0은 강력하지만, OpenAI·NVIDIA를 즉시 대체하지 못한다


1-1. 상위권 모델 간 성능은 이미 수렴 구간에 진입

현재 상위 LLM·멀티모달 모델들을 보면,

  • GPT-5 계열

  • Gemini 3,

  • Claude 3.x,

  • DeepSeek-R1/V3

등이 벤치마크에서 서로 **“다른 강점을 가진 비슷한 급”**으로 수렴하고 있다.
사용자 입장에서 체감되는 차이는 분명 있지만,
어느 한쪽이 나머지를 압도하는 “절대 1등” 구조는 아니다.

이 구간에 들어오면 승부는 자연스럽게

  • 제품 출시 속도(실행력),

  • 에이전트·툴·앱·API 통합,

  • 가격·플랜·에코시스템

같은 제품 레벨의 속도와 완성도로 이동한다.

OpenAI는 여전히:

  • 비교적 작은 조직 체계,

  • 짧은 의사결정 체인,

  • “연구→제품”이 빠르게 연결되는 구조

를 유지하고 있어,
제미나이 3.0이 강력하다고 해도 단기 제품 속도에서 OpenAI가 뒤처진다고 보긴 어렵다.

1-2. ChatGPT·CUDA 생태계의 락인: “갈아타기”가 점점 비싸진다


단기에서 더 중요한 것은 **락인(lock-in)**이다.

  1. 사용자·엔터프라이즈 레벨의 ChatGPT 락인

  • ChatGPT에는 이미

    • 개인의 대화 히스토리,

    • 문체·사고 스타일,

    • 작업 맥락과 프로젝트 로그
      가 쌓여 있다.

  • 기업·조직 입장에서는

    • 내부 문서·코드·DB와의 RAG,

    • 워크플로·에이전트 자동화,

    • SSO·권한·감사 체계
      등이 OpenAI·Azure OpenAI, Nvidia GPU 기반 CUDA 등의 스택에 맞춰 설계되어 있다.

이 상태에서 제미나이가 조금 싸고, 조금 빠른 정도로 좋아져서는
그동안 쌓아 둔 컨텍스트·워크플로·보안 구조를 버리고 갈아타기 어렵다.
락인은 시간이 지날수록 가속되는 구조다.

  1. GPU·CUDA 생태계의 락인

  • 거의 모든 대형 모델·프레임워크·툴이
    CUDA+NVIDIA GPU를 1순위 타깃으로 삼는다.

  • 연구·훈련·PoC를 할 때
    “일단 GPU에서 먼저 돌려보고, 나중에 전용칩 포팅을 고민한다”는 패턴이 기본값이 되었다.

즉, 모델·코드·툴의 초기 실험·도입은 GPU에서 시작하고,
워크로드가 충분히 크고 안정적일 때 전용칩으로 이관하는 구조
가 형성되어 있다.

이 두 가지 락인은 단기적으로

“좋은 모델이 하나 더 나왔다고 해서
기존 GPU·ChatGPT 스택을 바로 버리고 이동하긴 어렵다”


는 현실적인 제약을 만든다.

1-3. 물리적 인프라 병목: 구글의 자본력도 단기엔 제한적이다


구글·마이크로소프트·아마존은
전력·데이터센터·전용칩(TPU, Maia, Trainium 등)에서
OpenAI 단독보다 훨씬 큰 자본력을 갖고 있다.


구글 TPU 
이미지 출처: servethehome.com


그러나 이러한 우위가 단기간에 5배·10배 성능 차이로 바로 전이되지는 않는다.

  • 전력·부지·냉각·송전망은
    허가·설계·공사·전력회사 계약이 필요한 물리 자산이다.
    아무리 돈이 많아도 최소 수년 단위의 타임라인이 필요하다.

  • HBM·CoWoS 패키징·서버랙 등도
    전세계 공급망 캐파가 정해져 있어,
    추가 수요를 즉각적으로 흡수하기 어렵다.

따라서 **단기(1~3년)**에는

  • OpenAI·구글·MS 모두
    비슷한 물리적 상한에 걸려 있고,

  • 구글의 자본력이
    당장 “10배 더 큰 모델·10배 더 저렴한 서비스”로 나타나긴 어렵다.

이 전제하에서 보면,
제미나이 3.0이 나왔다고 해서
단기적으로 OpenAI·NVIDIA 진영이 크게 위축될 가능성은 낮다는 결론이 자연스럽게 도출된다.


2. 중장기: 메모리·전력·전용칩이 AI 파이를 키우는 Jevons형 드라이버


2-1. 병목은 FLOPS가 아니라 메모리와 전력


LLM·멀티모달 추론 워크로드의 구조를 보면,

  • 입력보다 출력 토큰이 더 많아지고,

  • 체인오브소트, 자기검증, 다단계 계획, 에이전트 호출 등으로
    내부적으로 생성·평가·폐기되는 토큰이 폭증한다.

  • 각 토큰을 생성할 때마다
    모든 과거 토큰의 KV 캐시를 레이어별로 다시 읽어야 하기 때문에,
    HBM 대역폭·KV 캐시 메모리가 성능·전력의 병목이 된다.

  • 데이터센터 차원에서는
    송전망·부지·냉각 한계로 인해
    **MW(전력 자체)가 캡(cap)**으로 작동한다.

따라서 KPI는 자연스럽게

  • 토큰/초/MW,

  • 토큰/TCO


같은 지표로 재정의된다.

“FLOPS를 얼마나 많이 때리느냐”보다
**“주어진 전력·비용으로 유효 토큰을 얼마나 많이 뽑느냐”**가 핵심이 된다.

2-2. 전용칩 + 계층형 메모리: 선택된 해법


이 병목을 풀기 위해 업계가 선택한 방향은 두 가지이다.

  1. 전용칩(ASIC)

    • 구글 TPU, AWS Trainium/Inferentia, MS Maia, 메타 MTIA 등

    • LLM 추론·광고·검색·추천 등 패턴이 어느 정도 고정된 워크로드에 맞춰
      연산 구조·정밀도·메모리 엑세스를 최적화한 칩

  2. 계층형 메모리 구조

    • HBM–GDDR/LPDDR–CXL DRAM–플래시(HBF)로 이어지는 계층

    • “비싼 와트(HBM·NVLink)”는 핫 파라미터·핫 KV에만 쓰고,
      나머지 상태·아카이브·콜드 데이터는
      더 싼 와트(LPDDR·플래시)로 내려보내
      전체 토큰/MW·토큰/TCO를 최적화하는 구조

이 조합이 성공하면,

  • 특정 워크로드에서는 GPU 대비
    같은 성능을 더 적은 전력·더 낮은 비용으로 제공할 수 있고,

  • 그만큼 클라우드 사업자는
    전용칩 존에 워크로드를 옮겨
    자기 손익계산서를 개선할 유인이 커진다.

2-3. DeepSeek와 Jevons의 역설: 효율이 수요를 죽이는 것이 아니라 폭발시킨다


딥시크(DeepSeek) 모먼트에서 이미 한 번 확인했듯,

  • 모델·소프트웨어 레벨에서
    “GPT-4급 성능을 훨씬 낮은 비용에 제공”하는 사례가 등장하자,

  • 단기적으로는
    “AI 인프라 투자·엔비디아 수요가 줄어드는 것 아니냐”는 공포가 나왔지만,

  • 곧이어
    **“쿼리 단가가 내려가면 더 많은 기업·개인이 더 많은 업무에 AI를 쓸 것이고,
    결과적으로 인프라 수요는 더 커질 것”**이라는
    Jevons식 해석이 다시 우세해졌다.

전용칩·전력·메모리 효율이 개선될 때도 구조는 같다.

  1. 전용칩 + 계층형 메모리로 토큰 단가·쿼리 단가가 내려간다.

  2. 경쟁이 있는 이상
    이 효율 이득의 일부는

    • 가격 인하,

    • 같은 가격에서 더 긴 컨텍스트·더 높은 성능 제공
      의 형태로 시장에 전가된다.

  3. 그 결과

    • “AI를 쓰면 좋겠지만 비용 때문에 못 썼던” 워크로드가
      도입 검토로 이동하고,

    • 기존보다 훨씬 많은 영역에서, 훨씬 긴 시간 동안 AI가 사용되기 시작한다.

즉, 전용칩·메모리 효율 개선은 “GPU vs ASIC의 제로섬”이 아니라,
AI 전체 파이를 키우는 Jevons형 가속기
로 작동할 공산이 크다.

2-4. GPU vs 전용칩: 절대량은 같이 늘고, 점유율 곡선만 갈라진다


중장기적으로 워크로드를 나눠보면:

  • 개척·연구·훈련·시뮬레이션 영역

    • 월드모델, Physical AI, 강화학습, 새로운 아키텍처 실험

    • 구조가 자주 바뀌고 실패·재시도가 많다
      GPU(또는 동급 범용 가속기) 중심

  • 안정화된 대규모 추론·서비스 영역

    • 검색·광고·추천,

    • 대규모 LLM API,

    • 코파일럿·에이전트 서비스

    • 트래픽 패턴과 SLA가 비교적 안정된 워크로드
      전용칩(ASIC) + 계층형 메모리 비중 확대

이 구조에서는:

  • AI 전체 파이는 전용칩 덕분에 더 빠르게 커지고,

  • 그 안에서 GPU의 절대 사용량·Capex·전력 소비도 계속 늘어나겠지만,

  • GPU가 담당하는 “비율”은 전용칩·ASIC이 잠식해 가는 방향이 된다.

즉, 현실적인 그림은

“전용칩 비중↑ / GPU 비중↓ / GPU 절대량↑ / AI 전체 파이↑”

에 가깝다고 볼 수 있다.


3. NVIDIA GPU vs 구글 TPU: 폐쇄성은 데이터센터 사업자에게도 리스크다


지금까지는 “전용칩 vs GPU”를 기능·경제성 관점에서 보았다.
여기에 폐쇄성·락인·선택 옵션이라는 축을 더하면
NVIDIA GPU vs Google TPU의 차이가 더 뚜렷해진다.

3-1. NVIDIA GPU: 폐쇄지만 사실상의 “공용 표준”


먼저 NVIDIA GPU부터 보자.

  • CUDA는 오픈소스가 아닌, 엔비디아가 통제하는 폐쇄 스택이다.

  • 그럼에도 불구하고

    • PyTorch·TensorFlow·JAX,

    • 각종 최적화 라이브러리·서빙 프레임워크,

    • 논문 구현 코드
      대부분이 CUDA를 1순위 타깃으로 삼는다.

그 결과:

  • 어떤 클라우드(AWS, Azure, GCP, Oracle 등)를 쓰든
    **“GPU를 쓰면 대체로 비슷한 개발 경험”**을 제공할 수 있고,

  • 온프레미스 데이터센터로 워크로드를 옮기더라도
    “GPU 코드·모델·툴을 그대로 가져갈 수 있는” 이동성이 확보된다.

즉, CUDA는 본질적으로는 폐쇄지만,
사용자·툴·코드가 워낙 많아져서 **“폐쇄이면서도 사실상의 공용 표준”**처럼 작동하는 특이한 상태에 있다.

데이터센터·클라우드 사업자 입장에서 보면:

  • GPU에 투자하면

    • 여러 고객·다양한 워크로드를 유치할 수 있고,

    • 장기적으로도 “이 하드웨어가 쓸모 없어질 가능성”이 상대적으로 낮다.

  • 이는 Capex·리스크 관리 측면에서 매우 큰 장점이다.

3-2. 구글 TPU: 성능·TCO는 매력적이지만, 선택 옵션을 줄이는 구조


TPU는 다른 그림이다.

  • 성능·전력·TCO에서는

    • LLM 추론·광고·검색·추천 등에서
      GPU 대비 경쟁력이 높은 영역이 분명히 있다.

  • 그러나 실제 배치는

    • 대부분 구글 내부 워크로드 + Google Cloud TPU 고객에 한정된다.

이 말은 곧,

  • 다른 클라우드나 온프레미스 데이터센터 사업자는
    TPU를 자유롭게 사서 자기 인프라에 깔 수 없다
    는 뜻이다.

  • TPU에 최적화된 워크로드가 많아질수록,
    그 워크로드는 GCP에서 벗어나기 어려운 락인 구조가 된다.

데이터센터·클라우드 사업자 입장에서 보면, TPU는 다음과 같이 보일 수 있다.

  • 구글 입장에서는

    • “우리 내부·GCP 고객 워크로드의 TCO를 낮춰주는 전략 자산”이지만,

  • 나머지 사업자 입장에서는

    • “우리가 채택할 수 있는 범용 옵션은 아니고,
      오히려 구글의 락인을 강화하는 도구”에 가깝다.

이 때문에 AWS·Azure·Oracle 등은
각자 Trainium·Inferentia·Maia·AMD 협업 등 자기 전용칩 라인업을 별도로 키우려는 것이다.

남의 폐쇄 생태계(TPU)에 깊게 얹히면,
장기적으로 자기 고객에게 제공할 수 있는 선택 옵션이 줄어드는 리스크가 크기 때문이다.

3-3. 폐쇄성의 트레이드오프: TCO vs 옵션가치


정리하면, 데이터센터/클라우드 사업자 입장에서:

  • GPU 중심 전략

    • 장점:

      • 어떤 클라우드를 쓰든, 온프레로 나가든
        워크로드를 비교적 쉽게 이동시킬 수 있다.

      • 고객 입장에서도 “GPU 기반 서비스”는
        다른 사업자로 옮겨도 재사용성이 높다.

    • 단점:

      • 엔비디아 마진 + GPU 프리미엄을 고스란히 부담해야 한다.

      • 특정 워크로드에서는 전용칩 대비 TCO가 떨어진다.

  • 전용칩(TPU 등) 비중 확대

    • 장점:

      • 특정 워크로드에서 토큰/W, 토큰/$를 크게 개선할 수 있다.

      • 클라우드 사업자 입장에서는
        엔비디아에 지불하던 마진 일부를
        자기 P&L 안으로 내재화할 수 있다.

    • 단점:

      • 특정 벤더·플랫폼에 워크로드가 깊게 묶이는 락인 구조가 된다.

      • 나중에 다른 칩·다른 클라우드로 옮기고 싶을 때
        포팅 비용·엔지니어링 리스크가 커진다.

그래서 합리적인 균형은 대체로 다음과 같은 모습에 수렴할 가능성이 크다.

  • 개척·훈련·새 워크로드 → GPU 중심,

  • 충분히 크고 안정된 워크로드 → 각자 전용칩 존으로 이관,

  • 다만

    • 전용칩 비중을 너무 과도하게 키우면
      “우리가 쓸 수 있는 옵션”이 줄어든다는 점을 항상 의식하면서

    • TCO vs 옵션가치를 저울질하는 구조.

이때 “폐쇄성 리스크”는
애플의 폐쇄적 전략이 결국 AI 경쟁에서 뒤처지는 요인으로 작용한 것처럼,
데이터센터·클라우드 사업자의 전략적 선택이라는 층위에서도 작동한다는 점이 중요하다.


4. 결론: 락인·인프라·폐쇄성의 균형 위에서 커지는 AI 파이


지금까지의 논의를 한 줄로 압축하면 다음과 같다.

  1. 단기(1~3년)

    • 제미나이 3.0이 나와도,
      상위권 모델 간 성능 수렴,
      ChatGPT·CUDA 생태계의 강력한 락인,
      전력·데이터센터라는 물리적 병목 때문에
      OpenAI·NVIDIA 진영이 단숨에 위축될 가능성은 낮다.

    • 오히려 시간이 지날수록 사용자·워크플로·코드가 쌓이며 락인은 강화될 가능성이 크다.

  2. 중장기(5년 이상)

    • 병목은 FLOPS가 아니라 메모리와 전력이고,

    • 전용칩 + 계층형 메모리가
      DeepSeek 때처럼 제번스의 역설을 작동시켜
      “AI 한 단위당 비용↓ → AI 총수요·총토큰↑” 경로를 밟을 가능성이 크다.

    • 이 과정에서

      • AI 전체 파이는 커지고,

      • GPU 절대 사용량도 계속 늘어나지만,

      • 전용칩·ASIC의 성장 기울기가 더 가팔라져
        GPU의 산업 내 점유율은 서서히 낮아지는 구조
        가 나타날 수 있다.

  3. 폐쇄성·락인 관점

    • NVIDIA GPU는 본질적으로는 폐쇄(CUDA)지만,
      워크로드·툴·고객이 워낙 많아
      **“폐쇄이면서 사실상의 공용 표준”**처럼 작동한다.

    • 구글 TPU·각사 전용칩은
      개별 사업자 입장에서 TCO 개선 효과가 크지만,
      자기·타 사업자의 “운신의 폭”을 줄이는 폐쇄성 리스크를 동시에 안고 있다.

    • 따라서 데이터센터·클라우드 사업자는
      GPU와 전용칩 사이에서 TCO vs 옵션가치를 항상 맞바꾸는 게임을 하고 있으며,
      이 균형이 향후 5~10년 AI 인프라 지형을 결정할 것이다.

결국 앞으로의 AI 경쟁은
“누가 FLOPS를 더 많이 때리는가”가 아니라,

플랫폼 락인(ChatGPT·CUDA) ×
인프라·전력·메모리 효율(전용칩·계층형 메모리) ×
폐쇄성·선택 옵션(락인을 얼마나 활용·관리하는가)

 

이 세 축의 곱으로 결정될 것이다.

단기에는 GPU·ChatGPT 락인과 제품 속도가,
중장기에는 전용칩·메모리·전력 인프라와 폐쇄성 관리 능력
각각 더 큰 비중으로 작동하게 될 것으로, 
GPU, ASIC의 하이브리드 사용형태가 꽤 장기간 이어질 것으로 본다.

OpenAI와 NVIDIA GPU 진영이 마치 곧 붕괴할 것처럼 이야기하는 것은, 상당히 성급하고 과도하게 비관적인 반응에 가깝다고 본다.

무엇보다 AI 산업은 아직 극초기 단계에 있으며, 향후 OpenAI와 NVIDIA의 전략적 대응에 따라 산업 지형이 어떻게 바뀔지는 누구도 단정할 수 없다.

지금의 국면만을 근거로 장기적인 판도를 예측하는 것 자체가 애초에 큰 의미가 없을 수도 있다.

=끝

댓글 없음:

댓글 쓰기