2026년 2월 5일 목요일

생각정리 176 (* Agent AI, VRAM)

Claude가 증명한 것, 그리고 2030년까지 VRAM 수요가 폭증할 수밖에 없는 이유


0. 왜 다시 “메모리”인가


CHATGPT와 Gemini만 쓰다가, Claude 4.5 Sonnet을 하루 종일 써본 소감은 단순했다.
긴 이전 컨텍스트에 대한 이해를 유지함(*맥락의 이해)과 동시에, 추론의 깊이·정교함이 한 단계 위에 있다는 느낌이었다.
개발자들이 말하는 “클로드가 프로젝트 전체를 이해한다”, “개인 최적화가 잘 되어 있다”는 이야기도 결국

  • 긴 컨텍스트에 대한 이해(*맥락의 이해)를 안정적으로 유지하고

  • 그 위에서 여러 번 생각하고, 고쳐 쓰고, 검증하는 추론 구조


에서 나온 결과라고 보는 것이 자연스럽다.

여기에 더해, Claude가 법률 SaaS로 진출하며 보여주는 모습은 분명한 시그널이다.

  • 이런 강화된 추론 능력이 실제 돈 버는 실무에 투입되기 시작했다는 것,

  • LLM 기반 SaaS의 수익화(monetization)가 “이론”이 아니라 현실이 되었다는 것.

이 사실은 단순히 Anthropic 하나의 문제가 아니라,
AI 하드웨어 전반의 CAPEX(훈련·추론 인프라 투자)를 더 공격적으로 늘려도 된다는 근거가 된다.

지금 금융시장에서 관측되는

  • 원자재,

  • 암호화폐,

  • 주식·채권 시장에서의 자금 유출

을, 단순히 “투기적 광풍”이 아니라

AI 하드웨어·데이터센터 같은 실물투자의 더 높은 ROIC를 향한 자본 재배치로 해석해 볼 수도 있다.
(혹은 AI SaaS·PaaS 초기 투자 PE들의 일시적인 패닉셀에 기인한 일시적 수급 왜곡일 수도 있고.)

돌이켜보면, 2023년 해외 펀드 런칭 당시만 해도
우리 역시 관성에 따라 “AI 시대 승자는 SaaS·PaaS 레이어”라고 생각하곤 했다.
그러나 이후 기술의 진화 방향은

  • LLM 사업자가 기존 SaaS·PaaS를 대체하거나 내재화하기 시작했고,

  • 점차 AI 하드웨어, 특히 메모리, 그중에서도 VRAM으로 귀결되는 구조를 드러내고 있다.

그리고 오늘 아침 발표된 ChatGPT 5.3의 Agent 기능은,
이러한 흐름 위에서 또 한 번의 VRAM 수요 레벨업 이벤트가 될 수 있다는 생각이 들어,
복잡한 생각들을 아래와 같이 정리해 본다.


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


https://x.com/neilsuperduper/status/2019486017703547309/photo/3


(클로드를 다시 앞서기 시작한 GPT 5.3)


1. Claude가 증명한 것: “LLM 기반 SaaS는 당장 돈이 된다”


1-1. 더 이상 “미래의 이야기”가 아니다


Anthropic은 Claude Code / Claude Cowork를 앞세워 엔터프라이즈 시장을 파고들고 있다.
대표 사례로 자주 언급되는 곳이 **IG Group(파생상품 트레이딩 회사)**이다.

공식 고객 스토리에 따르면 IG Group은 Claude 도입 후:

  • 애널리틱스 팀 기준 주당 약 70시간의 업무 시간을 절감

  • 일부 유즈케이스에서 생산성이 100% 이상 개선

  • 약 3개월 만에 ROI(투자금 회수) 달성
    (출처: https://claude.ai/customers/ig-group)

Anthropic은 별도의 리포트에서 실제 사용자 대화 10만 건을 분석해,
Claude가 노동 생산성을 어떻게 끌어올리는지 경제적 효과를 추정하기도 했다.
(출처: https://www.anthropic.com/research/estimating-productivity-gains)

이 정도면,

“LLM 기반 SaaS(코딩, 애널리틱스, 마케팅, 법률 등)는
더 이상 먼 미래의 Monetization이 아니라 이미 실무에서 돈이 되는 툴”


이라고 말해도 무리가 없다.

1-2. 이게 왜 CAPEX(훈련·추론 인프라 투자)를 정당화하나


구조는 단순하다.

  • Claude, ChatGPT, Kimi 같은 서비스는 토큰 단위로 과금한다.

  • 사용자는 **“사람이 할 일보다 AI가 하게 하는 것이 더 싸고 빠르다”**고 믿는 한,
    더 많은 토큰을 기꺼이 쓴다.

  • 기업 입장에서는 모델이 더 똑똑하고, 더 긴 문맥을 보고, 더 자동으로 일을 잘할수록
    유료 사용량이 자연스럽게 올라간다.

따라서,

더 큰 모델, 더 긴 컨텍스트, 더 많은 에이전트
= 더 높은 VRAM/HBM CAPEX
→ 동시에 더 많은 유료 SaaS 매출


이라는 구조가, 이미 실무 데이터로 입증되기 시작한 셈이다.


2. 메모리가 왜 병목이 되었나: KV 캐시 한 번만 짚고 가자


LLM 내부에서 일어나는 일을 아주 단순하게 줄이면 다음과 같다.

  1. 입력 텍스트를 토큰으로 쪼갠다.

  2. 각 레이어·어텐션 헤드마다 **Key/Value 벡터(K, V)**를 만든다.

  3. 새 토큰을 만들 때마다,
    지금까지 나온 토큰들의 K/V를 참조해 다음 토큰 확률을 계산한다.

이때 쌓이는 것이 바로 **KV 캐시(KV cache)**이다.

  • 컨텍스트가 4K → 128K가 되면
    KV 캐시는 컨텍스트 길이에 비례해 선형 증가한다.

  • 여기에 **배치 크기(동시 사용자 수)**가 곱해지면,
    총 KV 메모리는 컨텍스트 × 동시성에 비례해 커진다.

  • GPU VRAM(HBM)은 한정적이기 때문에,
    긴 컨텍스트 + 대량 동시 처리에서 KV 캐시가 결정적인 병목이 된다.

이 때문에 엔비디아는

핵심은 한 줄이다.

“더 오래 생각하고, 더 많은 문서를 한 번에 보고,
더 많은 사용자를 동시에 받으려면,
VRAM/HBM에 쌓아야 할 KV 캐시가 폭증한다.”


그래서 예전처럼 **FLOPS(연산량)**만이 아니라,
**VRAM/HBM(고속 메모리)**이 AI 인프라의 핵심 자원으로 올라온 것이다.


3. 에이전트 경쟁이 시작되면, 메모리는 어떻게 달라지나


3-1. Kimi K2.5: Agent Swarm과 VRAM 폭증의 구조

중국 Moonshot AI의 Kimi K2.5는 기술 블로그에서
자신들의 핵심 차별점으로 Agent Swarm을 내세웠다.

  • 복잡한 태스크를 처리할 때
    최대 100개의 서브 에이전트를 동적으로 생성하고
    최대 1,500번의 도구 호출을 병렬로 수행한다.

  • 이 덕분에 전통적인 단일 에이전트 구조 대비 최대 4.5배 빠른 처리 시간을 달성했다고 주장한다.
    (출처: https://www.kimi.ai/blog/kimi-k2-5)

직관적으로는 “똑똑한 비서 1명”이 아니라
**“작은 비서실 100명이 동시에 달라붙는 구조”**에 가깝다.

여기서 중요한 질문은 하나이다.

“왜 에이전트 수가 늘어나면 VRAM이 그렇게 많이 필요해지는가?”


3-1-1. 에이전트가 많아지면 추가로 드는 메모리들


에이전트가 1개일 때는 단순하다.

  • 한 모델에 일을 맡기고

  • 입력 → 출력만 주고받으면 된다.


이때 메모리의 대부분은

  • 모델 파라미터

  • 해당 세션의 KV 캐시

가 차지한다.


그러나 에이전트가 10개, 100개로 늘어나는 순간,
“분배하고, 중간 결과를 나누고, 다시 합치는” 시스템 전체가 추가로 필요해진다.
이 과정에서 다음 항목들이 VRAM을 더 갉아먹는다.

  1. 라우팅 정보

    • 어떤 토큰/서브태스크를 어느 에이전트에게 보낼지,
      각 에이전트에 주는 게이트 값(가중치) 등을 저장하는 메모리.

  2. 보내기용 버퍼(dispatch buffer)

    • 토큰을 “에이전트별로 묶어서” 보내기 위해
      데이터를 재배열해 담아두는 임시 공간.

  3. 되돌리기/합치기용 버퍼(combine buffer)

    • 여러 에이전트가 계산한 결과를
      원래 순서대로 재배열하고
      가중합으로 합쳐 하나의 출력으로 만드는 임시 공간.

  4. 패딩 메모리

    • 어떤 에이전트에는 토큰이 많이 가고,
      어떤 에이전트에는 거의 안 갈 수 있다.

    • GPU는 정형화된 크기를 선호하기 때문에
      토큰이 적게 배정된 에이전트 쪽에 **빈칸(패딩)**을 넣어 크기를 맞추고,
      이 패딩도 VRAM을 차지한다.

  5. 각 에이전트 내부의 activation 텐서

    • 각 에이전트가 계산하는 동안 잠깐씩 생겼다 사라지는 중간 결과 텐서들.

    • 에이전트 수와 배치 크기가 커질수록 이 activation도 함께 커진다.

정리하면,

  • KV 캐시는 원래도 필요하던 “대화 기록용 메모리”이고,

  • 에이전트가 많아지면 여기에
    “분배·통신·재조립”을 위한 추가 메모리 층이 한 겹 더 올라간다.


그래서 Agent Swarm 같은 구조는

“KV 캐시 폭발 + 라우팅/버퍼/패딩/activation 폭발”


이라는 이중 부담을 VRAM에 준다고 이해하면 된다.

이 때문에 엔비디아는

  • HBM 용량을 키우고

  • NVLink/NVSwitch로 수십~수백 개 GPU를 하나의 거대한 메모리 풀처럼 묶는
    GB200 NVL72 같은 랙 단위 시스템을 내놓고 있다.
    (GB200 NVL72 소개: https://www.nvidia.com/en-us/data-center/gb200/)


3-2. OpenAI Frontier: 회사 전체를 에이전트로 깔겠다는 선언

OpenAI의 Frontier는 아예 엔터프라이즈용 에이전트 플랫폼이다.

  • 기업이 여러 에이전트를 정의·온보딩·권한 관리·평가하고

  • 기존 시스템(SaaS, DB, 내부툴)에 붙여
    **“AI 동료(coworker)”**처럼 쓰게 하는 것이 목표이다.

  • Frontier는 에이전트에게
    공유 비즈니스 컨텍스트, 메모리, 평가·피드백 루프, 권한·경계를 제공해
    조직 내 파편화된 AI 도입을 통합하는 허브가 되겠다고 한다.
    (출처: https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)


핵심 문장은 대략 이런 취지이다.

“앞서가는 기업에서는 올해 말이면
대부분의 디지털 업무가
**‘사람 + 다수의 에이전트’**에 의해 수행될 것이다.”


즉 Frontier는 모델 성능 자체보다,
**“에이전트를 얼마나 많이·넓게 깔아서 실제 업무에 투입하느냐”**에 초점을 둔 플랫폼이다.

3-3. Claude Code / Cowork: 이미 돌아가는 에이전트 팀


Anthropic의 Claude Code는 개발자 IDE 안에서
사실상 “코드 담당 에이전트 팀”처럼 동작한다.

  • 더버지에 따르면, Anthropic 내부 개발자는
    5개 이상의 Claude 에이전트를 클라우드에서 상시로 돌리며
    한 달에 300개 이상의 PR을 날리는 수준
    까지 도달했다고 한다.

  • 엔터프라이즈 고객 중에는
    코드 작성의 70~90%를 Claude가 담당하는 사례도 보고되고 있다.
    (출처: https://www.theverge.com/2025/1/10/claude-code-opus-4-6-release)


이 사례들이 공통으로 보여주는 것은 명확하다.

앞으로의 경쟁은 “모델 하나 vs 모델 하나”가 아니라
“에이전트 네트워크 vs 에이전트 네트워크”가 된다.


그리고 이 구조에서 VRAM·KV 캐시 수요는 곱셈 효과를 갖게 된다.


4. VRAM 수요를 위한 개념 모델: L × A × T × V × U


이제부터는 **엄밀한 수식이 아니라, 직관을 위한 “개념 모델”**임을 먼저 밝힌다.

LLM/에이전트 시스템의 VRAM 수요는 대략 다음 요소들에 비례한다고 볼 수 있다.

  • L: Context length

    • 한 에이전트가 한 번에 보는 토큰 길이

    • 예: 8K, 32K, 128K, 1M …

  • A: Number of agents

    • 같은 업무를 위해 동시에 돌아가는 에이전트 수

    • 예: 단일 모델 1개 vs Swarm 10~100개

  • T: Session length

    • 한 세션(티켓·프로젝트·케이스)이 유지되는 턴 수/시간

    • 단발 Q&A냐, 며칠짜리 업무냐

  • V: Verification loops

    • 에이전트가 자기 검증·재시도·평가를 위해
      내부적으로 답을 여러 번 고쳐 쓰는 루프 수

  • U: Concurrent sessions

    • 동시에 돌아가는 세션 수(동시 사용자·동시 업무량)

개념적으로는 이렇게 쓸 수 있다.

VRAM 수요 ∝ L × A × T × V × U


실제 시스템의 메모리 사용량은 이보다 훨씬 복잡하고,
양자화·KV 캐시 공유·오프로딩 같은 최적화가 이 곱을 많이 깎아낸다.

그러나 **“어떤 항이 커질수록 VRAM 수요가 왜 폭증하는지”**를 이해하는 데에는
이 정도 단순화로도 충분하다.


5. 2025→2030, 세 가지 시나리오 (개념적 밴드)


이제 2025년을 기준으로 세 가지 시나리오를 설정해 본다.
(모든 수치는 **“가능한 범위를 가늠하기 위한 가설”**이지, 예측이 아니다.)

5-1. 기준선: 2025년 전통 LLM 서비스

  • L₀ ≈ 8K

  • A₀ = 1

  • T₀ = 1 (짧은 Q&A)

  • V₀ = 1 (재검증 거의 없음)

  • U₀ = 1 (정규화된 동시성)

이때 VRAM 수요를 1로 정한다.

5-2. 시나리오 ① 보수적 (Conservative)

에이전트는 일부 고급 업무에만 쓰이고,
대부분의 서비스는 여전히 “단일 에이전트 + 짧은 컨텍스트” 중심인 경우.

  • L: 8K → 32K (4배)

  • A: 1 → 3

  • T: 1 → 3

  • V: 1 → 2

  • U: 1 → 2


에이전트형 고급 워크로드 1개당 VRAM 계수는
수십~100배까지 늘어날 수 있다.

그러나 전체 워크로드 중 에이전트형 비중이 제한적이라고 보면,
AI 데이터센터용 고속 메모리(주로 HBM+DRAM) 수요는
2025→2030 동안 대략 5~10배 증가

보수적 밴드로 둘 수 있다.

5-3. 시나리오 ② 기준 (Base)


에이전트가 코딩, 리서치, 데이터 분석, 법률/컴플라이언스, 고객지원
고부가 지식 노동에서 **“기본 도구”**가 되는 경우.

  • L: 8K → 128K (16배)

  • A: 1 → 10 (여러 역할의 에이전트 팀)

  • T: 1 → 5 (티켓·프로젝트 단위 세션)

  • V: 1 → 3 (초안→검증→재작성)

  • U: 1 → 3 (에이전트 기반 워크로드 비중 증가)


이 경우, 에이전트형 고급 워크로드 1개당 VRAM 수요는
100~1,000배 수준까지 올라갈 수 있다.

최적화와 비에이전트 업무 비중을 감안하면,
AI 데이터센터용 고속 메모리 전체 수요는
10~20배 성장
정도를
“가능한 중심 시나리오 밴드”로 볼 수 있다.

5-4. 시나리오 ③ 공격적 (Aggressive)


“에이전트가 사실상 OS/업무 인터페이스가 된다”고 가정하는 상단 밴드이다.


이론상 개별 워크로드 VRAM 계수는
수천 배 이상까지도 치솟을 수 있다.

현실에서는 최적화·역할 분리·비에이전트 업무 등을 고려해야 하므로,
전체 AI 메모리 수요로 환산하면
20~30배 이상 정도를 상단 밴드로 열어두는 정도가 적절하다.

참고로, OpenAI의 “Stargate” 데이터센터 프로젝트에 대한 외부 분석에서는
2025년 기준으로만도 글로벌 DRAM 생산의 최대 40%를 OpenAI 한 회사가 쓸 수 있다는 전망이 나온 바 있다.

(출처: https://www.forbes.com/sites/janakirammsv/2024/04/12/openai-stargate-and-the-future-of-ai-infrastructure/)


이런 흐름이 여러 하이퍼스케일러로 확산된다고 가정하면,
20~30배 수준의 상단 밴드는
“과장”이라기보다 공격적이지만 상상 가능한 구간으로 해석할 수 있다.


6. “Frontier급 에이전트를 모두가 미친 듯이 쓰기 시작하면” VRAM 병목은 어떻게 터질까


이제, 질문 하나를 정면으로 들어보자.

“Frontier급 에이전트가 너무 좋아서,
OpenAI 전체 사용자들이 동시에 에이전트를 미친 듯이 쓰기 시작하면
VRAM 병목은 어떻게 될까?”


앞서 정의한 VRAM 개념식에서 보면,
이 상황은 사실상 **U(동시 세션 수)**가 갑자기 폭증하는 경우이다.

  • L, A, T, V는 이미 에이전트 도입으로 커진 상태

  • 여기에 U가 한 번에 튀어 오르면
    전체 VRAM 수요는 순식간에 “곱셈 결과”로 치솟는다.

6-1. 인프라 관점: 순서대로 벌어지는 일

  1. GPU HBM이 먼저 꽉 찬다

    • 각 GPU에는 이미

      • 모델 파라미터

      • 일부 KV 캐시

      • 에이전트 상태
        가 올라가 있다.

    • 동시 세션 U가 폭증하면

      • 배치당 컨텍스트 수

      • 세션별 KV 캐시
        가 합쳐져 HBM 사용률이 100% 부근까지 오른다.

  2. HBM이 꽉 차면, 속도와 실패율이 튀기 시작한다

    • 더 넣을 자리가 없거나,

    • KV 캐시를 DRAM/SSD로 자주 밀어냈다 다시 읽어야 해서
      지연시간(latency)이 급격히 악화된다.

    • 이때부터는

      • 응답 딜레이 증가

      • 간헐적 에러

      • 타임아웃
        이 체감되기 시작한다.

  3. 서비스 레벨에서 품질/기능을 줄이는 방향으로 수축한다


클라우드 사업자가 쓸 수 있는 전형적인 카드:

  • Rate limit / 쿼터

    • 사용자·조직별 QPS, 토큰량, 동시 세션 수를 제한

    • 일부 요청을 “거절”해서 전체 시스템 붕괴를 막는다.

  • Degrade 모드(품질 저하 모드)

    • 긴 컨텍스트 대신 자동 요약 후 짧은 컨텍스트로 재질의

    • 에이전트 병렬 실행 A를 줄이고, 가능하면 순차 실행

    • 검증 루프 V를 줄여 초안→1회 검증 정도로 제한

    • Frontier 에이전트에서 일부 고급 기능(장기 히스토리, 복수 에이전트 협업)을 일시 봉쇄

  • 모델 다운그레이드

    • 동일한 요청이라도

      • 상위 요금제/엔터프라이즈: 큰 모델 유지

      • 무료/저가 요금제: 작은 모델로 fallback

    • GPU당 더 많은 세션을 태우기 위해 품질을 다운시킨다.

  • KV 캐시 오프로딩 강화

    • VRAM이 가득 차면
      KV를 DRAM/SSD/원격 스토리지로 더 많이 밀어내고,
      필요할 때마다 다시 올려쓴다.

    • VRAM 병목은 완화되지만, 지연시간은 더 늘어난다.

정리하면, Frontier급 에이전트 사용량이 갑자기 폭발할 경우:

단기적으로는 VRAM 병목 → 속도 저하·에러·기능 제한이 나타나고,
중기적으로는 “HBM/VRAM이 절대적으로 부족하다”는 실측 데이터가 쌓이면서
다음 세대 CAPEX(메모리 증설)의 트리거로 작용하게 된다.


6-2. 에이전트 구조라서 더 심각한 이유

전통적인 챗봇이라면 U만 문제인데,
에이전트 구조에서는 이미 A, T, V까지 커져 있는 상태라 병목이 더 심각해진다.

  • 하나의 “요청”이 사실상

    • 플래너 에이전트

    • 다수의 서브 에이전트

    • 도구 호출

    • 재귀적 재질문·검증 루프
      로 쪼개져 있다.

  • 사용량이 폭증하면

    • U(요청 수)만 늘어나는 것이 아니라

    • 각 요청마다 내부에서 발생하는 에이전트 콜 수까지
      기하급수적으로 늘어난다.

그래서 백엔드 오케스트레이션 레이어는 피크 상황에서 보통 이렇게 조정할 수밖에 없다.

  • A(병렬 에이전트 수) 상한: 태스크당 에이전트 최대 N개, 그 이상은 순차

  • T(세션 길이)·재귀 깊이 제한: 너무 긴 에이전트 체인은 중간 요약 후 재시작

  • V(검증 루프) 축소: 평소 2~3회 돌리던 자기평가·재작성을 1회로 줄이거나 생략

즉, 피크에서 시스템이 하는 일은

L, A, T, V를 인위적으로 눌러
U 폭증을 겨우 감당하는 것


이라고 해석할 수 있다.

이 현상이 반복될수록,
**“에이전트 시대의 병목은 연산이 아니라 VRAM/HBM”**이라는 사실이
운영 데이터로 계속 확인되며,
결국 메모리·인터커넥트·데이터센터 CAPEX를 더 키우는 방향으로
경영진의 의사결정을 밀어붙이게 된다.


7. 그래프로 보는 직관: 2025→2030 VRAM 지수 시나리오


앞의 세 가지 시나리오(보수·기준·공격)를
단순한 지수 함수로 이어서 2025→2030 그래프로 그려보면 다음과 같다.

  • 2025년 AI 데이터센터용 VRAM 수요를 1.0으로 정규화하고,

  • 2030년에

    • 보수적: 7.5배,

    • 기준: 15배,

    • 공격적: 25배
      수준이 되도록 지수곡선을 맞춘 것이다.

세 곡선의 공통 특징은:

  • 2025→2027 구간에서는 비교적 완만하다.

  • 2028~2030 구간에서 기울기가 눈에 띄게 가팔라진다.

  • 이것이 바로 **“에이전트 시대에 메모리 수요가 선형이 아닌 지수곡선을 탈 수 있다”**는 구조를 직관적으로 보여준다.

자세히 보면,

  • Conservative:

    • 2027년 ≈ 2.7배, 2029년 ≈ 5배, 2030년 7.5배

  • Base:

    • 2027년 ≈ 3.6배, 2029년 ≈ 8.7배, 2030년 15배

  • Aggressive:

    • 2027년 ≈ 4배, 2028년 ≈ 7배, 2029년 13배+, 2030년 25배

이 그래프의 목적은 정확한 예측이 아니라,

“에이전트 도입 강도에 따라
같은 5년(2025→2030)이라도
메모리 수요 레벨이 1자릿수 배에서 25배 이상까지
크게 벌어질 수 있다.”


구조를 시각적으로 설명하는 데 있다.





8. 정리: Claude가 연 “현재형 수익”, Frontier·Kimi가 여는 “에이전트 시대”, 그리고 메모리


핵심을 다시 모으면 다음과 같다.

  1. Claude는 LLM 기반 SaaS가 이미 “지금 돈이 되는 사업”임을 증명했다.

  2. 이는 더 큰 모델·더 긴 컨텍스트·더 많은 추론 패스에 투자해도
    그만큼 매출로 회수 가능하다는 경제적 근거
    를 제공한다.

  3. 동시에 Kimi K2.5의 Agent Swarm, Anthropic의 Claude Code/팀,
    OpenAI의 Frontier/ChatGPT 5.3 Agents가 보여주듯,
    경쟁의 축은 **“모델”에서 “에이전트 네트워크”**로 이동하고 있다.
    (예: https://www.kimi.ai/blog/kimi-k2-5,
    https://www.theverge.com/ai-artificial-intelligence/605515/openai-frontier-ai-agent-platform-management)

  4. 에이전트 구조에서는
    컨텍스트 길이(L), 에이전트 수(A), 세션 길이(T), 검증 루프(V), 동시성(U)
    다섯 항이 모두 커지면서,
    VRAM/KV 캐시 수요는 단순 선형을 넘어 곱셈 구조로 커진다.
    (KV 캐시 및 오프로딩:
    https://developer.nvidia.com/blog/optimizing-inference-for-long-context-and-large-batch-sizes-with-nvfp4-kv-cache/
    https://blocksandfiles.com/2026/01/06/nvidia-standardizes-gpu-cluster-kv-cache-offload-to-nvme-ssds/)

  5. 2025→2030에 대해

물론 실제 결과는

  • 규제 환경,

  • 모델·시스템 최적화 속도,

  • 클라우드 사업자 CAPEX 계획,

  • 경기 사이클

에 따라 크게 달라질 수 있을 것이다.

그럼에도,

“에이전트 경쟁이 본격화되는 한,
메모리는 연산보다 더 중요한 전략 자원이 된다.”


는 방향성 자체는
지금 나온 기술 발표·고객 사례·CAPEX 시그널들과 매우 잘 들어맞는다.

Claude와 같은 LLM 기반 SaaS 사업자

  • “VRAM을 태워 얻은 추론 능력”이
    실무와 수익으로 곧바로 연결되는 현재형 증거
    이고,


OpenAI·Google·엔비디아·메모리 업체들은

  • 이 구조를 전제로
    훈련·추론 인프라 CAPEX를 한 단계 더 올려도 된다
    정당성을 확보해 가는 중이라고 볼 수 있다.


Yahoofinance

#글을 마치며


" 맥락은 사고의 원동력입니다.
마치 사람이 기억하기 위해 메모를 하듯이,
AI 에이전트도 학습한 내용을 재사용할 수 있도록 작업을 저장해야 합니다(=메모리)."


- Kevin Deierling,
  Senior Vice President of Networking, NVIDIA.


만약 이 가설이 맞다면, 에너지 수요는 어떤 방향으로 재편될까?
생각만 더 복잡해진다.

투자 세계도 AI 확산으로 인해,
‘스토리’나 ‘감’에 기대기보다
과학계처럼 가설을 세우고, 데이터를 통해 검증하며,
논리적으로 반증 가능성을 점검하는 능력
이 점점 더 중요해지는 국면에 들어서는 듯하다.

=끝

2026년 2월 4일 수요일

생각정리 175 (* Anthropic Claude AI)

0. 메모리 급락을 맞고 나서야 보이기 시작한 것들


전날 미국장에서 메모리·반도체가 크게 밀린 뒤, 다시 Anthropic Claude를 처음부터 공부하게 됐다.

처음 아래 같은 차트와 기사들을 봤을 때는 솔직히
“그래서 뭐 어쩌라는 건데?” 정도의 느낌이었는데,
이제는 “아, 이게 진짜 시장이 반응할 만큼 중요한 이벤트였구나” 하는 정도의 감이 생겼달까..




어쨌든 **“시장이 실제로 움직였다”**는 사실이 중요하다.
그래서 이번 기회에 관련된 생각과 리서치를 한 번에 정리해 둔다.


1. 1월 말 소프트웨어·메모리 급락의 출발점: Anthropic와 ‘SaaS-pocalypse’


1-1. 촉발 요인: Cowork 플러그인 11개, 그중 “법률 플러그인”


2026년 1월 30일, Claude를 만든 Anthropic은 데스크톱 에이전트 앱인 Claude Cowork에 붙일 수 있는 오픈소스 플러그인 11개를 공개했다.
특히 시장을 자극한 것이 법률 업무 자동화 플러그인(Legal) 이다.

Anthropic 공식 플러그인 설명에 따르면, 이 플러그인은 다음을 자동화한다.

  • 계약서·문서 검토

  • 위험 조항(Harmful Clauses) 표시

  • NDA(비밀유지계약) 분류·검토

  • 컴플라이언스(규정 준수) 워크플로

  • 정형화된 법률 브리핑·답변 템플릿 작성

Anthropic Legal 플러그인 소개 페이지 (Claude)
GitHub 오픈소스 템플릿 (GitHub)

즉, “기업 내 인하우스 변호사 팀이 돈 받고 하는 반복적인 법률 실무”의 상당 부분을 에이전트가 처리하기 시작했다는 신호로 읽힌 것이다.


Cowork 플러그인 런칭을 다룬 기사들에서는, Anthropic이 판매 중인 플러그인 템플릿을 통해
법률, 재무, 세일즈, 마케팅 등 9~11개 직무에서 Claude가 “도메인 전문가처럼” 행동하도록 만들 수 있다고 설명한다. (Blockchain News)

1-2. 하루 만에 2,850억 달러 증발, “SaaS-pocalypse”

이 발표 직후 하루 동안, 글로벌 소프트웨어·데이터·IT 서비스 주식에서 약 2,850억 달러 시가총액이 증발했다는 분석이 나왔다.

이는 The Times of India가 요약한 기사에서 “하루 만에 소프트웨어 주식에서 2,850억 달러가 사라졌다”고 직접 언급된다. (The Times of India)




유럽 시장에서는 가디언 보도처럼, RELX(LexisNexis), Sage, Wolters Kluwer, Pearson, London Stock Exchange Group(LSEG) 등 법률·데이터·출판·거래소 소프트웨어 기업들이 **10% 안팎, 톰슨로이터는 18%**까지 급락했다. (가디언)




미국에서는 WSJ

  • S&P Global

  • FactSet

  • Intercontinental Exchange(ICE)

  • MSCI

  • LSEG


같은 금융·법률 데이터 업체들까지 두 자릿수 하락을 기록했다고 정리한다. (월스트리트저널)

이 일련의 움직임은 여러 매체에서 **“SaaS-pocalypse(소프트웨어 종말론)”**이라는 별칭으로 불렸다. (The Times of India)

투자자가 읽은 메시지는 매우 단순하다.

“이제 AI는 초급 변호사·애널리스트·컨설턴트가 하던 실무
직접 수행하는 단계로 들어섰다.”


그래서 매도는,

  1. 법률·데이터 소프트웨어

  2. → 일반 SaaS

  3. → 나스닥 성장주 전반

  4. 그리고 AI 인프라·반도체(메모리 포함)


까지 연쇄적으로 번졌다. 블룸버그·WSJ·NYPost·가디언 등은 이번 충격을 **“Anthropic의 새 AI 도구가 소프트웨어·금융·자산운용 섹터 전반에 걸친 2,800억 달러 매도 랠리를 촉발했다”**고 요약한다. (뉴욕 포스트)

따라서 어제(한국 기준) 메모리·반도체가 큰 폭으로 밀린 것은,

  • 메모리 업황이 갑자기 나빠져서가 아니라,

  • **“AI가 기존 소프트웨어·전문직 비즈니스 모델을 부숴버릴지 모른다”**는 공포가
    AI 인프라 주까지 확산된 결과에 가깝다고 보는 편이 타당하다.


2. Claude AI는 무엇이고, 왜 VS Code에서 Copilot과 다른가


2-1. Claude: “채팅봇”이 아니라 “업무 에이전트 플랫폼”으로


Claude는 처음에는 ChatGPT와 비슷한 대화형 LLM으로 시작했다.
그런데 2025~2026년 들어 방향이 명확히 “업무 에이전트 플랫폼” 쪽으로 이동하고 있다.

특히 개발 영역에서는 두 가지 축이 중요하다.

  1. Claude Code: VS Code용 확장(Extension)

  2. Cowork: 데스크톱 에이전트(지정한 폴더 안에서 파일을 읽고, 수정하고, 작업을 자동화)


Claude Code는 단순히 “코드 자동완성”을 넘어서서, 다음에 가까운 기능을 지향한다.

  • 프로젝트 단위로 전체 파일 구조를 이해하고

  • 구현 계획(Plan)을 세운 뒤

  • 여러 파일을 직접 수정하고

  • 터미널 명령(테스트·빌드)을 실행하고

  • 실패하면 로그를 읽고 다시 수정하는 반복 루프를 수행

Anthropic의 개발자 문서와 블로그는 Claude Code를 “코드베이스 전체를 탐색하고, 파일을 읽고·쓰기·실행까지 하는 자율형 개발 에이전트”로 포지셔닝한다. (Anthropic)

반면, GitHub Copilot은 출발점이 다르다.

  • 내가 지금 치고 있는 한 줄·한 함수의 자동완성

  • IDE 안에서의 “스마트한 코드 추천”에 최적화된 보조 도구

따라서 VS Code 안에서의 체감은 대략 이렇게 정리할 수 있다.

  • Copilot = 키보드 옆에 앉아 있는 똑똑한 비서

  • Claude Code = “이 기능 구현해 놔”라고 통째로 일을 맡길 수 있는 대리인(에이전트)

실제 기사들에서도 Claude Code를
“에이전트형 코딩 도구(agentic coding tool)”로 부르고,
Anthropic 내부 코드의 상당 부분이 이미 Claude로 작성되고 있다고 전한다. (Financial Times)

2-2. MS가 “당장 똑같이 못 따라붙는” 이유 (그러나 장기적으로는 따라갈 여지는 있음)


여기서 중요한 포인트는 **“MS가 기술이 없어서 뒤처진다”**는 식의 단순한 구도가 아니라는 점이다.

  1. 철학·거버넌스의 차이

  • MS는 거대 엔터프라이즈 고객(은행, 정부, 대기업)을 상대로 한다.
    이런 고객 입장에서 “AI가 코드 전체를 마음대로 수정한다”는 것은
    보안·감사·책임(Responsibility) 측면에서 매우 민감한 이슈다.

  • 그래서 Copilot은 지금까지 **“보조 도구 → 점진적 자율성 확대”**라는
    매우 점진적 전략을 택해 온 것으로 보인다.

  • 반대로 Anthropic은 **“실제 업무를 대행하는 에이전트”**까지
    비교적 빠른 속도로 실험하고 있다. Cowork 플러그인 구조 자체가
    “역할(role)·도구·절차를 한 번에 번들로 묶어, Claude가 ‘직군별 동료’처럼 행동하게 만드는 것”이다. (Creati.ai)

  1. 생태계 구조

  • VS Code는 MS가 만든 IDE지만, 확장은 누구나 올릴 수 있는 개방형 마켓이다.
    따라서 “VS Code = 곧 Copilot 독점”이 아니며,
    Claude Code 같은 경쟁자가 빠르게 뚫고 들어올 수 있다. (Visual Studio Marketplace)

  1. 엔터프라이즈 통제 vs 개발자 경험

  • MS 강점: 계정·보안·권한·온프레미스·컴플라이언스 같은 거버넌스·통합 능력

  • Anthropic 강점: **“개발자 경험(DX)”과 “에이전트 자율성”**을
    전면에 내세워 빠르게 점유율을 올리고 있다는 점

다만, MS는 여전히

  • GitHub 코드 허브

  • Azure 클라우드

  • 대규모 엔터프라이즈 계약·보안 체계

를 모두 쥐고 있다.
따라서 중장기적으로는 **“통제가 가능한 에이전트형 Copilot”**이라는 방향으로
충분히 반격이 가능한 구조이다.
지금은 VS Code 내에서 Claude가 에이전트 경험을 선도하고 있지만,
**“구조적으로 MS가 영원히 따라잡지 못한다”**고 말할 단계는 아직 아니다.


3. 법률 플러그인이 던진 메시지: “기능을 파는 SaaS”가 AI 플러그인으로 깎일 수 있다


이번 쇼크는 법률 업계만의 이야기가 아니다.


Anthropic의 Legal 플러그인은 요약하면:

  • 계약 검토

  • 위험 조항 하이라이트

  • 사내 규정·정책에 맞춘 자동 체크

  • 반복적인 질의응답·브리핑 자동화


를 하는 법률 실무 에이전트이다. (Claude)

중요한 점은,

  • 플러그인 템플릿이 오픈소스로 깔려 있고, (GitHub)

  • 비(非)개발자도 Cowork 앱 안에서 어느 정도 수정·설정이 가능하도록 설계됐다는 점이다. (Creati.ai)

투자자 입장에서는 이렇게 보인다.

“과거에는 특정 법률·컴플라이언스 업무를 효율화하는 SaaS를
비싼 구독료 받고 팔 수 있었다.
그런데 이제는 클라우드 LLM + 오픈소스 플러그인 조합으로
이 기능의 상당 부분을 대체할 수 있지 않나?”

 

실제로

  • 유럽의 RELX, Wolters Kluwer, Pearson, Sage, LSEG 등 출판·데이터·법률 기반 SaaS 기업이 10% 안팎으로 급락했고, (가디언)

  • 미국에서는 S&P Global, FactSet, ICE, MSCI 같은
    금융·법률 데이터 대기업들까지 주가가 크게 빠졌다. (월스트리트저널)

결국 이번 이벤트는,

“특정 기능(function)을 파는 SaaS”가
“범용 LLM + 도메인 특화 플러그인”으로 재조합될 수 있다

 

는 시나리오를 처음으로 시장이 체감한 사례라고 볼 수 있다.
그래서 소프트웨어 섹터 전체 밸류에이션에 구조적인 질문이 던져졌다.


4. 에이전트 강화 → AI 추론 가속 → VRAM·인프라 투자 확대


그리고 다보스에서 젠슨 황이 말한 “5계층 AI 케이크” + 제번스 역설


이제 핵심 질문으로 들어간다.

“VS Code에서 Claude 같은 에이전트가 강해질수록,
왜 AI 추론 시장이 가속되고,
GPU 메모리(VRAM)·HBM·서버 DRAM 수요에
구조적인 상방 압력이 생기는가?”


4-1. 에이전트형 코딩이 만드는 추론 패턴


에이전트형 코딩(Claude Code, Cowork)은 전통적인 “한 번 묻고 한 번 답하는 챗봇”이 아니다.
흐름은 보통 다음과 같다.

  1. 긴 컨텍스트 읽기

    • 프로젝트 전체 파일 구조, 스펙 문서, 로그, 이슈, 기존 코드 등

  2. 계획 수립

    • 어떤 파일을 어떤 순서로 바꿀지, 어떤 테스트를 돌릴지 계획

  3. 다중 파일 수정

    • 여러 파일을 동시에 열어 수정, 리팩토링, 테스트 코드 생성

  4. 테스트·빌드 실행 → 실패 원인 분석

  5. 다시 수정·재테스트 (반복 루프)

이 과정에서 모델은

  • **모델 파라미터(본체)**와

  • 지금까지의 대화·컨텍스트를 담는 KV 캐시(Key-Value Cache)

를 GPU 메모리(VRAM)에 올려 놓고 계속 계산한다.

NVIDIA와 여러 기술 리포트는, 긴 컨텍스트·대규모 배치·여러 에이전트가 동시에 돌아가는 환경에서
KV 캐시가 LLM 추론 비용과 메모리 사용량의 핵심 병목이라고 지적한다.

요약하면,

  • 에이전트형 코딩·법률 작업은
    “짧은 자동완성”보다 훨씬 더 긴 문맥 + 반복 추론 + 다중 도구 호출을 요구한다.

  • 이는 곧 **추론 시점에 필요한 GPU 메모리(VRAM, 특히 HBM + 서버 DRAM)**를
    지속적으로 끌어올리는 방향으로 작용한다.

4-2. 젠슨 황의 다보스 발언: “5계층 AI 케이크”와 인프라 선순환


2026년 다보스 포럼에서 NVIDIA CEO 젠슨 황은 AI를

  1. 에너지·전력 인프라

  2. 칩·메모리·컴퓨팅

  3. 데이터센터·클라우드

  4. 모델

  5. 애플리케이션


으로 이루어진 **“5계층 AI 케이크(five-layer cake)”**로 설명했다.

https://www.instagram.com/reel/DR229DXkhZe/


그는 AI를 **“인류 역사상 가장 큰 인프라 구축(the largest infrastructure buildout in human history)”**라고 부르면서,

핵심을 이렇게 정리한다.

  • AI는 단일 소프트웨어가 아니라 에너지 → 하드웨어 → 데이터센터 → 모델 → 애플리케이션에 이르는 풀 스택 인프라이다.

  • **가장 윗층(애플리케이션)**에서 추론이 활발해질수록,
    그 아래의 모델 운영,
    더 아래의 데이터센터·클라우드,
    다시 그 밑의 GPU·HBM·DRAM,
    최하단의 전력·냉각·송전망
    전부에 **추가적인 Capex(설비투자)**가 필요해진다.

다시 말해,

“위에서 추론이 늘수록 아래층 H/W·에너지 투자가 더 커지고,
그 인프라가 다시 위의 S/W 생태계를 키우는 선순환”

 

이라는 구조이다.

여기까지는 “위에서 많이 쓰면, 아래를 더 깔아야 한다”는 직관적인 이야기다.
하지만 이 선순환에는 하나가 더 붙는다. 바로 **“더 싸지면 더 많이 쓴다”**는 효과, 즉 제번스 역설이다.


https://blog.naver.com/lskjhc/223835246228


4-2-1. 토큰당 가격 하락과 제번스 역설: 더 싸질수록 더 많이 쓰게 된다


현재 대부분의 LLM API·AI SaaS는 “토큰당(per-token) 과금” 구조를 쓴다.
텍스트는 일정 길이의 토큰 단위로 쪼개지고,
1,000토큰당 얼마 식으로 사용량을 측정해 요금을 받는다.
(OpenAI, Anthropic, Google 등 주요 업체 모두 같은 구조를 사용한다.)

여기서 중요한 것은 **“토큰당 가격이 얼마나 빨리 떨어지고 있는가”**이다.

  • OpenAI CEO 샘 알트먼은 2025년 초 블로그에서
    “동일 수준의 AI를 쓰는 비용이 1년에 10배 정도씩 떨어지고 있고,
    GPT-4(2023 초)에서 GPT-4o(2024 중)까지 토큰당 가격이 약 150배 하락했다”고 밝혔다.
    그리고 “가격이 떨어지면 사용량은 훨씬 더 크게 늘어난다”고 직접 썼다.
    관련 보도 – Business Insider

  • 여러 분석 사이트는 2024~2025년 사이
    주요 LLM들의 토큰 단가가 계속 인하되고 있고,
    더 저렴한 모델(Flash, Haiku, Mini 등)이 쏟아져 나오면서
    **“AI 토큰이 거의 미터기 찍기 힘들 정도로 싸질 수 있다(too cheap to meter)”**는
    논의까지 하고 있다.

경제학에서 **제번스 역설(Jevons paradox)**은,
**“어떤 자원을 더 효율적으로 쓰게 되면, 단위 비용이 떨어져서 오히려 전체 소비가 더 늘어나는 현상”**을 말한다.

  • 석탄을 더 효율적으로 쓰는 증기기관이 나오면,
    석탄 단위당 비용이 내려가면서 석탄 총소비량은 되레 증가한다.

  • 연비 좋은 차가 나오면, km당 연료비가 떨어져서 사람들이 더 많이 이동하고,
    전체 연료 소비는 더 늘어날 수 있다.

이 논리를 AI 토큰에 그대로 대입하면 구조가 명확해진다.

  1. 토큰당 가격이 1/10, 1/100로 떨어진다.

  2. 기업·개발자는

    • “조금만 시험적으로 써보자”에서

    • “아예 서비스 전체를 AI 중심으로 재설계하자”로 태도를 바꾸게 된다.

  3. 한 번에 쓰는 토큰 수가 늘고,
    기능별·서비스별로 AI 호출이 붙으면서
    전체 토큰 사용량은 폭발적으로 증가한다.

즉, **“토큰 1개당 VRAM·전기·GPU 소모는 더 줄어들었을지 몰라도,
토큰 개수가 훨씬 더 많이 쓰이면서, 총 VRAM·총 전력 사용량은 오히려 증가”**하는 구조가 된다.
이게 바로 제번스 역설에 부합하는 AI 버전이다.

젠슨 황의 5계층 케이크와 합치면 그림이 이렇게 바뀐다.

  • 윗층(애플리케이션)에서 가격 인하 + 품질 개선이 동시에 일어나고,

  • 제번스 역설 때문에 사용량(토큰·쿼리 수)이 더 빠르게 늘어나며,

  • 그 결과 아래층(모델·데이터센터·GPU·메모리·전력)에 대한
    총 수요는 시간이 갈수록 더 커진다.

즉, Claude AI와 같은 에이전트형 애플리케이션이  늘어날수록 인프라 수요는,
AI 사용을 폭발시키면서 오히려 VRAM·HBM·서버 DRAM 수요를 장기적으로 키우는 쪽에 더 가깝다.


정리하면,

  • 에이전트형 애플리케이션이 늘수록
    GPU당 메모리 탑재량(HBM·서버 DRAM)은 더 필요해지고,

  • 이미 타이트한 공급·가격 환경에서
    토큰 단가 하락(효율 개선) + 제번스식 사용량 폭증이 겹치면,
    메모리 가격·투자에는 구조적인 상방 압력이 생길 가능성이 크다.


5. Blue Owl 같은 대체투자까지 왜 같이 얻어맞았는가


5-1. “소프트웨어 비즈니스 모델 → 프라이빗 크레딧 포트폴리오”의 연쇄


이번 소동은 소프트웨어·데이터 회사에 돈을 빌려주거나 투자한
프라이빗 크레딧(Private Credit)·대체투자 운용사까지 번졌다.

WSJ 마켓 라이브에 따르면,

  • Ares Management

  • Blue Owl Capital


같은 프라이빗 크레딧 운용사 주가가
“AI가 소프트웨어 기업 가치와 상환능력을 훼손할 수 있다”는 우려
동시에 큰 폭으로 하락했다.

논리는 단순하다.

  1. 소프트웨어·데이터 기업 가치 하락

  2. → 이들 기업에 대한 대출·지분 투자 포트폴리오 가치 하락

  3. → 프라이빗 크레딧·사모펀드 운용사(Blue Owl 등)에 대한
    “대출 회수·재융자 리스크” 우려 확대

여기에 이미 진행 중이던

  • AI 데이터센터 프로젝트의
    자금 조달 구조·수익성에 대한 의문,

  • 일부 대체투자 딜에서
    투자자 보호 조건을 강화하려는 움직임

이 겹치면서,

**“AI 수익화·Capex 지속성에 대한 의심

  • 과열된 AI 테마 포지션 언와인드

  • 시장 전반 리스크오프”**

 

가 한꺼번에 터진 장면으로 볼 수 있다.

5-2. 이 과정에서 메모리까지 같이 매도됐다면, 왜 “기회” 논리도 성립하는가


메모리 섹터에 대해서는 다음과 같이 나눌 수 있다.

  1. 단기 심리

  • “AI 소프트웨어 비즈니스 모델이 흔들리면,
    AI 인프라 투자도 생각만큼 오래 지속되지 않을 수 있다”는 불안

  • → AI 테마 전반에 대한 리스크오프

  • → 메모리·HBM까지 포괄적으로 매도

  1. 펀더멘털

하지만 펀더멘털을 보면,

  • AI 데이터센터 수요로 인한 DRAM·HBM 공급 부족

  • 2025~26년 서버 DRAM·HBM 가격의 급등

  • 2025년 메모리 시장이 2,000억 달러 수준에 접근하고,
    HBM 비중이 빠르게 커지고 있다는 Yole Group의 분석

  • 주요 업체·애널리스트가 **“2027년 이후까지 공급 타이트가 지속될 것”**이라고 보는 점

을 감안할 때,
이번 충격의 1차 원인은 메모리 수요 붕괴가 아니라
소프트웨어·법률·데이터 SaaS 비즈니스 모델 불확실성
이었다고 보는 것이 더 합리적이다.

따라서 논리적으로는 이런 해석도 가능하다.

  1. 주가 하락의 직접 원인
    소프트웨어·전문직 비즈니스 모델에 대한 공포

  2. 메모리 펀더멘털은 여전히

    • AI 인프라 수요

    • HBM·서버 DRAM 공급 타이트

    • 소수 업체 과점 구조
      에 기반한 구조적 타이트 스토리에 가깝다.

  3. 그렇다면
    **“심리적 리스크오프와 테마 언와인드 때문에 같이 얻어맞은 메모리/HBM 업체들”**은
    중장기 관점에서 기술적·심리적 조정 = 매수 기회로 해석할 여지가 있다.


즉, “이번 급락이 메모리 수요 붕괴 때문이 아니라
Claude 에이전트가 촉발한 소프트웨어 공포와 AI 가격 구조 변화에서 출발했다”**는 점은 분명히 짚을 필요가 있다.


6. 한 문단 요약

  • Anthropic이 Claude Cowork용 법률 플러그인을 포함한 플러그인 세트를 공개하자,
    “AI가 초급 변호사·애널리스트·컨설턴트가 하던 화이트칼라 실무를 직접 대체할 수 있다”는 공포가 커졌고,
    그 결과 글로벌 소프트웨어·데이터·법률 SaaS 기업에서 약 2,850~3,000억 달러 시총 증발이 발생했다.

  • 개발 쪽에서는 Claude Code가 VS Code에서
    “한 줄 자동완성”이 아니라 목표를 주면 프로젝트 단위로 수정·테스트를 반복하는 에이전트형 코딩 도구로 진화하며,
    GitHub Copilot과 다른 영역을 파고들고 있다. MS도 따라갈 여지는 있지만,
    엔터프라이즈 보안·책임 이슈 때문에 Anthropic만큼 빠르게 자율성을 열지는 못하고 있다.

  • 법률 플러그인은 “특정 기능을 파는 SaaS”가
    “클라우드 LLM + 플러그인”으로 재구성될 수 있다는 가능성을 보여주며,
    기존 SaaS의 가격결정력과 장기 성장성에 대한 의문을 키웠다.

  • 이런 에이전트형 애플리케이션은 긴 컨텍스트를 들고 반복·병렬 추론을 수행하기 때문에,
    추론 시 GPU 메모리(KV 캐시 등) 사용량과 서버당 메모리 탑재량을 끌어올린다.
    여기에 더해, AI API·SaaS가 토큰당 과금 구조를 쓰는 상황에서,
    토큰당 가격이 빠르게 떨어지면(샘 알트먼의 표현대로 “1년에 10배씩 비용이 감소”)
    사용량이 더 빠르게 폭증하는 제번스 역설이 작동
    한다.
    결과적으로 토큰 단가 하락 + 에이전트 확산 → 전체 추론량·VRAM 사용량 증폭이라는 구조가 만들어진다.

  • 젠슨 황은 다보스에서 AI를 에너지→칩·메모리→데이터센터·클라우드→모델→애플리케이션의 5계층 인프라로 설명하며, 상단의 추론·애플리케이션이 활성화될수록
    하단의 GPU·VRAM·에너지 인프라 투자가 더 많이 필요하고,
    이 인프라가 두꺼워질수록 다시 소프트웨어·서비스 생태계가 더 커지는 선순환이라고 정리했다.

  • Blue Owl 같은 대체투자·프라이빗 크레딧까지 매도된 것은,
    소프트웨어·데이터 기업 가치 하락 → 이들 기업에 대한 대출·지분투자 회수 리스크 확대라는 연쇄 때문이며,
    이 과정에서 메모리까지 함께 팔렸다면,
    AI 인프라 수요·HBM 공급 타이트·메모리 가격 상승이라는 펀더멘털을 감안할 때
    일정 부분은 **“공포에 의한 과도한 할인”**으로 평가할 수 있다.

#글을 마치며 

며칠전 군 생활 때 알게 된 동생을 오랜만에 만나 저녁을 먹으며 이야기를 나누다가, 초급 회계사가 담당하던 전표 정리·엑셀 입력 업무가 이미 한 번에 AI로 대체되었고, 이제는 감사보고서 초안 작성까지 AI가 해내는 수준으로 발전했다는 다소 섬뜩한 이야기를 들은 기억이 있으며,


그 동생 말로는, 자신들이 벌어다 주는 회계법인의 수익 상당 부분이 당장의 성과급으로 돌아오지 않고, 오히려 이런 자동화 업무용 AI 툴을 개발·도입하는 데 필요한 자금으로 재투자되고 있다고 했다.

좀 더 직관적인 비유는 30~40만원짜리 월 구독료  LLM기반 S/W가 초임 월급 400만원 선의 신입 전문직들을 대체하기 시작한것이다.

이번에 글을 정리하면서 다시 느낀 바는, 언젠가 지금의 우리(=나 자신)가 하고 있는 사무직 업무가 순차적으로 AI에게 대체될 가능성을 인정한다면, 그 위험을 헤지하기 위한 수단으로서 H/W 칩, 특히 AI 인프라에 연관된 반도체 자산에 대한 투자는 이런 조정 매수기회가 왔을때마다 지속해야 하지 않을까 싶었다.


=끝

2026년 2월 3일 화요일

생각정리 174 (* Memory)

신혼여행, 베니스, 그리고 메모리


지난 9월 중하순은 신혼여행 기간이었다.

천년의 세월 동안 쌓인 문화유산을 잘 보존해온 도시국가, 이탈리아 베니스에서 환상적인 투어를 마치고 숙소로 돌아왔다.

숙소 와이파이를 연결해 텔레그램을 켰는데, 유독 메모리 가격 상승에 대한 데이터가 눈에 들어왔다. 문득 이런 생각이 들었다.

최근 출시된 ChatGPT 5.0, 그리고 전반적인 AI 발전 흐름이 메모리를 더 많이 요구하는 방향으로 진화하고 있는 것이 아닐까?


이 생각은 당시 며칠전에 읽었던 마이크론 CEO가 언급했던 내용과도 일맥상통해 보였다.



(https://www.micron.com/about/blog/applications/ai/why-memory-and-storage-matter-for-ai?utm_source=chatgpt.com)


통장 잔고와 미국 메모리 투자


집, 가전, 가구를 영끌로 맞추고, 결혼식 비용까지 모두 치르고 나니 통장에 남은 잔고가 거의 없었다.
신혼여행 경비도 빠듯하게 계획해둔 상태였다.

이탈리아의 밤, 늦은 새벽에 몰래 일어나 앞으로 남은 일정에 필요한 여행 경비를 빠르게 다시 추산해 보았다.

그리고 그 계산 결과 남는 잔액을 전부를, (와이프 몰래) 미국 메모리 회사에 투자했다.

그 당시까지만 해도, 미국 메모리 회사들의 주가는 이런 미래 메모리 가치를 전혀 반영하지 않고 있었다.

순간,

‘여기서 레버리지를 써야 하나…’
라는 유혹이 강하게 들었지만,


2022년에 약간의 레버리지 중국 투자 실패, 그리고 동시에 전세사기를 당해 법원을 드나들며 받았던 스트레스, 그리고 재산이 바닥났던 경험이 떠올랐다.

그때 이후로 나는 절대로 레버리지 투자는 하지 않겠다고 다짐했었다.
그래서 이번에도 가용 가능한 현금 범위 내 투자에 만족할 수밖에 없었다.


피렌체, 로마, 그리고 메모리 비중 확대


그렇게 피렌체와 로마를 연달아 돌며 도시 투어를 마친 뒤 숙소에 돌아오면, 나는 밤마다 남은여행 경비를 재계산해 남은 잔액 모두를 미국 메모리 기업에 투자해 주식 비중을 조금씩 더 늘려갔다.

월급을 받고 고정 생활비를 모두 지출한 뒤 남는 모든 짜투리 금액은 지금까지 줄곧 미국 메모리 회사들을 사들이는 데 써왔고, 동시에 AI가 이끄는 메모리 전방 수요 변화에 대해 리서치를 꾸준히 이어가기 시작했다.

돌이켜보면, 처음에는 Agentic AI라는 용어를 통해 이전과는 질적으로 다른 첫 번째 수요 변화를 감지했던 것 같다.

이후에는 Sparse Locality를 거쳐 Sparse MoE라는 새로운 기술 구조를 공부하면서, AI 발전 흐름이 결국 메모리를 엄청나게 소모하는 방향으로 갈 수밖에 없다는 결론에 이르렀고, 이것이 지금까지 내가 이해한 메모리 수요 변화의 핵심 근원이다.

한편, 새로운 식구를 맞이하기 위해 미뤄두었던 차를 이제는 정말 사야 할 시점이 다가오고 있었다.
그 즈음에 나는 엊그제 

“혹시 케빈 워시 새 연준의장의 발언이나 조정 이슈로 메모리 조정 국면이 온다면, 차를 일시불로 사려던 계획을 월 할부로 바꿔서 그만큼 메모리를 더 담아볼까?”

(와이프를 어떻게 설득시키지..?)

라는 다소 들뜬 상상을 하며 잠이 들었다.

그런데 다음 날 눈을 떠보니,
메모리 회사 주가 하락은 개뿔 메모리 회사 주가는 다시 떡상해 있었다.


역대 연준의장 취임후 기간별 주가변동



TrendForce 리포트: 2026년 1분기, 사상 최대 메모리 가격 상승폭 전망


이유는 명확했다.
메모리 숏티지(memory shortage)가 장기화되면서, 가격 상승 폭이 더 가팔라지고 있다는 기사 때문이었다.

TrendForce는 2026년 1분기 메모리 가격을 전면 상향 조정하며, 사상 최대 분기 상승폭을 전망했다.

  • 범용(Conventional) DRAM:
    합의 가격(Contract Price) 전망치를
    기존 +55~60%+90~95% 상승으로 대폭 상향.

  • NAND Flash:
    합의 가격 전망치를
    기존 +33~38%+55~60% 상승으로 상향.

  • PC DRAM:
    공급 부족 심화로 인해
    2026년 1분기 가격이 최소 2배(100% 이상) 상승할 것으로 예상.

  • Enterprise SSD:
    북미 CSP 수요 폭증으로
    1분기 가격 +53~58% 상승 전망.





시장 현황: “전 제품군 가격 전면 상향”


TrendForce의 최신 조사에 따르면,
2026년 1분기 AI 및 데이터센터 수요가 전 세계 메모리 수급 불균형을 더 심화시키고 있다.

제조사의 협상력이 그 어느 때보다 강해졌고, 이에 따라 TrendForce는 1분기 DRAM 및 NAND Flash 전 제품군 가격 상승폭을 전면 상향 조정했다.
특히 DRAM의 경우는 추가 상향 가능성도 열어둔 상태이다.


1. PC DRAM: “가격이 두 배로”


2025년 4분기 PC 완제품 출하량이 예상치를 상회하면서, 현재 PC DRAM은 보편적인 공급 부족 상태이다.
공급량을 확보한 티어1(Tier-1) PC OEM조차 재고 수준이 떨어지고 있다.


판매자 중심의 시장이 형성되며,
2026년 1분기 PC DRAM 가격은 분기 대비 100% 이상 상승,
역사상 최고의 상승 기록을 경신할 전망이다.


2. Server DRAM: “역대급 공급 쟁탈전”


북미와 중국의 주요 클라우드 서비스 제공자(CSP) 및 서버 OEM 업체들은 1월까지 제조사와 **연간 DRAM 장기 공급 계약(LTA)**을 협상 중이다.

구매자들이 물량을 확보하기 위해 공격적으로 나서면서
1분기 서버 DRAM 가격은 약 90% 급등할 것으로 보인다.

제조사들은 핵심 고객사들 사이에서 공급 균형을 맞추기 위해 고심하는 상황이다.


3. Mobile DRAM: “전방위적 가격 인상”


전체 DRAM 시장의 수급 격차가 더 벌어지자, 스마트폰 제조사들 역시 물량 배정을 받기 위해 입찰가를 올리는 중이다.

이에 따라 LPDDR4X, LPDDR5X 합의 가격 모두
+90% 수준의 기록적인 상승이 예상된다.

미국계 스마트폰 고객사(애플 등)는 이미 작년 말 계약을 마쳤으나,
중국계 고객사들은 춘절 연휴 등의 영향으로 인해 2월 말은 되어야 실질적인 협상이 진전될 전망이다.


4. NAND Flash 및 Enterprise SSD: “생산라인 전환의 나비효과”


NAND Flash 시장은 이미 주문량이 공급 능력을 크게 초과한 상태이다.
여기에 제조사들이 수익성이 더 높은 DRAM에 집중하기 위해 NAND 생산 라인을 DRAM으로 전환하면서, 신규 캐파는 더욱 축소되었다.

한편, 추론용(Inference) AI 응용처가 확대되면서 고성능 스토리지 수요가 예상을 웃돌고 있다.
북미 CSP들의 강력한 재고 확보 움직임으로 Enterprise SSD 주문이 폭발했고,
1분기 가격은 +53~58% 상승, 단기 최대 상승폭을 기록할 것으로 보인다.


이미 메모리 몰빵 P/F지만, 마음은 조급하다


이미 메모리 비중을 크게 가져가는, 말 그대로 메모리 몰빵 포트폴리오를 유지해온 덕분에 이번 랠리의 수혜를 보긴 했다.

하지만 한편으로는,

“아직 충분히 못 샀다…”
라는 생각이 계속 들며 마음이 조급해졌다.


그래서 아침 일찍 회사에 출근해 대충 숫자를 두드려보기 시작했다.
그리고 나름의 가정 하에 몇 가지 추정치를 계산해보았는데, 정말 미친 숫자가 나왔다.



SEC의 ROIC, PER에 대한 내 계산


현재 SEC는 6%의 대출을 받아 국내 Fab을 건설하고 있다.
만약 이 메모리 숏티지가 장기화된다면,
내가 추정한 바에 따르면 ROIC는 40%에 육박하게 된다.

그런데도,
그렇게 ROIC가 뻗어 오른다 하더라도
(내 추정치가 맞는다는 전제에서)
SEC의 Foward PER은 고작 4~5배 수준밖에 안 된다.

이 숫자들을 보고, 전날 밤에 다시 고민에 빠졌다.

“첫차를 중고로 살까…
아니면 월 할부로 사면서 메모리를 더 사야 하나…”


머리가 아파질 정도로 고민만 하다가 결국 그냥 잠이 들었다.




왜 우리는 이런 급격한 상승에 적응하지 못할까


문득 이런 생각이 들었다.

“왜 우리는 이런 급격한 상승에 잘 적응하지 못하는 것일까?”


돌이켜보면, 불과 얼마 전만 해도
2026년 전망을 정리하던 10월까지만 해도 SEC, SKH 내부 2026년 영업이익(OP) 전망
각각 60조원 수준에 불과했던걸로 알고있다.

그러다 메모리 가격 급등이 시작되고 나서,
11월에는 전망치가 80~90조원으로 상향 조정되었다.
12월 말에는 일제히 26년 OP 전망을 100~110조원으로 올렸다.

그리고 1월 중하순, 1분기 고정 계약 가격이 발표되자
외국계 증권사들은 OP 전망치를 150조원으로 상향했다.

여기에 2월초 엊그제 나온 발표에서는
최상단 OP 전망을 220조원 이상까지 또다시 상향 조정했다.

즉, 60조원에서 220조원까지
불과 4~5개월 만에 벌어진 OP 상향 조정이다.

무엇보다, 이제 시가총액 1,000조원을 넘어선 회사에서 이런 일이 벌어지고 있다는 점이 더 놀랍다.


한 번 본 적 있는 그림: NVIDIA의 1Q23


사실 이런 경험이 전혀 없었던 것은 아니다.
한 군데 있었다.

바로 NVIDIA가 AI GPU 시대의 서막을 알린 1Q23 실적 발표 당시이다.

그때도 시장은
“이 정도의 어닝 레벨이 실제로 지속 가능한가?”
라는 의구심을 가졌고,
주가는 이익 전망 상향 속도를 따라잡지 못하며 계속 뒤늦게 반영해 나갔다.

지금 우리는,
그때의 NVIDIA보다 더 강한 어닝 상향 조정
눈앞에 두고 있는 것이 아닌가 하는 생각이 든다.


1Q23 실적발표 당일에만 따라 샀어도 멀티배거
뒤돌아보면 항상 쉽다.



인텔 CEO, 젠슨 황, 그리고 메모리 숏티지의 장기화


정말로 INTEL CEO의 말처럼 2028년까지 메모리 숏티지가 장기화되고,


젠슨 황이 말했듯 앞으로 메모리의 중요성이 더 커진다면,
지금 우리는 폭발적으로 증가하는 메모리 상승세에 올라타야 하는 초입 구간을 이제 막 지나고 있는 것인지도 모른다.

젠슨 황의 발언은 다음과 같다.

“엔비디아는 메모리가 많이 필요하다.”
“엔비디아가 정말 큽니다. 제가 모르는 것도 참 많네요. 하지만 올해 우리는 많은 메모리가 필요합니다. 좋은 지적입니다. 성능을 위해서는 HBM 메모리가 필요하고, 저전력 메모리를 위해서는 LPDDR이 필요합니다. AI는 메모리를 갖춰야 하기 때문입니다. 지능에는 메모리가 필요합니다. 그래서 지능을 위해 많은 메모리가 필요합니다.”


기자가 질문한다.

“올해 메모리 공급 제약이 엔비디아에 문제가 될까요?”

 
젠슨 황의 답변은 이렇다.


“제 생각에 올해는 수요가 훨씬 더 많기 때문에 전체 공급망이 어려운 상황입니다. 아시다시피 공급은 매년 100%씩 성장해 왔지만, 수요는 그보다 더 빠르게 증가하고 있습니다. 그래서 우리는 매우 좋은 한 해를 보내게 될 것입니다.”

 



그래도 이번엔, 진짜 차를 샀다


사실 나는

“올해엔 꼭 차를 산다.”
라고 호언장담한 지 벌써 몇 년이 지났다.


하지만 주식병에 빠져, 돈이 생길 때마다 계속 주식부터 사느라 차는 매번 뒤로 밀렸다.

그러던 내가, 며칠 전 새로운 가족을 맞이하기 위해
정말 진짜, 진짜, 진짜 이번에는 차를 사겠다고 마음먹고
드디어 계약금을 넣고 왔다.

그리고 문득 깨달았다.

“어차피 월 할부로 사면 되는 거였잖아? 개꿀.”

(답정너)

주식해야지.

#글을 마치며


퇴근길 지하철에서 우연히 한 친구 무리의 대화를 듣게 되었다.


“선생님은 어디에서 출퇴근하세요?”

“저는 동작구에서 와요. 남편이 법조계에 있거든요. 호호”

“그럼 선생님은요?”

“저는 강동 쪽에서 출퇴근해요. 남편이 하이닉스에 다니거든요. 호호호호호호호호호”

지난밤 ‘다주택자 양도세 중과가 당장 시행되느냐 아니냐’에 따라 집값이 잡히느니 마느니를 두고 공방을 벌이는 시사토론 영상을 보았다.

개인적으로는 다주택자 양도세 중과 자체가 시장을 뒤흔들 만큼의 빅 이벤트라고 보지는 않는다.

오히려 앞으로는 노랑봉투법 시행, 메모리 반도체 기업들의 대규모 성과급, 그리고 국내 증시 상승에 따른 막대한 유동성이 한꺼번에 부동산 시장으로 쓸려 들어올  가능성이 더 크다고 생각한다.

2년 뒤 SK하이닉스와 삼성전자에 근무하는 고소득 직군, 그리고 해당 종목에 집중 투자한 큰손들이 어느 지역 부동산에 관심을 갖고 매수에 나서는지를 면밀히 지켜볼 필요가 있다고 본다.


https://biz.heraldcorp.com/article/10642240

서울도심 집값 상승
이거 알고도 못막습니다요..


 =끝

2026년 2월 1일 일요일

생각정리 173 (* Kevin Warsh)

지난 주말 잠시 대전에 내려가는 길에 케빈 워시가 차기 연준 의장으로 지명되었다는 뉴스를 접했다.

https://namu.wiki/w/%EC%BC%80%EB%B9%88%20%EC%9B%8C%EC%8B%9C


나는 케빈 워시를 **“연준을 2008년 금융위기 이전의 모습, 즉 더 작고 덜 개입적인 중앙은행으로 되돌리고자 하는 인물”**로 보고 있다. 자연스럽게 다음과 같은 질문이 떠올랐다.

그렇다면 2008년 이전의 연준은 어떤 통화정책 체계였으며,
2008년 금융위기와 그 이후의 극복 과정에서 연준은 어떻게 변형·팽창되었는가.


이 질문에 답을 찾기 위해, 당시 연준 의장이었던 벤 버냉키의 자서전 『21세기 통화정책』을 다시 펼쳐보았다. 금융위기 대응 과정은 주로 2부 5장부터 비교적 자세히 기록되어 있다. 그 행적을 따라가면서, 오늘의 연준, 그리고 케빈 워시 체제의 방향을 함께 생각해보고자 한다.


1. 서브프라임 위기와 시스템 리스크의 전이


2008년 서브프라임 모기지 사태가 터지면서 미국 주택시장이 붕괴하기 시작한다. 주택가격 하락은 단순한 부동산 조정을 넘어, 이를 기초로 한 MBS·CDO 등 파생상품 시장을 거쳐 금융 시스템 전반의 리스크, 더 나아가 글로벌 금융시장 시스템 리스크로 번져 나간다.


주택·파생상품 가격 급락 → 금융기관 손실 확대 → 담보가치 하락 → 추가 매도 압력이라는 메커니즘이 겹치면서, **패닉 셀(panic sell)**이 글로벌 자산가격을 끌어내리고, 다시 가격 하락이 추가적인 패닉 셀을 부르는 자기강화적 악순환이 형성되었다.


이 시점에서 연준은 전통적 의미의 **최종대부자(Lender of Last Resort)**로서 개입하기 시작한다. 그러나 위기의 속도와 범위는 기존의 틀을 완전히 넘어서는 것이었다.


2. 대출창구의 낙인 효과와 ‘비전통적’ 최종대부자


연준은 악순환의 고리를 끊기 위해 대출창구(Discount Window) 조건을 대폭 완화하고, 금융시스템에 유동성을 공급하고자 했다. 그러나 당시 은행들의 증언에 따르면

  • 연준 대출창구를 이용하는 행위 자체가

  • “재정상 문제가 있는 은행”이라는 **낙인(stigma)**으로 비칠 것을 우려하여

  • 자금이 절박한 은행조차 창구 이용을 꺼리는 상황이 벌어졌다.


결국 전통적인 최종대부자 수단은 심리적·평판적 제약에 막혀 충분히 작동하지 못했다.

한편 신용경색은 금융부문에서 민간 실물부문으로 빠르게 확산되기 시작했다. 이에 따라 연준은 “은행의 은행”에 머무는 수준을 넘어, 비금융 부문에까지 직접 개입하는 최종대부자 역할을 떠맡게 된다.

  • 민간 상업어음(Commercial Paper) 시장 지원

  • ABS(자산유동화증권) 매입 및 유동성 공급


을 통해 연준은 사실상 민간 신용시장을 직접 떠받치는 플레이어로 전환되었다. 이는 2008년 이전 연준의 역할과 비교하면 범위와 강도 면에서 질적으로 다른 단계이다.


2008 금융위기를 전후로 급증한 FED BS



3. 글로벌 달러 부족과 ‘세계의 중앙은행’ 역할


위기가 심화되면서 미국 금융회사뿐 아니라 해외 은행들 역시 달러 자금 확보에 몰리기 시작한다. 이른바 **국제 달러 부족(dollar shortage)**가 발생하자 해외 은행들은 미국 단기자금시장으로 몰려들었다.


글로벌 금융위기로 전염 조짐이 커지자 연준은 해외 중앙은행들과 대규모 통화스와프(swap line) 협정을 체결한다. 연준이 달러를 공급하고 각국 중앙은행이 이를 자국 은행에 재공급하는 구조를 통해, 연준은 사실상 전 세계를 상대로 하는 최종대부자로서 기능하기 시작한다.


시스템 리스크의 전파 속도가 너무 빨랐다는 점을 감안하면, 이 스와프 라인과 비상 유동성 공급은 최소한 더 큰 붕괴를 막는 방화벽 역할을 수행했다고 볼 수 있다.


4. 베어스턴스, 리먼, 머니마켓 뱅크런, 지급준비금의 팽창


베어스턴스 파산에 이어 리먼 브라더스 파산이 발생하면서 시장의 공포는 극단으로 치닫는다. 이 와중에 대표적인 머니마켓 펀드였던 **리저브 프라이머리 펀드(Reserve Primary Fund)**가 리먼 채권을 상각하면서 기준가 1달러를 지키지 못하고 1달러 아래로 내려가는, 이른바 ‘브레이크 더 벅(break the buck)’ 사태가 실제로 발생한다.


이 사건은 머니마켓 펀드 전반에 대한 신뢰를 흔들었고, 며칠 사이에 대규모 자금 이탈이 발생하는 사실상의 뱅크런으로 이어졌다. 이에 미국 재무부는 머니마켓 펀드에 대한 임시 보증 프로그램을 도입하며, 기존 예금보험 범위를 넘어서는 공적 안전망으로 추가적인 뱅크런을 차단하고자 했다.


이러한 조치가 이어지는 동안 은행 지급준비금은 ‘풍선처럼’ 부풀어 올랐고, 이는 이후 통화정책 운용에서 구조적 제약요인으로 남게 된다. 이때부터 연준의 대차대조표( Fed BS)는 기존 평시 수준과는 다른 새로운 레짐으로 진입한다.


5. 장기증권·MBS·국채 매입: 양적완화(QE)의 출발


각종 대출 프로그램과 통화스와프 협정 등으로 막대한 유동성을 공급했음에도 시장이 진정되지 않자, 연준은 더 나아가 대규모 장기증권 매입, 즉 **양적완화(QE)**를 도입한다.

이른바 QE1은 2008년 말 발표되어 2010년 봄까지 집행되었고, 대략 다음과 같은 구조를 갖는다.

  • 기관채(Agency Debt)·MBS(주택저당증권) 대규모 매입

  • 장기국채 추가 매입


특히 연준은

  • 모기지 시장 붕괴를 막기 위해 **패니메이(Fannie Mae)와 프레디맥(Freddie Mac)**을 사실상 공적 관리체제로 편입시키고,

  • 이들이 발행한 MBS를 직접 대규모 매입함으로써


미국 주택금융 시스템 전체를 연준의 자산·부채 구조 안으로 끌어들였다고 볼 수 있다.


이 과정에서 해외 투자자들은 미국 금융시스템에 대한 정부·연준의 과도한 개입을 경계하며 MBS를 매도하기 시작했고, 이 물량 상당 부분을 연준이 사실상 받아내는 구조가 형성되었다. 동시에 연준은 장기국채 매입을 통해 국채시장에도 직접 개입했다.


이때부터 미국 통화정책은 단기금리 조정 중심의 전통적 틀을 넘어, ‘대규모 자산매입(Large-Scale Asset Purchases)’이라는 새로운 차원으로 이동한다.


QE1



6. 제로금리·포워드 가이던스·점도표의 등장


증권 매입에 이어 연준이 취한 또 다른 축은 다음 두 가지이다.

  1. 정책금리를 사실상 제로 수준까지 인하(ZIRP)

  2. 포워드 가이던스(향후 금리 경로에 대한 사전 안내) 도입


이 시기에 도입된 **점도표(dot plot)**는 FOMC 위원들이 예상하는 향후 정책금리 경로를 시장에 투명하게 공개하는 수단으로, 이후 연준 커뮤니케이션의 상징 같은 존재가 되었다.

연준은 민간채·국채 매입을 위해 막대한 기준통화(지급준비금)를 공급했고, 그 결과 연준 내부에서도

  • 물가상승(인플레이션)

  • 자산 인플레이션(자산버블)


에 대한 우려가 제기되기 시작한다.


그러나 버냉키는 통화공급이 늘어나더라도 ‘시중에 돈이 실제로 돌지 않으면’ 당장의 물가·자산가격 급등은 제한적이라고 보았고, 일본의 장기 디플레이션 경험을 근거로 이러한 우려에 반론을 제기한다.

동시에 그는 장기국채·MBS 매입을 통해 장기금리를 낮추면,

  • 대출시장 활성화

  • 기업 투자 확대

  • 주택·자동차 등 내구재 소비 확대

를 유도하여 단기 경기부양 효과를 얻을 수 있다는 정책의 이점을 강조했다.


7. QE1의 종료와 ‘광의의 QT’ 구상, 그리고 레포 시장


QE1은 2010년 봄을 전후해 매입이 종료되며 일단락된다. 위기의 가장 급박한 국면이 지나가자, 2009~2010년에는 곧바로 QE에 대한 비판이 제기된다.

버냉키 역시 QE의 부작용을 인식하고 있었고, 어느 시점에는 비대해진 연준 보유자산을 축소하고, 필요하다면 매각까지 검토하겠다는 의향을 내비친다. 자산 축소 과정에서 필요한 유동성은 **은행 외 기관투자가(머니마켓 펀드 등)**로부터 단기자금을 조달해 충당하는 방안이 논의되었고, 이는 이후 레포(Repo) 시장 구조를 적극 활용·확대하는 계기와 맞물리게 된다.


다만 이 시점에서 연준이 실제로 나아간 방향은 “대규모 적극적 자산매각”이 아니라,

  • 추가적인 BS 확대는 자제하고,

  • 만기 도래 자산의 재투자 여부를 조정하면서,

  • 시간에 걸쳐 서서히 정상화를 도모하는


정도의, 일종의 ‘광의의 QT’ 구상에 가까웠다. 방향은 “줄인다”였지만, 실질 행동은 “더 이상 크게 늘리지 않는다”에 가까웠다고 볼 수 있다.


8. 유럽발 위기와 QE2, 그리고 EM 자산 버블


그러나 곧 유럽발 재정·금융위기가 터지면서 미국 경기에도 부정적인 영향이 나타나고, 미국 경제는 다시 하방 압력을 받기 시작한다.


이에 2010년 말 연준은 '광의의 QT' 실행을 접고 **2차 자산매입(QE2)**를 재결정한다. 핵심은 다음과 같다.

  • 일정 기간 동안

  • 장기 국채를 매달 상당 규모(약 750억 달러 수준)의 속도로 매입


하는 프로그램으로, 연준의 BS는 다시 한 번 확대된다.


QE2는

  • 향후 인플레이션 가능성을 키우고,

  • 인위적인 자산 버블 형성 위험을 높이며,

  • 더 높은 수익률을 추구하는 글로벌 자본이 신흥국(EM) 시장으로 대거 유입되는 계기를 제공했다.


그 결과 EM에서는

  • 통화 강세

  • 자산가격 상승

  • 은행대출 확대


가 겹치면서 EM 자산 버블 성격의 호황이 전개되었다는 분석이 뒤따른다.


QE2



9. 오퍼레이션 트위스트와 만기 구조 왜곡


유럽위기는 장기화되었고, 미국 내에서는

  • 부채한도 문제를 둘러싼 입법부–행정부 갈등,

  • 금융위기 후유증을 반영한 대출기관·감독당국의 엄격한 자본규제


등이 겹치며 경기가 다시 약세를 보인다.


이를 타개하기 위해 연준은 2011년 **오퍼레이션 트위스트(Operation Twist, 만기연장 프로그램)**를 발표한다.

  • 장기 국채를 추가로 매입하는 대신

  • 단기 국채를 매각하여 재원을 마련함으로써,

  • 대차대조표 총량은 크게 늘리지 않으면서

  • 보유 포트폴리오의 평균 만기를 장기로 늘리는 방식이다.


이 조치는 장기금리를 보다 직접적으로 낮추는 효과를 노린 것이지만, 동시에 연준이 보유한 채권의 평균 만기를 길게 만들었다. 이는 훗날 대차대조표를 줄이고자 할 때 자산을 되팔거나 상각하는 과정이 더 어려워지는 구조를 만들어냈다는 비판을 받는다. 그럼에도 당시에는 위기 전염을 막고 시간을 벌기 위한 불가피한 선택이라는 논리가 우세했다.


10. QE3, 무제한 매입 약속, 긴축발작, 그리고 완만한 SOFT LANDING 시도


2012년 중반까지 유럽 경제는 여전히 약세를 벗어나지 못했고, 그 여파가 미국으로 전염되자 연준은 다시 한 번 공격적으로 나선다.


2012년 9월 연준은 **3차 QE(QE3)**를 발표한다.

  • 우선 매월 400억 달러 규모의 MBS를 기한 없이(open-ended) 매입하겠다고 선언하고,

  • 이후 매월 450억 달러 규모의 장기 국채 매입을 추가해,

  • 결과적으로 **매월 850억 달러(400억 MBS + 450억 국채)**를 순매입하는 구조를 만든다.


공식 문구상 “특정 연도까지”라는 달력식 기한을 직접 명시한 것은 아니지만,

  • 고용·인플레이션 조건이 충족될 때까지 매입을 지속하겠다는 조건부 약속과

  • 당시 제시된 금리 포워드 가이던스를 감안하면


시장은 이를 장기간 지속되는 초완화 국면으로 받아들였다.

이때 QE3의 핵심 특징은 그것이 사실상 “무제한적(open-ended)” 성격을 띠었다는 점이다.

이에 대한 비판은 명확했다.

  • 이런 방식은 연준 대차대조표만 비대하게 만들 뿐이며,

  • 고용·성장에 대한 실질 기여는 제한적일 수 있고,

  • 무엇보다 출구전략(Exit)을 극도로 어렵게 만드는 유산을 후대에 남긴다는 것이다.


연준은 이러한 비판을 의식해,

  • 프로그램의 효과가 제한적이거나

  • 비용이 지나치다고 판단될 경우


언제든지 채권매입 프로그램을 종료할 수 있다는 면책조항
을 포함시킨다.


이후 고용시장이 실제로 개선되기 시작하자, 버냉키는 자산매입 축소(taper) 가능성을 시사하는 발언을 한다. 2013년 이 발언이 나오자 **미국 장기금리가 급등하고, EM 자산에서 자금이 대거 이탈하는 ‘긴축발작(taper tantrum)’**이 발생한다.

연준은 이 긴축발작을 직접 목도한 뒤, 급격한 축소·매각 시나리오에서 한발 물러서게 된다.

  • 대규모 적극적 자산매각이 아니라

  • 매입 규모를 단계적으로 줄이고(taper)

  • 만기 도래·재투자 정책을 조정해

  • 시간을 두고 BS를 정점에서 천천히 내려놓는


방식의 완만한 SOFT LANDING 시도로 전략을 수정한다.


버냉키는 2013년 12월부터 월간 매입 규모를 감소시키기 시작해, 결국 2014년 10월 QE3를 종료한다. 이 과정에서 QE는 **“무제한 매입–급격한 출구”가 아니라, “긴축발작을 계기로 속도를 조절한 완만한 축소”**라는 형태로 일단락되었다고 정리할 수 있다.


QE3



11. 팬데믹 시기의 QE 재가동과 연준 BS 재팽창


그러나 한 번 끝난 QE가 영원히 봉인된 것은 아니었다. 2020년 팬데믹 사태가 닥치자, 연준은 2008년 금융위기 당시의 경험을 사실상 정식 매뉴얼처럼 다시 꺼내 든다.

  • 제로금리 재도입

  • 대규모 자산매입 재개

  • 각종 대출 프로그램 재가동 및 확대


을 통해 연준은 다시 한 번 대규모 유동성을 시스템에 주입한다. 그 결과 연준의 대차대조표는 역사적 고점 수준까지 비대해졌고, 이후 정상화 과정에서 이 비대함을 어떻게, 어느 속도로 줄여 나갈 것인지가 통화정책의 핵심 난제로 부상했다.


버냉키가 참고했던 역사적 교훈은 명확하다. 대공황 시기 연준은 뱅크런 국면에서 충분한 유동성을 공급하기는커녕, 오히려 통화를 축소함으로써 최종대부자 역할에 실패했고, 그 결과 위기의 규모와 피해가 극단적으로 확대되었다는 점이다.


즉, 버냉키 시대 연준은 **“위기 시에는 무엇보다 먼저, 그리고 크게 유동성을 공급해야 한다”**는 방향으로 체질이 바뀌었고, 이 틀은 팬데믹 시기까지 반복 적용되었다.


Covid19 전후


12. 케빈 워와 ‘자산매각을 통한 연준 축소’라는 메시지


이제 시선을 다시 케빈 워시로 돌려보자.

워셔는

  • 위기 당시 연준 이사로서 비상조치에는 동참했지만,

  • 이후 QE2·QE3와 비대해진 연준 BS에 대해 꾸준히 비판적인 입장을 견지해 온 인물이다.


그의 문제의식은 요약하면 다음과 같다.

  1. 위기 시 QE는 불가피할 수 있으나, 그 이후 BS 정상화에 실패하면

    • 자산가격 왜곡,

    • 레버리지 확대,

    • 재정규율 약화
      를 초래한다.

  2. 앞으로의 통화정책은 금리만이 아니라 BS 규모 자체를 정책 레버로 활용해야 한다.

  3. 필요하다면 **연준이 직접 자산을 매각(outright sale)**해서 BS를 줄여야 한다.

즉, 워셔를 둘러싼 핵심 메시지는, 단순한 “QT(재투자 중단·만기 방치)”라는 완곡한 표현을 넘어,

**“연준이 들고 있는 국채·MBS를 실제 시장에 ‘매각’함으로써,
비대해진 연준의 몸집과 영향력을 구조적으로 줄이려 한다”**는 점이다.


이는 단순히 만기 도래를 기다리며 자연스럽게 줄이는 수준이 아니라,

  • 국채와 MBS 등 보유자산을

  • 실제 시장에 내다 파는(outright sale) 방식을 통해


연준의 BS를 줄이겠다는, 보다 공격적이고 명시적인 연준 축소 시나리오라는 점에서 의미가 다르다.



맺음말: 새로운 파티장, 민간형 QE, 그리고 펀치볼의 자리 이동


전통적으로 연준 의장을 설명할 때 자주 등장하는 비유가 있다.

경기가 과열되기 시작하면
파티가 무르익기 전에 펀치볼(punch bowl)을 치우는 사람이 바로 연준이다.


과거의 파티는 상대적으로 단순했다. 단기 정책금리 하나가 파티의 온도를 결정했다. 금리를 올리면 파티 열기가 식고, 금리를 내리면 다시 달아오르는 구조였다.

그러나 지금 우리가 마주한 파티장은 다르다.

  • 거대해진 연준의 대차대조표(BS),

  • 여러 차례 QE로 인위적으로 낮춰놓은 장기금리,

  • 위험자산·부동산을 떠받치는 포트폴리오 채널,

  • 정부의 막대한 적자·부채를 가능하게 만든 준(準)재정 기능


이 모두가 한데 얽혀 있는, 완전히 다른 구조의 파티장이다.

이런 맥락에서 보면 케빈 워시는 단순히

“금리가 너무 낮아지면 펀치볼을 치우는 전통적 연준 의장”


으로만 설명하기 어렵다.


워셔를 이해하는 보다 적절한 비유는 다음에 가깝다.

“QE와 비대해진 연준 BS라는 새로운 파티장 한가운데서,
그 파티를 가능하게 만든 펀치볼 자체를 없애려 하는 인물”


이라는 것이다.

워셔가 상정하는 긴축은 금리만을 올리는 고전적 긴축이 아니다.

  • 연준의 자산매입을 되돌리고,

  • 보유 국채·MBS를 실제로 시장에 매각하며,

  • 그 과정에서 연준의 크기와 시장 개입 범위를 구조적으로 축소하는 방향이다.


여기에 더해, 최근 논의에서 등장하는 **“QE의 주체가 연준에서 민간은행으로 이전된다”**는 평가는, 워셔 체제에서 다음과 같은 시나리오를 염두에 둔 것이다.


첫째, 연준은 금리 수준을 상대적으로 낮게 유지하거나 인하하면서도,
둘째, 보유한 국채·MBS를 매각해 BS를 줄이고,
셋째, 그 물량을 미국 은행·보험·자산운용사가 자기 대차대조표(레버리지)를 확장하며 떠안는 그림이다.


형식상으로는 연준 입장에서 QT·자산매각이 진행되지만, 시스템 전체로 보면 **장기금리 안정과 재정소화 기능을 민간이 대신 수행하는 “민간형 QE”**와 비슷한 구조가 된다.

이 경우 글로벌 자산시장에서는 몇 가지 변화가 동시에 진행될 가능성이 크다.

  • 연준이라는 가격에 둔감한 매수자가 사라지면서,
    장기 듀레이션에 대한 보상인 term premium이 다시 올라갈 소지가 커진다.

  • 은행과 금융기관의 대차대조표가 국채·MBS 쪽으로 더 많이 배분되면,
    상대적으로 **EM·크레딧·주식 등 위험자산에 할당할 수 있는 위험 수용 능력(capacity)**이 줄어든다.

  • 이 조합은 결과적으로 글로벌 위험자산 밸류에이션에 조정 압력을 키우는 방향으로 작용할 가능성이 크다.


EM 환율 측면에서 보더라도, 표면적으로는 기준금리 인하가 달러 약세·EM 통화 강세 요인이 될 수 있다. 그러나 연준 BS 축소와 민간형 QE로 인해

  • 글로벌 달러 유동성이 축소되고,

  • 스트레스 국면에서는 EM에서 자금이 먼저 빠져나가는 구조가 강화되기 때문에,


중장기적으로는 EM 통화 약세·달러 강세 쪽으로 기울 가능성을 무시하기 어렵다.

미국채 금리는 또 다른 방향에서 재조정 압력을 받게 된다.

  • 향후 기준금리 경로에 대한 기대는 워셔–트럼프 조합 하에서 내려갈 수 있지만,

  • 연준이 떠안고 있던 듀레이션을 민간이 대신 가져가는 과정에서
    term premium이 다시 위로 올라갈 여지가 크다.


이 두 힘이 겹치면, 10년·30년 금리가 이론적으로 예상되는 것만큼 잘 내려가지 않거나, 오히려 상승하는 그림도 충분히 상정 가능하다.

정리하면, 케빈 워시를 이해하는 일은 단순히

  • “그가 매파인가, 비둘기인가”라는 이분법을 가르는 것이 아니라,


보다 큰 틀에서

  • 위기 때마다 반복된 QE와 비대해진 연준 BS라는 새로운 파티장이 어떻게 해체될 것인지,

  • 그 과정에서 펀치볼은 어디까지 치워질 것인지,

  • QE의 주체가 연준에서 민간으로 이동할 때 글로벌 자산시장·EM 환율·미국채 금리가 어떤 새로운 균형점을 찾게 될 것인지


를 함께 읽어내는 작업이라고 생각한다.

=끝


#글을 마치며


6월 지방선거 이후 8월 민주당 전당대회를 앞두고 코스피 5,000, 코스닥 3,000을 외쳐왔던 정치권이 앞으로 어떤 평가와 메시지를 내놓을지 궁금해진다.

다만 현재의 지수 수준을 두고, 이를 정치권의 어떠한 “성과”로 해석하는 것은 적절하지 않다고 생각한다. 한국 증시의 상승은 정치권의 특정 정책의 직접적인 결과라기보다는,

  • OpenAI를 비롯한 글로벌 AI 기술 발전이 우연히 메모리 수요를 구조적으로 끌어올린 점,

  • 동시에 글로벌 레짐 변화 속에서 한국의 방산·조선·원자력 산업에 대한 수요가 확대된 점


이 복합적으로 작용한 결과로 보는 편이 현실에 더 부합한다고 판단된다. 다시 말해, 한국 증시는 운 좋게도 현재의 글로벌 사이클에서 선택받은(side beneficiary) 측면이 크다는 것이다.

앞으로도 케빈 워시의 통화정책 방향에 따라 한국 증시의 중장기 흐름이 크게 좌우될 가능성이 높다. 만약 그의 행보가 지금까지의 발언과 시그널에서 짐작되듯 한국 증시에 부정적인 방향으로 전개된다면, 그때에도 이를 정치권의 어떤 “노력”의 결과로 해석할 것인가 하는 점에서 다소 회의적이다.


정리하면, 현재와 같은 지수 수준은 국내 정치권의 의지나 정책만으로 설명하기보다는, 글로벌 유동성·기술 패러다임·안보 레짐 변화 속에서 한국 자산이 상대적으로 간택된 결과로 이해하는 것이 보다 타당하다고 생각하며, 

그 흐름이 이제 반대 방향으로 전환되기 시작하는게 아닐까 한다. 만약 하락 국면이 본격화될 경우, 특히 국내 레버리지 투자자를 중심으로 손실의 책임을 묻는 비난의 화살이 정부와 정치권으로 향할 가능성도 존재한다고 본다.

=끝