2026년 3월 26일 목요일

생각정리 210 (* TurboQuant-2)

이전글에 이어 같은 주제로 리서치를 이어나가본다.

핵심 결론은 유지한다.

TurboQuant는 HBM을 포함한 메모리 전반의 수요 약세를 곧바로 이끌 기술이 아니다.
더 정확히는, 장문 추론에서 커지는 KV cache 병목을 완화하는 기술이며, 그 결과는 메모리 수요 파괴보다 AI 추론 시장의 활용도 확대와 병목 이동으로 나타날 가능성이 더 크다.


터보퀀트는 정말 메모리 수요를 죽일까


KV cache 최적화의 본질과 HBM·DRAM·NAND를 다시 봐야 하는 이유


최근 시장은 구글의 TurboQuant를 두고 빠르게 반응했다.
논리는 단순했다. KV cache를 크게 줄일 수 있다면, 앞으로 HBM을 포함한 메모리 수요가 약해지는 것 아니냐는 해석이다.

하지만 이 해석은 두 가지를 지나치게 단순화한다.
첫째, TurboQuant가 실제로 줄이는 메모리 범위다.
둘째, HBM 수요가 실제로 어떤 항목들로 구성되는지다.

Google Research는 TurboQuant를 KV cache compressionvector search에 적합한 압축 기술로 소개했다. 즉 이 기술이 직접 겨냥하는 것은 GPU 메모리 전체가 아니라, 긴 컨텍스트 추론에서 빠르게 커지는 KV cache다. (Decrypt)

따라서 이 글의 출발점은 분명하다.

TurboQuant는 메모리 전반을 덜 쓰게 만드는 기술이 아니라, HBM 안의 특정 병목을 줄이는 기술이다.
그리고 그 결과도 단순한 “수요 감소”보다는 더 긴 문맥, 더 높은 동시성, 더 많은 agent workflow를 가능하게 하는 방향으로 나타날 가능성이 더 높다. (NVIDIA GitHub)


1. 왜 지금 KV cache가 더 중요해졌나


TurboQuant를 이해하려면 먼저 지금 AI 추론시장의 흐름부터 봐야 한다.


한쪽에서는 모델의 소형화·증류·효율화가 진행되고 있다.
더 작은 모델, 더 낮은 정밀도, 더 적은 활성 파라미터로 같은 일을 처리하려는 흐름이다.

다른 한쪽에서는 AI Agent가 확산되고 있다.
에이전트는 단순한 1회성 질의응답이 아니다. 여러 단계를 연속으로 처리하고, 도구를 호출하고, 중간 상태를 보관하고, 다시 다음 작업으로 넘어간다. OpenAI도 긴 세션을 다루는 Agents SDK 예제에서 trimmingcompression을 핵심 기법으로 설명한다. (OpenAI)

이 구조에서는 자연스럽게 긴 컨텍스트가 중요해진다.
그리고 긴 컨텍스트가 길어질수록 빠르게 커지는 메모리 항목이 바로 KV cache다. NVIDIA도 추론 메모리 설명에서 KV cache를 I/O tensor의 대표적인 큰 항목으로 다루며, 긴 시퀀스에서 중요한 메모리 부담으로 설명한다. (NVIDIA GitHub)

즉 앞으로의 추론시장에서 중요한 것은 단순히 모델 크기만이 아니다.
긴 문맥과 높은 동시성을 얼마나 효율적으로 처리하느냐가 핵심이 된다. TurboQuant는 바로 이 지점을 겨냥한다. (Decrypt)


2. 시장의 가장 큰 오해: HBM은 전부 KV cache에 쓰이는가


먼저 이부분에서 오해가 있는듯 싶다.

일부는 HBM 수요가 거의 전부 KV cache에서 나오는 것처럼 말한다.
하지만 실제 추론 시스템에서 HBM 수요는 훨씬 더 복합적이다.

NVIDIA의 TensorRT-LLM 문서는 추론 메모리를 크게 weights, internal activations, I/O tensors로 설명한다. 이때 KV cache는 I/O tensor의 중요한 한 축일 뿐이다. 즉 HBM은 단순한 “문맥 저장 공간”이 아니라, 모델 자체, 문맥, 중간 계산, 런타임 버퍼가 동시에 올라가는 공간이다. (NVIDIA GitHub)

쉽게 정리하면 HBM 수요는 대략 네 가지다.

첫째, Weight

모델이 학습을 통해 얻은 파라미터다. 쉽게 말해 AI의 장기기억이다.
모델이 클수록 이 비중이 커진다.

둘째, KV cache

현재 세션에서 읽은 문맥을 임시로 저장하는 공간이다.
문맥이 길어지고, 동시 요청이 늘고, 멀티턴 작업이 많아질수록 커진다.

셋째, Activation / runtime workspace

계산 과정에서 잠깐 생겼다가 사라지는 중간 텐서와 작업 공간이다.
배치가 커지고 처리량이 높아질수록 피크 메모리를 만든다.

넷째, MoE hidden overhead

Sparse MoE 구조에서는 토큰을 expert로 보내고 다시 합치는 과정이 추가된다.
이때 routing metadata, dispatch/combine buffer, padding, expert-side activation 같은 추가 VRAM 비용이 붙는다. 이는 KV cache와 별개다. vLLM과 NVIDIA 문서 모두 MoE에서 별도 dispatch·expert 배치 구조가 필요함을 보여준다. (NVIDIA Docs)

따라서 TurboQuant가 KV cache를 줄인다고 해서, 곧바로 HBM 전체 수요가 무너진다고 해석하는 것은 과장이다.
정확히는 HBM 안의 한 병목 축이 완화되는 것이다. (Decrypt)


3. 최신 모델에서도 HBM은 전부 KV cache가 아니다


이 점을 더 직관적으로 보기 위해, 최신 모델들의 HBM 사용 비중을 방향성 추정으로 정리해보면 아래와 같다.

먼저 전제를 분명히 해야 한다.

아래 비중은 공식 수치가 아니다. 폐쇄형 모델은 내부 구조가 공개되지 않았고, 오픈웨이트 모델도 실제 배포 방식에 따라 비중이 달라진다. 따라서 아래 표는 공개 스펙과 NVIDIA의 추론 메모리 프레임워크를 바탕으로 한 보수적 추정치다. GPT-5.4는 공식적으로 1.05M context window, Claude Opus 4.6과 Sonnet 4.6은 Anthropic의 최신 상위 모델, Grok 4.20은 xAI의 최신 플래그십 모델로 소개된다. Llama 4 Maverick과 Scout, Mistral Large 3는 공개 MoE 스펙이 있다. (OpenAI 개발자)

최신 모델별 HBM 사용 비중 추정



이 표가 말하는 것은 단순하다.

최신 모델에서도 HBM은 전부 KV cache가 아니다.
짧은 문맥과 낮은 동시성에서는 여전히 weight가 가장 큰 덩어리다.
장문, 고동시성, 에이전트형 워크로드로 갈수록 KV cache가 빠르게 올라온다.
Sparse MoE 구조에서는 여기에 숨은 VRAM 비용까지 추가된다.

즉 TurboQuant가 줄이는 것은 HBM 전체가 아니라, HBM 안의 특정 병목 한 축이다.
이 점을 놓치면 인과관계가 틀어진다. (NVIDIA GitHub)


4. TurboQuant가 줄이는 것과 줄이지 못하는 것


이 부분은 분명하게 구분해야 한다.

TurboQuant가 직접 줄이는 것KV cache다.
Google이 제시한 벤치마크는 H100 환경에서 attention computation 성능 향상과 KV cache 메모리 절감 효과를 보여준다. 다만 이 수치가 곧바로 모든 상용 추론 환경의 체감 절감률을 의미하는 것은 아니다. (Tom's Hardware)

반면 TurboQuant가 직접 줄이지 못하는 것도 분명하다.

  • Weight

  • Activation / runtime workspace

  • MoE hidden overhead

즉 TurboQuant는 HBM 전체를 줄이는 기술이 아니라, HBM 안의 KV 병목을 뒤로 미루는 기술이다.
이 구분이 매우 중요하다. KV가 줄었다고 해서 모델 자체의 weight가 줄어드는 것도 아니고, MoE의 dispatch/combine 비용이 자동으로 사라지는 것도 아니다. (Decrypt)


5. “6배 절감” 해석이 과장될 수 있는 이유


TurboQuant를 둘러싼 시장 반응이 과장된 이유 중 하나는, 발표된 숫자를 그대로 현재 상용 추론 환경에 대입했기 때문이다.

먼저 TurboQuant 개념 자체가 완전히 새로운 것은 아니다. 관련 arXiv 논문은 2025년 4월에 공개됐고, 이번에는 Google Research가 이를 더 널리 알린 셈이다. (SDxCentral)

또한 공개된 8배 성능, 6배 메모리 절감은 인상적인 숫자지만, 이를 현재의 실제 배포 환경에 기계적으로 대입하는 것은 조심해야 한다. 이미 업계는 추론에서 더 낮은 정밀도와 다양한 KV 최적화를 사용하고 있기 때문이다. NVIDIA도 KV cache reuse, eviction, offload, quantization 같은 최적화를 별도 시스템 영역으로 다룬다. 즉 “아무 최적화도 없던 환경”과 비교한 최대 효과를 곧바로 현재 운영 환경의 순증 효과로 읽으면 과장될 수 있다. (NVIDIA GitHub)

여기에 더 중요한 반론이 하나 있다.

메모리를 절감하면, 보통 그 절감분은 비용 감소로 끝나지 않는다.
대개 더 긴 컨텍스트, 더 높은 동시성, 더 많은 agent step으로 다시 쓰인다.
OpenAI의 GPT-5.4는 1M급 context를 전면에 내세우고 있고, Claude와 Grok 역시 긴 문맥과 agentic workflow를 강조한다. (OpenAI)

비슷한 사례는 이미 있었다.
DeepSeek-V2는 KV cache를 93.3% 줄였다고 밝히면서도, 동시에 throughput을 크게 높였다고 설명했다. 이 사례가 말해주는 것은 단순하다. KV cache 효율화는 곧바로 메모리 산업의 수요 붕괴로 이어진다기보다, 오히려 더 많은 사용을 가능하게 하는 효율 향상일 수 있다는 점이다. (arXiv)

즉 “KV cache 압축 = HBM 수요 붕괴”라는 해석은 기술적으로도, 산업적으로도 너무 직선적이다.


6. 병목은 사라지는 것이 아니라 이동한다


AI 인프라는 메모리가 사라지는 방향으로 가는 것이 아니다.
오히려 병목의 위치가 이동하는 방향으로 진화한다.

초기에는 weight 병목이 크다.
큰 모델을 HBM에 올리는 것 자체가 부담이기 때문이다.

그다음에는 KV cache 병목이 커진다.
문맥이 길어지고, 동시 요청이 늘어나기 때문이다.

만약 TurboQuant가 이 문제를 완화하면, 그 다음에는 MoE hidden overhead가 더 잘 보이기 시작한다.
그리고 처리량이 더 올라가면 activation / runtime이 다음 병목이 된다.
마지막에는 GPU 간 통신과 interconnect가 더 중요해진다.

즉 흐름은 대체로 이렇다.

Weight → KV cache → MoE hidden overhead → Activation/runtime → Interconnect

핵심은 간단하다.

TurboQuant는 HBM 수요를 없애는 기술이 아니라, KV cache 병목을 뒤로 미루는 기술이다.
병목은 사라지는 것이 아니라 다음 계층으로 이동한다. (NVIDIA GitHub)



7. 그래서 TurboQuant는 오히려 HBM의 가치를 키울 수 있다


많은 투자자가 **“메모리 사용량 절감 = 메모리 수요 감소”**라고 바로 연결한다.
하지만 실제 산업에서는 꼭 그렇지 않다.

KV cache 병목이 줄어들면 기업은 그 여유를 남겨두지 않는다.
보통 그 여유를 다시 사용한다.

  • 더 긴 컨텍스트를 제공하고

  • 더 높은 동시 요청을 받고

  • 더 많은 agent step을 돌리고

  • 더 복잡한 추론 워크플로를 처리한다

GB per query는 내려갈 수 있어도,
그 대신 query 수, context 길이, 동시성, agent step 수가 더 빠르게 올라가면 총 HBM 사용량과 경제적 가치는 오히려 커질 수 있다.

이런 의미에서 TurboQuant는 HBM 수요를 죽이는 기술이라기보다,
같은 HBM으로 더 많은 부가가치를 만들어내는 기술에 가깝다.
즉 HBM의 효율을 높여 새로운 추론 시장을 여는 기술로 보는 편이 더 적절하다. (Decrypt)


8. HBM 밖의 메모리는 어떻게 될까


이제 질문은 자연스럽게 HBM 밖으로 확장된다.
TurboQuant가 KV cache 병목을 풀면, DRAM과 NAND는 어떻게 될까.

DRAM

TurboQuant는 직접적으로는 HBM 안의 KV cache를 건드린다.
그래서 아주 단순하게 보면 HBM 증가율 일부를 낮출 수는 있다.

하지만 AI 서버 전체를 보면 DRAM 수요는 그렇게 단순하지 않다.
여전히 모델 weight, activation, CPU 쪽 서버 메모리 수요가 있고, AI 추론 자체가 커질수록 일반 서버 DRAM도 함께 따라간다. 실제로 메모리 업체들과 시장조사기관은 AI 확산이 HBM뿐 아니라 서버 DRAM 수요와 가격 환경에도 영향을 준다고 보고 있다. (웨스트지 뉴스)

즉 DRAM은 약세라기보다, AI 인프라 안에서 더 구조적으로 중요한 위치로 재편될 가능성이 크다.

NAND

NAND는 오히려 더 직접적인 간접 수혜가 가능하다.

에이전트 시대에는 모든 상태를 HBM에만 올려두지 않는다.
오래된 문맥은 요약되고, 외부 저장소로 내려가고, 필요할 때 다시 불러온다.

이 과정에서 중요해지는 것은

  • enterprise SSD

  • vector DB

  • RAG 데이터 저장소

  • agent memory 저장 계층

이다.

즉 TurboQuant가 KV cache 병목을 완화해 더 많은 추론을 가능하게 하면,
그 위에서 돌아가는 데이터 저장과 메모리 계층화 수요는 오히려 더 커질 수 있다. 따라서 NAND는 직접 악재라기보다 AI 저장 계층의 수혜 영역으로 보는 편이 더 자연스럽다. (웨스트지 뉴스)


9. 왜 “터보퀀트가 메모리 수요를 죽인다”는 해석이 과장인가


이 해석이 성립하려면 두 가지 전제가 필요하다.

첫째, AI 시장이 더 이상 성장하지 않는 닫힌 시장이어야 한다.
즉 효율이 좋아져도 사용량은 늘지 않아야 한다.

둘째, HBM 수요가 거의 전부 KV cache여야 한다.
그래야 KV를 줄이는 것이 곧 HBM 수요 감소로 이어진다.

하지만 현실은 둘 다 다르다.

AI 시장은 지금도 더 긴 문맥, 더 높은 동시성, 더 복잡한 에이전트 작업으로 확장 중이다.
또 HBM 수요는 Weight, KV cache, Activation, MoE hidden overhead가 함께 만든다.

TurboQuant = 메모리 수요 붕괴라는 해석은,
성장 없는 시장과 단일 메모리 구조를 가정한 과장된 공포에 가깝다. (NVIDIA GitHub)


결론


TurboQuant의 본질은 단순하다.

HBM 전체를 줄이는 기술이 아니라, 장문 추론에서 빠르게 커지는 KV cache 병목을 완화하는 기술이다.

그리고 그 효과는 메모리 수요 파괴보다, 오히려 다음과 같은 방향으로 나타날 가능성이 크다.

  • 더 긴 컨텍스트

  • 더 높은 동시성

  • 더 많은 agent workflow

  • 더 복잡한 추론 시장 개화

  • HBM의 효율과 부가가치 상승

  • DRAM과 NAND의 구조적 역할 확대

따라서 지금 시장의 메모리 패닉셀은 ‘현재 공개 정보 기준으로는 과도한 1차 해석일 가능성이 높다’

TurboQuant는 메모리를 죽이는 기술이 아니라, AI 추론 시장을 한 단계 더 넓히는 기술에 가깝다.
그리고 그 과정에서 메모리 수요는 사라지기보다, 더 정교하고 더 고부가가치적인 형태로 재편될 가능성이 높다.


#글을 마치며


글에서 마지막으로 덧붙일 만한 시각은 Google의 전략적 맥락이다.

TurboQuant를 발표한 주체가 구글 리서치라는 점, 그리고 구글이 한편으로는 TPU 기반의 독자적 추론 인프라를 구축하면서도 다른 한편으로는 메모리 LTA(장기공급계약) 에서 업계 내 가장 공격적인 수요자 중 하나라는 점을 함께 놓고 보면, 이번 발표는 단순한 기술 공개 이상으로 읽힐 수 있다.

즉, 이번 발표는 단순히 효율적인 추론 기술을 제시한 것이 아니라, NVIDIA/HBM 생태계를 향한 일종의 심리전일 가능성도 있다. 시장에 메모리 수요 둔화 우려를 자극해 이른바 패닉셀을 유도하는 한편, 정작 구글 자신은 그 과정에서 보다 유리한 가격에 물량을 확보하는 구조를 기대했을 수 있다는 해석도 가능하다.

이런 관점에서 보면, 이번 발표의 잠재적 수혜자는 오히려 구글 자신일 수 있다.

물론 이는 어디까지나 확인된 사실이 아니라 하나의 해석에 가깝다. 다만 투자자 입장에서는 기술의 내용 자체뿐 아니라, 누가, 왜, 하필 지금 이 발표를 내놓았는가까지 함께 살펴볼 필요가 있다. 그래야 이번 발표의 의도와 파급효과를 보다 입체적으로 해석할 수 있지 않나 싶다.

=끝

2026년 3월 25일 수요일

생각정리 209 (* TurboQuant)

구글은 TurboQuant라는 새 압축 기술을 공개했다.

이 기술은 AI가 내부적으로 쓰는 벡터와 KV 캐시를 매우 작게 줄이면서도 성능 저하를 거의 없애는 것이 핵심이다. 실험에서는 KV 메모리를 6배 이상 줄이고, 일부 경우 속도도 크게 개선됐다고 설명한다.

터보퀀트에 대해 간단한 생각을 기록해본다. 


TurboQuant는 정말 AI 메모리 수요를 줄일까


KV 캐시 압축 논문을 쉽게 읽는 법과 메모리 산업에 대한 시사점


AI 관련 논문을 보다 보면, 일정 주기마다 **“메모리 부담을 줄여 더 효율적으로 모델을 운용할 수 있다”**는 메시지가 반복적으로 등장하곤 한다.

과거에는 Nvidia의 KTKV가 그런 흐름을 대표하는 사례 중 하나였다.

KTKV는 KV 캐시를 이미지 압축과 유사한 방식으로 다뤄, 저장과 전송에 유리한 형태로 크게 줄이는 기술이다.특히 긴 대화나 반복적인 에이전트 작업처럼, 과거 문맥을 다시 불러와야 하는 환경에서 강점을 가진다.

즉, 단순히 실행 중 메모리를 아끼는 데 그치지 않고, KV 캐시를 오프라인으로 저장했다가 필요할 때 재사용하는 활용 방식에 더 적합하다는 의미다.
결국 KTKV의 핵심 주장은 **“더 적은 메모리로 AI를 운용할 수 있다”**는 데 있다고 볼 수 있다.

최근 주목받는 TurboQuant도 얼핏 보면 그런 흐름 위에 있는 논문 중 하나라고 한다.

실제로 TurboQuant고차원 벡터를 아주 적은 비트로 압축하면서도, 중요한 정보 손실을 최소화하는 방법을 제안한다.

논문은 이를 통해 KV 캐시 양자화벡터 검색에서 좋은 성능을 보였다고 주장한다. 초록에서는 이 방법이 온라인 적용이 가능하고, 이론적으로도 거의 최적에 가까운 왜곡률을 보이며, KV 캐시에서는 3.5 bits per channel에서 품질 저하가 거의 없고, 2.5 bits에서는 성능 저하가 제한적이라고 설명한다.

하지만 여기서 곧바로
“그럼 앞으로 HBM 수요가 줄겠네”
“메모리 병목이 사라지겠네”
라고 해석하면 너무 빠르다.

이 논문을 더 정확하게 읽으려면 먼저 TurboQuant가 실제로 무엇을 하는 기술인지부터 차근차근 이해할 필요가 있다.


먼저, KV 캐시가 무엇인지부터 쉽게 보자


LLM은 긴 대화를 할수록 앞에서 나온 내용을 계속 기억해야 한다.
이때 모델이 임시로 들고 있는 작업 메모장이 바로 KV 캐시다.

쉽게 말하면 이렇다.

  • 짧은 질문 하나를 처리할 때는 메모장이 얇다

  • 대화가 길어질수록 메모장은 점점 두꺼워진다

  • 메모장이 두꺼워질수록 메모리 사용량도 커지고, 처리 속도 부담도 커진다


논문도 이 점을 분명히 짚는다.
Transformer 계열 모델은 이전 토큰의 key/value 임베딩을 KV 캐시에 저장해야 하고, 이 크기는 모델 크기문맥 길이가 커질수록 함께 증가한다. 그래서 특히 장문맥 모델에서는 메모리 사용량과 속도 측면에서 큰 병목이 된다고 설명한다.

TurboQuant는 이 메모장을 없애는 기술이 아니다.

더 정확히는 같은 내용을 더 작은 공간에 정리해서 담는 기술이다.

즉, 이 논문은 AI 전체 메모리 문제를 한 번에 해결하는 기술이라기보다,
장문맥 추론에서 커지는 KV 캐시 부담을 줄이려는 기술이라고 보는 편이 맞다.


여기서 자주 나오는 용어를 가장 쉽게 설명하면

1) 벡터

그냥 숫자 여러 개를 한 줄로 모아놓은 것이다.
컴퓨터는 문장이나 이미지 같은 것을 바로 이해하지 못하니, 이런 숫자 묶음으로 바꿔서 다룬다.

2) 양자화

원래는 정밀한 숫자로 저장하던 것을, 더 단순한 숫자로 바꿔서 저장하는 압축 방식이다.
쉽게 말해 정교한 숫자를 거칠게 반올림해서 저장하는 것이다.

3) MSE

압축한 뒤 복원한 값이 원래 값과 얼마나 다른지 보는 오차 지표이다.
작을수록 원래 벡터를 잘 살렸다는 뜻이다.

4) 내적(Inner Product)

두 벡터가 얼마나 비슷한 방향을 보는지 계산하는 값이다.
검색, 추천, attention 계산에서 매우 중요하다.
즉, 벡터 자체를 잘 복원하는 것도 중요하지만, 실제 서비스에서는 벡터끼리 관계를 잘 보존하는 것이 더 중요할 때가 많다.

5) 편향(Bias)

계속 한쪽으로 틀어지는 오차이다.
예를 들어 실제보다 계속 작게 계산되면 그건 편향이 있는 것이다.
이 논문은 MSE는 잘 맞아도 내적은 편향될 수 있다고 말한다.

6) 잔차(Residual)

1차로 압축하고 나서도 남는 나머지 오차이다.
즉, “대충 복원하고도 아직 틀린 부분”이다.
TurboQuant는 이 남은 부분까지 한 번 더 처리한다.

7) 랜덤 회전(Random Rotation)

벡터를 다른 좌표계로 한번 돌려 놓는 과정이다.
왜 돌리느냐 하면, 원래는 특정 좌표에 값이 몰려 있을 수 있는데, 돌려 놓으면 정보가 좀 더 골고루 퍼져서 압축하기 쉬워진다.

8) QJL

이 논문에서 잔차를 처리할 때 쓰는 장치이다.
복잡하게 볼 필요 없이, 내적을 치우치지 않게 보정해 주는 1비트 보정 방식이라고 이해하면 충분하다. 


TurboQuant의 핵심은 “2단계 압축”이다


TurboQuant가 기존 압축 방식과 다른 이유는, 단순히 숫자를 거칠게 줄이는 것이 아니라 2단계 구조를 썼기 때문이다.


1단계: 먼저 전체를 작게 줄인다


논문은 입력 벡터를 바로 압축하지 않고, 먼저 랜덤 회전(random rotation) 을 적용한다.
이 말이 어렵게 들릴 수 있는데, 뜻은 단순하다. 원래 벡터는 특정 좌표에 정보가 몰려 있을 수 있는데, 방향을 한 번 바꿔 놓으면 정보가 더 고르게 퍼져서 다루기 쉬워진다는 뜻이다. 논문은 이렇게 회전한 뒤 각 좌표가 비슷한 분포를 가지게 되고, 서로 거의 독립처럼 행동하기 때문에 좌표별로 단순하게 압축해도 좋은 결과가 나온다고 설명한다.

그다음에는 각 좌표를 미리 정해둔 대표값으로 바꾼다.
이 단계의 목적은 원래 벡터와 복원된 벡터의 차이, 즉 MSE(평균제곱오차) 를 작게 만드는 것이다. 논문은 이 방식이 정보이론적 하한에 작은 상수배 정도만 차이 나는 수준이라고 주장하며, 특히 낮은 비트에서도 좋은 왜곡률을 보인다고 설명한다.

아주 쉽게 말하면,
이 1단계는 전체 모양을 최대한 덜 망가뜨리면서 먼저 크게 줄이는 작업이다.

2단계: 줄이고 남은 오차를 다시 보정한다


그런데 여기서 끝나지 않는다.
논문이 강조하는 핵심은 원래 모양을 비슷하게 복원하는 것벡터끼리의 관계를 정확히 유지하는 것이 서로 다른 문제라는 점이다.

AI에서는 단순히 숫자를 원래와 비슷하게 복원하는 것보다,
어떤 벡터와 어떤 벡터가 얼마나 비슷한지를 잘 보존하는 것이 더 중요할 때가 많다. 논문은 이를 inner product, 즉 내적 보존 문제로 설명한다. 그리고 MSE에 최적화된 양자화는 내적 계산에서는 편향(bias) 을 만들 수 있다고 지적한다. 실제로 1비트 예시에서는 내적 추정이 2/π배 수준으로 줄어드는 편향이 생길 수 있다고 설명한다.

그래서 TurboQuant는 1차 압축 후 남는 잔차(residual) 를 따로 구한 뒤, 여기에 QJL(Quantized Johnson-Lindenstrauss) 이라는 1비트 보정 기법을 한 번 더 적용한다. 이 2단계 덕분에 최종적으로는 내적을 편향 없이 추정하는 구조가 된다. 논문은 이 방식이 unbiased inner product estimator라고 설명한다.

정리하면 이렇다.

  • 1단계: 전체를 먼저 작게 줄인다

  • 2단계: 줄이고 남은 중요한 오차를 다시 보정한다


즉 TurboQuant는
“그냥 압축”이 아니라 “먼저 크게 줄이고, 관계가 틀어지지 않게 한 번 더 손보는 방식” 이다.


왜 이 방식이 기존 압축보다 주목받았는가


기존 압축 방식도 벡터를 줄일 수는 있었다.
하지만 많은 방법은 압축 과정에서 추가 정보나 보정값을 따로 저장해야 해서, 생각보다 메모리 절감 효과가 깎이는 경우가 많았다. 즉 압축은 했는데, 압축을 설명하기 위한 부가 데이터가 다시 붙는 문제가 있었다.

TurboQuant가 강조하는 지점은 여기에 있다.

  • 먼저 큰 정보를 효율적으로 압축하고
  • 남은 오차는 아주 적은 비트로 따로 보정하고
  • 이 과정에서 숨은 메모리 오버헤드도 최대한 낮추려는 구조를 가졌다는 점이다.


쉽게 말하면,
“책 전체를 압축 요약하고, 빠진 중요한 뉘앙스만 초저비용 메모로 덧붙이는 방식”에 가깝다.


논문이 왜 주목받았는가


이 논문이 주목받은 이유는 실험 결과가 꽤 강하게 제시됐기 때문이다.

대표적으로 논문은 Needle-In-A-Haystack 테스트에서, Llama-3.1-8B-Instruct 모델 기준 TurboQuant가 4배 압축 상태에서도 Full-Precision과 동일한 0.997 점수를 기록했다고 보여준다. 비교 대상인 SnapKV는 0.858, PyramidKV는 0.895, KIVI는 0.981, PolarQuant는 0.995로 제시된다. 즉 적어도 이 테스트 안에서는 압축했는데도 긴 문서 속 정보를 찾는 능력이 사실상 원본과 같았다는 뜻이다.

LongBench 결과도 비슷한 방향이다.
논문은 Llama-3.1-8B-Instruct에서 평균 점수가

  • Full Cache: 50.06

  • TurboQuant 2.5-bit: 49.44

  • TurboQuant 3.5-bit: 50.06

이라고 보고한다. 그리고 이 과정에서 최소 4.5배 압축을 달성했다고 설명한다. 또 기존 일부 방법과 달리, TurboQuant는 생성 중인 토큰에도 양자화를 적용했다고 강조한다.

벡터 검색에서도 비슷하다.
논문은 TurboQuant가 기존 PQ나 RabitQ보다 recall이 더 좋고, 양자화 시간은 사실상 거의 0에 가깝다고 제시한다.

즉, 논문이 던지는 메시지는 분명하다.

“벡터를 많이 줄였는데도, 적어도 논문이 선택한 실험 환경에서는 성능이 꽤 잘 유지됐다.”

이 때문에 시장에서는 곧바로
“그럼 이제 메모리 덜 써도 되는 것 아닌가?”
라는 반응이 나오기 쉽다.

하지만 바로 그 지점에서 해석을 조심해야 한다.


왜 이 결과를 곧바로 대규모 상업 서비스로 일반화하면 안 되나


TurboQuant의 실험 결과가 흥미로운 것은 맞지만, 그렇다고 그것이 전 세계 상업 서비스 환경 전체에서 동일하게 작동한다는 뜻은 아니다. 논문이 보여주는 범위와 실제 서비스 현실 사이에는 꽤 큰 차이가 있다.

1. 실험 환경이 제한적이다


논문은 모든 실험이 단일 NVIDIA A100 GPU에서 수행됐다고 밝힌다.
즉, 수많은 사용자가 동시에 접속하는 대규모 서비스, 멀티 GPU 클러스터, 지역별 분산 시스템, 복잡한 스케줄링과 네트워크 지연까지 반영한 결과는 아니다.

실험도 특정 모델과 특정 벤치마크에 집중되어 있다.
대표적으로 Llama-3.1-8B-Instruct, Ministral-7B-Instruct, LongBench, Needle-In-A-Haystack, 일부 벡터 검색 데이터셋이 중심이다.

즉, 논문이 보여주는 것은
“이 조건에서는 잘 된다” 이지,
“모든 상업 환경에서 보편적으로 잘 된다” 는 뜻은 아니다.


2. 평균 점수와 실제 서비스의 리스크는 다르다


논문은 평균 점수와 벤치마크 성능을 잘 보여준다.
하지만 실제 상업 서비스에서 더 중요한 것은 평균보다 예외 상황이다.

예를 들어,

  • 특정 언어에서만 성능이 흔들릴 수도 있고

  • 아주 긴 세션에서만 누적 오차가 커질 수도 있고

  • 코드 생성, 에이전트, 툴 호출처럼 복합 작업에서만 문제가 생길 수도 있다

  • 일부 고객군은 아주 작은 품질 저하에도 민감할 수 있다

이런 문제는 벤치마크 평균 점수만으로는 잘 드러나지 않는다.

즉, 논문이 보여주는 것은
“통제된 환경에서 평균적으로 잘 작동한다” 는 것이고,
그것이 바로 “대규모 서비스에서도 안전하게 쓸 수 있다” 는 뜻은 아니다.


3. KV 캐시만 줄인다고 전체 병목이 사라지는 것은 아니다


TurboQuant는 KV 캐시 압축에는 강하다.
하지만 실제 AI 서비스의 비용과 성능은 KV 캐시 하나만으로 결정되지 않는다.

현실의 추론 시스템은

  • GPU 연산 자원

  • HBM 대역폭

  • 서버 DRAM

  • 스토리지 오프로딩

  • 네트워크

  • 배치 정책

  • 스케줄링

  • 전력과 냉각

이 모두가 함께 얽혀 있다.

즉, KV 캐시 부담이 줄어도 전체 병목이 다른 곳으로 이동할 수 있다.
그렇다면 TurboQuant는 특정 병목을 줄이는 기술이지, AI 시스템 전체를 갑자기 가볍게 만드는 기술은 아니다.

4. 상용 서비스는 연구실보다 훨씬 보수적이다


논문에서는 2.5bit, 3.5bit 같은 공격적인 설정도 시도한다.
하지만 실제 서비스 운영에서는 작은 품질 흔들림도 문제로 이어질 수 있다.

그래서 현실에서는
“논문에서는 3.5bit가 괜찮다고 했지만, 우리는 당분간 더 안전한 설정만 쓰자”
처럼 훨씬 보수적으로 도입될 가능성이 높다.

즉, 논문이 좋다고 해서 상용 확산 속도까지 빠른 것은 아니다.


그래서 왜 “메모리 수요 감소”로 바로 연결하면 위험한가


여기서 산업 관점이 중요해진다.

많은 사람은 효율 기술이 나오면
“이제 하드웨어를 덜 사도 되겠네”
라고 생각한다.

하지만 AI 산업은 대체로 반대로 움직여 왔다.
이런 현상은 효율이 높아질수록 오히려 총사용량이 늘어나는, 이른바 ‘제번스의 역설’로 설명할 수 있다.


FP16

처음 FP16이 널리 쓰이기 시작했을 때도, 더 적은 비트로 연산하니 자원 사용이 줄 수 있다는 기대가 있었다.
하지만 실제로는 그 효율이 더 큰 모델, 더 빠른 학습, 더 많은 GPU 클러스터로 이어졌다.


FP8, FP4

저정밀 연산도 마찬가지였다.
효율이 좋아지면 보통 사람들은 자원을 아끼지 않는다. 오히려 “그럼 같은 비용으로 더 큰 모델을 돌릴 수 있겠네”라고 생각한다. 결과적으로 총 GPU 수요와 메모리 수요는 계속 커졌다.


Sparse MoE

Sparse MoE도 이론적으로는 더 효율적인 구조다.
하지만 현실에서는 “그럼 훨씬 더 큰 파라미터 규모의 모델을 만들자”로 이어졌다.
즉, 효율 향상이 비용 절감으로 끝난 것이 아니라 더 큰 시스템을 가능하게 하는 발판이 됐다.

TurboQuant도 비슷한 맥락에서 볼 수 있다.

KV 캐시를 더 효율적으로 줄일 수 있다면 기업은 보통
“그럼 HBM을 덜 사자”보다는

  • 더 긴 문맥을 열고

  • 동시 사용자 수를 늘리고

  • 더 긴 추론을 제공하고

  • 더 복잡한 기능을 서비스에 붙이는

쪽으로 갈 가능성이 크다.

그래서 TurboQuant는
메모리 수요를 죽이는 기술이라기보다,
같은 메모리로 더 많은 경제적 가치를 뽑아내게 만드는 기술로 보는 편이 더 현실적이다.



그렇다면 메모리 업체에는 오히려 좋은 것 아닌가


바로 이 부분이 중요하다.

만약 TurboQuant 덕분에 같은 HBM, 같은 DRAM, 같은 NAND로 예전보다 더 많은 추론량과 더 높은 서비스 가치를 만들 수 있다면, 메모리 1GB가 만들어내는 경제적 가치도 커진다.

그러면 공급이 제한적이고 과점적인 시장에서는 이런 논리가 자연스럽게 가능해진다.

“같은 메모리가 예전보다 더 많은 돈을 벌어주는데, 왜 공급사가 그 가치의 일부를 더 높은 가격으로 가져가지 못하겠는가?”

즉, TurboQuant는 단순히 메모리 사용량을 줄이는 기술이 아니라,
메모리의 가치 밀도를 높이는 기술로도 볼 수 있다.

다만 이 효과는 메모리 종류마다 다르게 나타난다.


HBM, DRAM, NAND 중 어디가 가장 유리한가


가장 단순하게 정리하면 HBM > 서버 DRAM > NAND 순서로 보는 것이 자연스럽다.


HBM


HBM은 AI 추론과 학습에서 가장 중요한 고속 메모리다.
논문도 LLM 추론 지연의 주요 원인 중 하나로 HBM과 SRAM 사이 통신 병목을 언급한다.

중요한 점은 TurboQuant가 HBM의 필요성을 없애는 것이 아니라, 같은 HBM으로 더 많은 일을 하게 만든다는 것이다.
그렇다면 HBM 1GB당 창출 가치가 올라가고, 공급이 빡빡한 과점 시장에서는 공급사가 가격 방어력과 협상력을 더 가질 수 있다.


서버 DRAM


DRAM도 분명 수혜 가능성은 있다.
장문맥과 동시성이 늘어나면 중간 계층 메모리의 역할도 커질 수 있기 때문이다. 다만 HBM처럼 절대적인 병목 프리미엄을 가지는 경우는 상대적으로 적다.

즉, DRAM은 활용도 상승은 가능하지만, HBM 같은 강한 프리미엄 가격 인상 논리까지 가기는 상대적으로 어렵다.


NAND


NAND는 가장 바깥쪽 저장 계층이다.
용량 측면에서는 계속 중요하지만, TurboQuant로 인해 가장 직접적으로 가치가 커지는 영역은 아니다. 활용량이 늘 수는 있어도, 가격결정력 강화까지 연결되기는 가장 약한 쪽이다.


결국 TurboQuant를 어떻게 봐야 하나


TurboQuant는 분명 KV 캐시와 벡터 압축 문제를 정면으로 다루는 기술이다.
논문이 말하는 핵심도 명확하다.

  • 벡터를 적은 비트로 압축하되

  • 단순 복원뿐 아니라 벡터 간 관계까지 보존하고

  • 이를 위해 2단계 구조를 사용하며

  • 특정 실험에서는 꽤 강한 성능을 보였다

하지만 여기서 바로
“AI 메모리 수요가 줄어든다”
“HBM 시대가 끝난다”
같은 결론으로 가는 것은 과하다.

개인적인 현실적인 해석은 이렇다.

  • TurboQuant는 AI 전체 메모리 문제를 해결하는 기술이라기보다, KV 캐시처럼 특정 병목을 완화하는 기술에 가깝다.

  • 현재 논문 실험은 제한된 환경에서 이뤄졌기 때문에, 이를 대규모 상업 서비스 전반으로 확장하려면 추가 검증과 시간 필요하다.

  • AI 산업에서는 효율 기술이 총 하드웨어 수요를 줄이기보다, 오히려 총사용량을 늘리는 방향으로 작동한 경우가 더 많았다.

  • 이런 흐름을 감안하면 TurboQuant 역시 메모리 수요를 직접 줄이기보다는, 같은 메모리의 경제적 가치를 높이는 기술로 볼 수 있다.

  • 그 결과 전체 메모리 활용도와 수요가 오히려 확대될 가능성이 충분히 높다.


한 문장 결론


TurboQuant는 메모리를 아예 덜 쓰게 만드는 기술이라기보다,
같은 메모리로 더 많은 일을 하게 만드는 기술에 가깝다.
그리고 이렇게 한정된 메모리에서 더 큰 가치가 만들어진다면,
과점 구조의 메모리 공급사들은 그 증가한 가치의 일부를 제품 가격 인상 형태로 흡수할 가능성이 있지 않나 싶다.


#글을 마치며 


TurboQuant를 바라볼 때 중요한 것은, 이를 단순히 “메모리 사용량을 줄여주는 기술”로만 볼 것이 아니라 AI 추론 시스템 안에서 병목의 위치를 다시 이동시킬 수 있는 기술로 이해하는 것이 맞다. 

이 변화의 과실이 어디에 가장 많이 귀속될지는 아직 열려 있다. 메모리의 가치가 더 부각될 수도 있지만, 반대로 GPU 연산, 인터커넥트, 캐시 소프트웨어, 추론 엔진 최적화 같은 다른 계층이 더 큰 수혜를 가져갈 가능성도 충분하다.

정말로 TurboQuant의 기술이 추론 economics를 개선하면서 AI 인프라 내부의 가치 배분 구조를 다시 흔드는 기술이 될 수 있을지 지켜봐야 겠다.

=끝

2026년 3월 24일 화요일

생각정리 208 (* ARM CPU, TSMC, Memory)

최근 다모다란의 인터뷰,
어제 Arm Holdings의 키노트 스피치,
그리고 최근 더욱 선명해지고 있는 TSMC의 전략적 위상 변화는 서로 다른 주제를 다루는 듯 보이지만, Agent AI 시대라는 하나의 흐름 위에서 읽을 때 공통된 의미를 갖는다.

이 세 가지는 연산 구조의 재편, 설계와 제조의 권력 이동, 그리고 AI 가치사슬의 주도권 변화를 중심으로 재구성되고 있음을 보여준다.

이 글에서는 이 세 흐름을 하나의 축으로 묶어, Agent AI 시대의 중요한 변화가 어디에서 시작되고 어디로 향하는지를 정리해보고자 한다.

핵심요지


1. Agent AI 시대의 핵심은 모델 성능 경쟁보다 실행 구조 경쟁이다.

앞으로 AI의 가치는 답변 품질 자체보다, 실제 업무를 얼마나 안정적으로 수행하고 반복 실행할 수 있느냐에서 커질 가능성이 높다.

2. 이 구조에서는 GPU만이 아니라 CPU의 전략적 중요성이 다시 올라온다.
에이전트형 AI는 작업 분배, 도구 호출, 코드 실행, 오류 재시도, 결과 통합 같은 운영 기능이 많아 CPU가 시스템의 조정자 역할을 맡게 된다.

3. Arm의 투자포인트는 단순 CPU 판매 확대가 아니라 CPU 역할의 재정의다.
CPU가 범용 연산 보조가 아니라 AI 시스템의 운영 계층 핵심으로 격상되면, Arm의 TAM과 가치평가 기준도 함께 바뀔 수 있다.

4. 메모리는 단순 부품이 아니라 Agent AI의 기억 인프라가 된다.
중간 결과 저장, 문맥 유지, 상태 추적, 검색 기반 호출이 중요해질수록 물리적 메모리와 시스템 메모리 구조의 전략적 가치가 동시에 높아진다.

5. 결국 늘어나는 AI 수요는 선단공정과 첨단 패키징 병목으로 수렴한다.
GPU뿐 아니라 CPU, 제어 로직, 인터커넥트, 메모리 관련 칩까지 함께 증가하면, 최종적으로는 TSMC의 선단공정 희소성이 더 부각될 가능성이 크다.

6. 따라서 Agent AI 시대의 수혜는 단일 칩이 아니라 실행 인프라 전반으로 확산된다.
Arm은 운영 계층, 메모리는 상태 유지 계층, TSMC는 최종 제조 병목 계층에서 각각 구조적 수혜를 받을 가능성이 있다.

한 줄로 더 줄이면 이렇다.

Agent AI 확산은 GPU 중심의 AI 투자 프레임을 CPU·메모리·선단공정까지 넓히는 변화이며, Arm과 TSMC의 전략적 가치도 이 구조 속에서 다시 평가될 가능성이 크다.



Agent AI 시대, 왜 CPU·메모리·Arm·TSMC를 함께 봐야 하는가


AI 산업의 다음 단계는 단순히 모델이 더 똑똑해지는 문제가 아니다.
핵심은 AI가 실제 일을 대신 처리하는 구조가 얼마나 빨리 넓어지느냐다.

이 점에서 지금 가장 중요한 변화는 에이전트형 AI다.
에이전트형 AI는 질문에 답하는 데서 끝나지 않는다. 목표를 받고, 일을 나누고, 필요한 도구를 고르고, 코드를 실행하고, 중간 결과를 다시 점검한 뒤 수정한다. 말 그대로 디지털 직원에 가까운 구조다.

시장도 빠르게 움직이고 있다. 가트너는 2026년 말까지 기업용 응용프로그램의 40%가 특정 업무용 AI 에이전트를 갖추게 될 것이라고 전망했다. 현재는 5% 미만 수준이다. 변화 속도가 상당히 빠르다는 뜻이다. (가트너)


1. AI 시대의 기회는 “더 좋은 답변”보다 “실제 실행”에서 커진다


다모다란이 강조한 핵심은 분명하다.
AI 시대에 더 중요해지는 것은 추론력, 맥락을 엮는 능력, 이야기로 정리하는 능력, 서로 다른 정보를 연결하는 능력이다. 반복 업무는 AI가 빠르게 대체할 수 있지만, 무엇이 중요한지 가르고 의미를 부여하는 일은 더 희소해진다. (Aswath Damodaran)

이 관점은 산업에도 그대로 들어맞는다.
앞으로 가치가 커지는 것은 단순히 “모델 성능”이 아니다. 그 모델이 실제로 일을 하게 만드는 구조가 더 중요해진다.

에이전트형 AI는 바로 그 구조다.
그래서 앞으로 AI 인프라 수요는 단순 계산 수요가 아니라, 실행 수요로 번지게 된다.


2. 애널리스트·투자자에게 남는 비교우위도 달라진다


이 변화는 투자 업무에도 직접 연결된다.
예전에는 정보를 빨리 모으고, 엑셀을 빨리 돌리고, 반복 작업을 많이 처리하는 능력이 강점이었다.

이제는 그 구간의 가치가 조금씩 내려간다.
대신 더 중요한 것은 무엇을 물어봐야 하는지 아는 능력이다.

예를 들어, 이제는 뉴스 기사나 실적 발표 내용을 바로 숫자 모델로 바꾸고, 이전 대화 맥락을 이어서 시나리오를 다시 점검하고, 기업 변수와 거시 변수까지 한 번에 넣어 비교하는 일이 훨씬 빨라진다. 이런 작업은 AI가 상당 부분 대신할 수 있다.

그렇다고 인간의 강점이 사라지는 것은 아니다.
오히려 비교우위가 더 위쪽으로 올라간다.

앞으로 더 중요해지는 것은 다음과 같은 능력이다.

  • 문제를 잘 정의하는 능력

  • 중요한 변수와 중요하지 않은 변수를 가르는 능력

  • AI가 그럴듯하게 만든 오류를 걸러내는 능력

  • 정치·산업 변화 같은 비정형 정보를 숫자로 번역하는 능력

  • 투자 판단의 일관성을 유지하는 능력

  • 비중 조절과 위험 관리

즉, AI 시대의 애널리스트 비교우위는 정보 접근이나 작업 속도보다,
질문 설계, 맥락 통합, 검증, 의사결정 규율 쪽으로 이동한다.


이 점이 중요하다.
에이전트형 AI는 애널리스트를 대체한다기보다, 판단력을 더 위 단계로 끌어올리는 도구에 가깝기 때문이다.


3. 에이전트형 AI 시대에는 CPU가 다시 중심으로 올라온다


에이전트형 AI가 늘어날수록, 시스템 전체를 움직이는 축은 더 복잡해진다.

AI가 실제 일을 하려면 다음 같은 과정이 반복된다.

  • 작업 순서 정하기

  • 외부 도구 부르기

  • 데이터 다시 읽기

  • 코드 실행하기

  • 여러 결과 묶기

  • 오류 나면 다시 시도하기

이런 일은 대부분 GPU가 아니라 CPU가 맡는다.
GPU가 계산을 한다면, CPU는 전체 시스템을 운영하고 조정한다.

Arm은 최근 이 점을 강하게 강조하고 있다.
AI 데이터센터가 커질수록 CPU는 보조 부품이 아니라, 전체 흐름을 조정하는 중심축이 된다고 설명한다. 또 Arm 기반 데이터센터용 CPU는 이미 10억 개 이상의 코어가 배치됐고, 2025년에는 상위 대형 클라우드 사업자에 들어가는 컴퓨트의 절반 가까이 Arm 기반이 될 것이라고 밝혔다. (Arm Newsroom)

이 숫자가 의미하는 것은 단순하다.
Arm은 미래 가능성만 있는 회사가 아니라, 이미 설치 기반을 갖춘 상태에서 AI용 CPU 수요 확대의 중심에 들어가고 있는 회사라는 점이다. (Arm Newsroom)


4. Arm의 진짜 투자포인트는 “CPU 판매”보다 시장의 재정의에 있다

ARM Holdings


Arm AGI CPU의 핵심은 “Arm도 CPU를 만든다”가 아니다.
더 중요한 것은 CPU가 담당하는 시장의 범위가 커지고 있다는 점이다.

ARM은 현재 CPU 시장 기회(TAM) 를 약 30억 달러로 보고 있으나, AGI CPU 사업 확장을 통해 해당 시장이 장기적으로 1,000억 달러 규모까지 커질 수 있다고 전망하고 있다. 더 나아가 회사는 2030년까지 전체 TAM을 1조 달러 이상으로 확대하는 것을 목표로 하고 있다.

예전의 CPU 시장은 범용 서버 중심이었다.
하지만 에이전트형 AI 시대에는 CPU가 맡는 일이 훨씬 늘어난다.

예를 들면,

  • AI 가속기 조정

  • 작업 분배

  • 실행 환경 관리

  • 중간 결과 연결

  • 시스템 제어

  • 보안 경로 관리

같은 일들이다.

즉, 앞으로의 CPU 시장은 단순 서버 교체 시장이 아니라,
AI 시스템 전체를 굴리는 운영 계층 시장으로 넓어진다.

이 때문에 시장 크기도 다시 봐야 한다.

또 Arm은 누적 3,500억 개 이상의 칩 출하 기반을 갖고 있다. 여기에 이미 대형 클라우드 사업자 안에서 Arm 기반 서버 비중이 빠르게 올라오고 있다. 결국 Arm의 강점은 새 시장에 “이제 들어가는 것”이 아니라, 이미 깔려 있는 생태계 위에서 더 큰 시장을 맞이한다는 점이다. (Arm Newsroom)

정리하면 Arm의 투자포인트는 이렇다.

CPU가 더 많이 팔린다는 수준이 아니다.
CPU가 맡는 역할 자체가 더 중요해지고, 그만큼 Arm이 접근 가능한 시장도 커진다는 것이다.


https://www.youtube.com/watch?v=zkTrk_ymh4g



5. CPU가 중요해질수록 메모리의 전략적 가치도 같이 커진다


에이전트형 AI는 한 번 묻고 한 번 답하는 구조가 아니다.
중간 결과를 저장해야 하고, 이전 작업을 기억해야 하며, 맥락을 이어가야 한다.

이 때문에 메모리는 단순 부품이 아니다.
시스템의 기억 저장소가 된다.

여기서 메모리는 두 층으로 봐야 한다.

첫째는 실제 반도체로서의 메모리다.
고대역폭 메모리, 디램 같은 하드웨어가 여기에 들어간다.

둘째는 시스템 안의 기억 구조다.
세션 기록, 긴 문맥 저장, 검색용 데이터베이스, 중간 저장 지점 같은 것이 여기에 포함된다.

에이전트형 AI가 늘어날수록 이 둘 다 중요해진다.
CPU가 전체 흐름을 조정하더라도, 뒤에서 메모리가 상태를 안정적으로 저장하고 다시 꺼내주지 못하면 시스템 품질이 급격히 떨어진다.

이 문제는 현장에서도 이미 드러나고 있다.
블룸버그에 따르면 OpenAI의 최고운영책임자 브래드 라이트캡은 2026년 3월 행사에서, 현재 AI 인프라 확장의 병목으로 메모리 부족을 지목했다. 과거에는 전력이 문제였지만, 지금은 메모리가 더 직접적인 제약으로 떠오르고 있다는 뜻이다. (Bloomberg.com)

OpenAI가 최소 10기가와트 규모의 엔비디아 시스템 배치를 추진한다고 밝힌 점까지 함께 보면, AI 인프라 병목이 단순 계산 칩 부족이 아니라 계산을 떠받치는 메모리와 전력 체계 전체로 이동하고 있다는 점이 더 분명해진다. (OpenAI)


6. 결국 마지막 병목은 TSMC 선단공정으로 모인다


TSMC


counterpoint


이제 마지막으로 봐야 할 것은 TSMC다.
현재 선단공정은 이미 AI용 GPU와 맞춤형 반도체 수요만으로도 빠듯하다.

TSMC는 2025년 AI 가속기 관련 매출이 두 배 성장할 것으로 봤고, 이를 맞추기 위해 고급 패키징 설비도 늘리고 있다고 밝혔다. 또 3나노와 5나노 수요가 타이트한 상태가 몇 년 이어질 수 있다고 설명했다. (TSMC)

여기에 에이전트형 AI 확산으로 CPU 수요까지 본격적으로 붙으면 상황은 더 빡빡해질 수 있다.
중요한 것은 CPU 수요 증가가 GPU 수요를 대신하는 것이 아니라, 전체 AI 시스템이 필요로 하는 실리콘 양 자체를 늘린다는 점이다.

앞으로 늘어날 것은 GPU만이 아니다.

  • 고성능 CPU

  • 시스템 제어용 로직

  • 인터커넥트 주변 칩

  • 메모리 제어 관련 칩

까지 같이 늘어날 가능성이 높다.

이 구조에서는 TSMC의 선단공정이 단순한 생산설비가 아니다.
AI 인프라 전체를 실제로 늘릴 수 있느냐를 결정하는 핵심 병목 자산이 된다.

특히 TSMC는 2나노 공정이 고객의 에너지 효율형 컴퓨팅 수요를 겨냥하고 있고, 거의 모든 주요 반도체 혁신 기업이 TSMC와 함께 일하고 있다고 밝혔다. (TSMC)

결국 Agent AI 시대가 갈수록,
CPU와 메모리의 중요성이 커질수록,
TSMC 선단공정의 희소성도 같이 커질 가능성이 높다.


결론


에이전트형 AI의 확산은 단순히 “AI가 더 좋아진다”는 뜻이 아니다.
AI가 실제로 더 많은 일을 대신하는 구조가 열린다는 뜻이다.

이 구조가 커질수록 CPU는 다시 중심으로 올라온다.
메모리는 시스템의 기억과 연속성을 지탱하는 핵심이 된다.

그리고 이 모든 수요가 실제 칩 수요로 이어질수록, 마지막 병목은 TSMC 선단공정으로 모이게 된다.

애널리스트와 투자자의 비교우위도 여기서 다시 정의된다.
앞으로 중요한 것은 단순 정보 수집이나 반복 작업 속도가 아니다.

무엇을 물어야 하는지, 무엇이 핵심 변수인지, 무엇이 그럴듯한 오류인지, 어떤 판단 틀을 끝까지 유지할 것인지가 더 중요해진다.

한 문장으로 정리하면 이렇다.

Agent AI 시대의 본질은 모델 경쟁이 아니라 실행 구조 경쟁이며, 그 과정에서 CPU와 메모리의 전략적 가치가 커지고, Arm은 그 운영 계층의 수혜를 받을 가능성이 높으며, 최종적으로는 TSMC 선단공정의 희소성이 더 부각될 가능성이 크다.

=끝

2026년 3월 23일 월요일

생각정리 207 (* LNG, 전력인프라 value chain)

이란발 중동 전쟁 이후 재편될 에너지 지도를 살펴보고,
그중에서도 새롭게 주목받을 미국 LNG 산업 체인을 다시 정리해본다.


https://www.washingtonpost.com/world/2026/03/23/iran-war-us-lng-exports-taiwan-trump-asia-natural-gas/

https://www.eia.gov/todayinenergy/detail.php?id=67264



중동 리스크 이후 다시 주목받는 미국산 천연가스


그런데 이번에는 AI 전력부족까지 같이 봐야 한다


최근 에너지 시장에서 가장 중요한 변화는 단순한 유가나 가스가격이 아니다.
더 중요한 것은 전기를 안정적으로 공급할 수 있는가다.

예전에는 에너지를 얼마나 싸게 들여올 수 있는지가 더 중요했다.
지금은 다르다.
이제는 공급이 끊기지 않는 것, 그리고 필요한 시점에 전력을 충분히 확보할 수 있는 것이 더 중요해지고 있다.

중동 리스크가 커질수록 이런 흐름은 더 강해진다.
유럽과 아시아는 특정 지역 의존도를 낮추려 하고, 미국산 LNG는 그 대안으로 더 자주 거론된다. 동시에 미국 안에서는 AI 데이터센터 확산으로 전력 수요가 빠르게 커지고 있다. 즉, 지금 시장은 단순히 “가스를 누가 파느냐”보다 누가 전력 부족을 해결하는 핵심 자산을 갖고 있느냐까지 보기 시작했다. (IEA)

이 지점에서 투자 포인트가 바뀐다.
LNG 수출만 보면 Cheniere와 Venture Global이 가장 눈에 띈다.
하지만 AI 확산에 따른 전력부족까지 프레임에 넣으면, SempraGE Vernova가 훨씬 더 매력적으로 보일 수 있다. (Gevernova)


왜 미국산 천연가스가 여전히 중요할까


미국은 셰일가스를 바탕으로 세계적인 천연가스 생산국이 됐다.
여기에 LNG 수출 설비도 계속 늘고 있다.

EIA는 미국 LNG 수출이 신규 설비 램프업에 힘입어 계속 증가할 것으로 보고 있다. Plaquemines, Corpus Christi Stage 3, Golden Pass 같은 프로젝트가 본격 가동되면 미국 LNG 수출 능력은 크게 늘어난다. 이건 미국산 천연가스가 단순히 국내 연료가 아니라 글로벌 공급망의 핵심 자원이 된다는 의미다. (미국 에너지 정보청)







그런데 이제는 이 흐름만으로는 부족하다.
AI 데이터센터가 늘어나면 미국 안에서도 전력 수요가 더 커진다.
전력 수요가 커지면 결국 필요한 것은 세 가지다.

첫째, 안정적인 연료다.
둘째, 가스를 옮길 수 있는 인프라다.
셋째, 전기를 실제로 만들고 보낼 수 있는 설비다.

즉, 지금 시장은 LNG 수출, 가스 운송, 전력 인프라를 한 번에 연결해서 보기 시작했다. (IEA)



먼저 아주 쉽게 정리하면


이번에 볼 기업은 6곳이다.

  • Venture Global

  • Cheniere Energy

  • NextDecade

  • Sempra

  • Kinder Morgan

  • GE Vernova


이 회사들을 가장 쉽게 나누면 아래와 같다.

1. 가스를 해외에 파는 회사

  • Venture Global

  • Cheniere

  • NextDecade

  • Sempra

2. 가스를 운송하는 회사

  • Kinder Morgan

3. 전기를 만들고 보내는 설비 쪽 수혜 회사

  • GE Vernova

이 구분이 중요한 이유는 단순하다.
같은 천연가스 테마라도 돈을 버는 방식이 다르기 때문이다.

  • 어떤 회사는 LNG 가격이 오를 때 더 좋다.

  • 어떤 회사는 물량이 늘 때 더 좋다.

  • 어떤 회사는 전력설비 발주가 늘 때 더 좋다.

그래서 지금 같은 국면에서는 “가스가 좋다”가 아니라,
어느 구간에서 실적이 가장 직접적으로 늘어나는가를 봐야 한다.


이번 글의 핵심 결론


먼저 결론부터 정리하면 이렇다.

  • LNG 수출 테마에 가장 공격적인 회사: Venture Global

  • LNG 업종에서 가장 안정적인 대표주: Cheniere

  • 프로젝트 기대감이 큰 회사: NextDecade

  • 가스 물량 증가의 안정적 수혜주: Kinder Morgan

  • AI 전력부족과 LNG를 함께 담는 하이브리드: Sempra

  • AI 전력부족 테마의 가장 직접적인 장비 수혜주: GE Vernova

즉, 이번에는 투자 우선순위를 이렇게 볼 수 있다.

  • LNG 수출 확대만 보면 Cheniere, Venture Global

  • AI 전력부족까지 같이 보면 Sempra, GE Vernova

  • 가장 안정적인 인프라 축은 Kinder Morgan

  • 가장 높은 개발 옵션은 NextDecade


이제부터는 왜 그렇게 보는지,
각 회사의 핵심 경쟁력실적 연결고리를 중심으로 풀어보겠다.


1. Venture Global


가장 공격적인 종목

Venture Global


Venture Global



Venture Global은 여전히 이번 비교군에서 가장 공격적인 회사다.
좋게 말하면 실적 탄성이 가장 크다.
반대로 말하면 변동성도 가장 크다.

이 회사의 핵심 경쟁력은 빠른 증설 속도유연한 판매 구조다.
최근 회사 측은 실적 발표에서 미국이 현재 시장 교란 국면에서 가장 큰 추가 LNG 공급 여력을 가진다고 설명했다. 또 2026년 예상 생산능력의 69%가 이미 계약돼 있고, 추가 단·중·장기 계약도 더 붙을 수 있다고 했다. (The Motley Fool)

이 말은 결국 이런 뜻이다.
Venture Global은 단순히 LNG 설비를 갖고 있는 회사를 넘어,
시장 상황이 좋아질수록 수익을 더 크게 키울 수 있는 구조를 가진 회사다.

그래서 만약 앞으로

  • 미국산 LNG에 대한 수요가 더 커지고

  • 글로벌 LNG 가격이 강하고

  • 중동 리스크로 미국 공급 프리미엄이 높아진다면

가장 크게 반응할 후보 중 하나가 Venture Global이다. (The Motley Fool)

다만 이번 글의 핵심은 여기서 한 걸음 더 나간다.
Venture Global은 LNG 수출 테마에는 가장 공격적이지만,
AI 전력부족 테마에는 직접성이 상대적으로 낮다.
전력 부족의 수혜가 이 회사에 오려면, 결국 가스 수요 증가가 LNG 쪽으로 번지는 한 단계를 더 거쳐야 한다.

즉, 이 회사는 여전히 강한 종목이지만,
이번 프레임에서는 **“미국 LNG 수출 확대의 대표 공격주”**로 보는 편이 더 정확하다.


2. Cheniere Energy


가장 정석적이고 가장 완성도 높은 LNG 대표주


Cheniere Energy


Cheniere Energy



Cheniere는 미국 LNG 업종에서 가장 완성도 높은 회사 중 하나다.
이미 대규모 액화설비를 운영하고 있고, 장기계약도 많이 확보하고 있다.

Cheniere의 핵심 경쟁력은 세 가지다.

첫째, 검증된 대형 설비 운영 능력이다.
둘째, 장기계약 기반의 안정적인 현금흐름이다.
셋째, 추가 증설과 마케팅 기능이다.

회사는 2025년 실적 발표에서 2026년 Adjusted EBITDA 가이던스를 67.5억~72.5억 달러로 제시했고, Corpus Christi Stage 3 확대와 장기 SPA 체결을 함께 강조했다. 2026~2030년 100억 달러 이상 자사주 매입 계획도 제시했다. 이것은 경영진이 향후 현금흐름 가시성을 매우 높게 본다는 뜻이다. (Cheniere Energy, Inc.)

쉽게 말하면 Cheniere는
**“이미 돈 버는 구조가 완성된 LNG 우량주”**다.

그래서 미국산 LNG 확대라는 큰 흐름에 투자하고 싶지만,
Venture Global처럼 높은 변동성은 부담스럽다면
Cheniere가 가장 정석적인 선택이 된다.

다만 여기서도 구분이 필요하다.
Cheniere는 AI 전력부족 테마의 직접 수혜주라기보다,
여전히 미국 LNG 수출 강세의 코어 종목에 더 가깝다.

즉, 이번 프레임에서는
“가장 안정적인 LNG 대표주”라는 위치는 여전히 유효하지만,
Sempra나 GE Vernova처럼 전력 부족 자체를 푸는 회사는 아니다.



3. NextDecade


지금보다는 미래 기대감이 중요한 회사


NextDecade

NextDecade


NextDecade는 앞의 두 회사와 결이 다르다.
이 회사는 지금 당장 얼마를 버느냐보다,
앞으로 프로젝트가 얼마나 현실화되느냐가 더 중요하다.

회사의 최근 비즈니스 업데이트를 보면, 핵심은 명확하다.
Rio Grande LNG의 공정률이 올라가고 있고, 첫 LNG 생산은 2027년 상반기로 예상된다. 회사는 일부 물량에 대해 forward selling도 진행하고 있다. (NextDecade Corporation)

이 회사의 핵심 경쟁력은
프로젝트 자체의 잠재 가치다.

즉, NextDecade는 현재 실적보다

  • 공사 진행

  • 추가 계약

  • 자금 조달

  • 생산 개시

  • 장기 확장성


이 더 중요하다.

그래서 이 회사는 개발 옵션성이 크다.
프로젝트가 잘 풀리면 기업가치가 크게 재평가될 수 있다.
반대로 말하면, 아직은 안정적인 실적주라기보다 개발주에 가깝다.

이번 프레임에서 보면 NextDecade는
LNG 수출 확대의 장기 옵션이기는 하지만,
AI 전력부족 테마와 직접 연결되는 회사는 아니다.


4. Sempra


이번 프레임에서 더 매력적으로 보이는 이유




이번에 관점이 바뀌면서 가장 다시 봐야 하는 회사가 Sempra다.

Sempra의 핵심 경쟁력은
유틸리티 자산LNG 인프라 자산을 동시에 갖고 있다는 점이다.

이 구조가 왜 중요할까.

순수 LNG 회사는 업황이 좋을 때 실적이 빠르게 늘 수 있다.
하지만 변동성도 크다.
반면 유틸리티는 안정적이지만 성장성이 제한적일 수 있다.

Sempra는 이 두 가지를 동시에 가진다.

  • 유틸리티 사업이 안정성을 받쳐 주고

  • LNG 자산이 성장 옵션을 제공하며

  • 자산 재편과 파트너십으로 자본을 효율적으로 돌릴 수 있다

회사는 최근 실적 발표에서 2025년 조정 순이익과 2030년 EPS outlook를 제시했고, Port Arthur LNG Phase 2 FID와 Sempra Infrastructure 지분 45% 매각을 함께 발표했다. 또 회사 IR에서는 기술 섹터의 growing demand for energy를 지원할 수 있는 위치를 강조하고 있다. (Sempra)

바로 이 지점이 중요하다.
Sempra는 단순히 LNG를 수출하는 회사가 아니다.
미국 내 전력 수요 확대, 특히 AI와 데이터센터로 인한 전력 압박이 커질수록 더 주목받을 수 있는 구조다.

왜냐하면 전력 부족은 결국
연료 확보뿐 아니라 전력망과 가스망, 그리고 장기 인프라 투자 문제이기 때문이다.

Sempra는 이 문제를 푸는 쪽에 더 가깝다.
유틸리티 자산이 있고, 가스 인프라가 있고, LNG 개발 옵션도 있다.

그래서 이번 프레임에서는 Sempra를
**“LNG 회사”가 아니라 “미국 에너지 인프라 재편 수혜주”**로 보는 편이 더 정확하다.

이 점 때문에,
AI 전력부족까지 함께 보면 Sempra의 투자 매력은 분명히 높아진다.


5. Kinder Morgan


가장 안정적인 수혜주




Kinder Morgan은 가스를 직접 수출하는 회사가 아니다.
대신 가스를 옮기는 회사다.

이 회사의 핵심 경쟁력은
북미 전역에 걸친 대규모 가스 인프라 네트워크다.

LNG 수출이 늘어나려면 가스를 생산지에서 액화터미널까지 옮겨야 한다.
발전용 가스 수요가 늘어나도 마찬가지다.
결국 가스가 더 많이 움직이면, Kinder Morgan 같은 회사가 수혜를 본다.

최근 회사는 2025년 4분기 실적에서 backlog 100억 달러를 제시했고, Natural Gas Pipelines 사업의 강한 성과와 함께 backlog의 대부분이 천연가스 관련 프로젝트라고 설명했다. 회사는 또 프로젝트 중 상당 부분이 power generation 관련이라고 밝혔다. (키너 모건 투자자 관계)

이 말은 무엇을 뜻하나.

Kinder Morgan은 단순히 LNG 테마만 받는 것이 아니다.
미국 내 전력 수요 증가가 가스 발전 수요를 자극하면,
그 물량 증가도 함께 받는다.

그래서 이번 프레임에서 Kinder Morgan은
생각보다 더 중요한 회사다.

다만 이 회사는 좋은 의미로 너무 안정적이다.
즉, 실적 가시성은 높지만,
주가의 탄성이나 시장의 흥분도는 GE Vernova나 Sempra보다 낮을 수 있다.

그래서 Kinder Morgan은
이번 테마에서 핵심 인프라 축이지만,
가장 강한 주가 모멘텀 종목은 아닐 수 있다.



6. GE Vernova


이번 프레임의 가장 직접적인 수혜주

GE Vernova


이번 글에서 가장 중요하게 다시 봐야 할 회사는 GE Vernova다.

AI 데이터센터가 늘어날수록 필요한 것은 결국 전기다.
전기를 더 빨리, 더 많이, 더 안정적으로 공급하려면
가스터빈, 발전설비, 송전·변전 장비가 필요하다.

GE Vernova의 핵심 경쟁력은 바로 여기에 있다.

  • 가스터빈 기술력

  • Power 장비 공급 능력

  • Electrification 사업

  • 큰 backlog와 실적 가시성


회사는 2025년 실적 발표에서 backlog가 1,500억 달러로 늘었고, Power와 Electrification에서 강한 모멘텀이 이어지고 있다고 밝혔다. 또 2026년에도 가스 슬롯 예약을 실제 주문으로 전환하고, grid equipment에 대한 강한 수요와 가격을 기대한다고 설명했다. (Gevernova)

이건 단순 기대감이 아니다.
이미 수요가 backlog로 잡히고 있다는 뜻이다.

그래서 GE Vernova는
이번 프레임에서 가장 직접적인 AI 전력부족 수혜주라고 볼 수 있다.

가스가격이 오르든 내리든,
결국 전력이 부족하면 설비는 깔아야 한다.
발전소를 짓고, 터빈을 설치하고, 계통을 연결해야 한다.

그 병목 구간에 있는 회사가 GE Vernova다.

그래서 LNG 수출만 보는 시각보다,
AI 확산과 전력 부족까지 같이 보는 시각에서는
GE Vernova의 매력이 훨씬 더 커진다.


그래서 어떻게 이해하면 좋을까


이제 가장 쉽게 정리해보자.


미국산 LNG 수출 확대만 볼 때

이때는 CheniereVenture Global이 더 직접적이다.

  • Cheniere는 가장 안정적인 LNG 대표주다.

  • Venture Global은 가장 공격적인 LNG 수출주다.

AI 확산으로 미국 내 전력 부족까지 함께 볼 때

이때는 SempraGE Vernova가 더 매력적이다.

  • Sempra는 전력망, 가스망, LNG 옵션을 함께 가진다.

  • GE Vernova는 발전설비와 전력장비를 공급한다.

가스가 더 많이 움직이는 흐름 자체에 투자하고 싶을 때

이때는 Kinder Morgan이 좋다.

  • LNG 수출이 늘어도 좋고

  • 발전용 가스 수요가 늘어도 좋다

미래 프로젝트 가치에 베팅하고 싶을 때

이때는 NextDecade를 볼 수 있다.

  • 다만 이 회사는 안정적인 실적주보다 개발주에 가깝다.


가장 쉽게 한 줄씩 요약하면

  • Venture Global: LNG 수출 확대의 가장 공격적인 수혜주

  • Cheniere: 가장 안정적인 LNG 우량주

  • NextDecade: 프로젝트 가치가 중요한 개발주

  • Sempra: AI 전력부족과 LNG를 함께 담는 인프라 하이브리드

  • Kinder Morgan: 가스 물량 증가의 안정적 수혜주

  • GE Vernova: AI 전력부족 테마의 가장 직접적인 장비 수혜주

핵심 경쟁력까지 한 줄로 더 붙이면 이렇다.

  • Venture Global: 빠른 증설과 높은 실적 탄성

  • Cheniere: 대형 설비와 장기계약 기반 현금흐름

  • NextDecade: 프로젝트 개발가치와 확장 옵션

  • Sempra: 유틸리티 안정성과 LNG 성장 옵션의 결합

  • Kinder Morgan: 대규모 가스 운송 인프라 네트워크

  • GE Vernova: 가스터빈과 전력설비 기술·백로그 경쟁력


최종 결론


앞으로 중동 리스크가 반복되고,
유럽과 아시아가 안정적인 에너지 공급처를 더 중요하게 본다면,
미국산 LNG의 전략적 가치는 계속 높아질 가능성이 크다. 미국 LNG 수출도 신규 설비 램프업으로 증가할 전망이다. (미국 에너지 정보청)

하지만 이번에는 여기서 한 걸음 더 가야 한다.
AI 확산으로 미국 안에서 전력 수요가 빠르게 커지고 있기 때문이다. IEA도 데이터센터를 향후 전력수요 증가 요인으로 꼽고 있다. (IEA)

이렇게 되면 투자 판단은 달라진다.

단순히
**“미국산 LNG가 좋다”**에서 끝나면 안 된다.

더 중요한 질문은 이것이다.

누가 LNG를 팔아서 돈을 버는가
누가 가스를 옮기며 돈을 버는가
누가 전력 부족을 해결하는 설비를 팔며 돈을 버는가

이 차이를 이해해야 한다.

내 생각을 다시 정리하면 이렇다.

  • LNG 수출 확대의 코어는 Cheniere

  • LNG 수출 강세의 가장 공격적인 선택은 Venture Global

  • AI 전력부족까지 넣으면 가장 흥미로운 축은 Sempra와 GE Vernova

  • 가장 안정적인 인프라 수혜주는 Kinder Morgan

  • 가장 높은 개발 옵션은 NextDecade

결국 이번 국면은
한 회사만 좋은 국면이 아니다.

지금은 전력 부족을 실제로 해결할 수 있는 회사들이 더 높은 평가를 받을 가능성이 있다.

그 관점에서 보면
이번 국면에서 가장 다시 봐야 할 회사는
Sempra와 GE Vernova다.

#글을 마치며


유세프 페제시키안의 텔레그램 채널에 올라오는 글들을 보면, 이란 권력 내부를 움직이는 힘은 현실적 계산보다 종교적 신념과 이념에 더 가까워 보인다.

혁명수비대 강경파에게는 외교적 논리나 이성적 접근이 쉽게 작동하지 않는다. 이번 전쟁은 그 사실을 다시 확인시켰다.

글로벌 에너지 안보를 이들에게 사실상 맡기는 것은 지나치게 위험하다는 인식이 점차 시장의 공통된 판단
으로 자리 잡지 않을까 한다.


=끝

2026년 3월 19일 목요일

생각정리 206 (* PCB MLB, CCL, Glass Fiber, Nvidia Rubin)


이전글에 이어 NVIDIA Rubin 시리즈 전환에 따라 구조적 수혜가 기대되는 투자 아이디어를 추가로 리서치해 정리한다.




NVIDIA Rubin 시대, 왜 유리섬유·CCL·MLB PCB가 함께 중요해지는가


최근 기술 발전 흐름을 보면, AI 서버의 성능은 더 이상 칩 자체만으로 설명되기 어렵다.

TSMC의 3nm 이하 선단 로직 공정과 메모리 병목이 이어지면서, 이를 보완하고 시스템 효율을 높이는 인터커넥트 기술의 중요성이 한층 커지고 있기 때문이다.

이번 글에서는 엔비디아 차세대 루빈 시리즈의 구조적 변화를 중심으로, 이에 따라 수요 확대가 기대되는 기판과 그 안에서 주목할 소재를 살펴보고자 한다.

특히 NVIDIA가 Hopper → Blackwell → Rubin → Rubin Ultra Kyber로 세대를 올려가면서, 시장은 이제 GPU 자체뿐 아니라 그 GPU를 연결하는 기판 구조의 변화를 함께 봐야 하는 단계에 들어왔다.

이 변화의 핵심을 한 문장으로 정리하면 이렇다.

Rubin 시대에는 케이블 중심 연결에서 기판 중심 연결로 무게중심이 이동하고, 그에 따라 MLB PCB·고사양 CCL·고성능 유리섬유의 중요성이 함께 커진다.


1. 먼저 큰 그림부터: Rubin에서 무엇이 달라지는가


기존 AI 서버도 이미 매우 복잡했지만, Rubin 세대로 갈수록 서버 내부 연결은 더 정교해진다.

특히 핵심 변화 중 하나는 케이블 비중 축소와 기판 기반 인터커넥트 확대다.

Rubin 랙부터는 compute tray 내부에서 기존 구리 케이블을 줄이고,
그 역할 일부를 MLB PCB가 담당하는 방향으로 구조가 진화하고 있다.

쉽게 말하면 이렇다.

예전에는 부품끼리 선으로 많이 연결했다면,
이제는 기판 자체가 더 정교한 도로망 역할을 하게 되는 것이다.

이 변화가 의미하는 바는 명확하다.

기판이 더 많은 신호를 처리하려면

  • 더 많은 회로층이 필요하고

  • 더 넓은 면적을 가져야 하며

  • 더 빠른 신호를 더 적은 손실로 보내야 하고

  • 열과 뒤틀림도 더 잘 버텨야 한다


즉, 기판의 난도가 급격히 올라간다.




2. 그래서 주목해야 하는 것이 MLB PCB다


Rubin 시대를 이해할 때 가장 먼저 봐야 하는 소재 축 중 하나가 MLB PCB다.

MLB는 쉽게 말해 여러 핵심 부품 사이를 연결하는 대형 고성능 기판이다.
GPU와 NIC, DPU, 스위치 계열 신호가 오가는 중심 통로 역할을 한다.

문제는 Rubin 세대의 MLB가 단순한 보드가 아니라는 점이다.

이제 MLB는

  • 더 많은 신호를 동시에 처리해야 하고

  • 신호 속도도 더 빨라져야 하며

  • 대면적 구조를 가져야 하고

  • 층수도 더 높아져야 한다


그래서 Rubin에 적용되는 MLB는 30~40층 이상의 고다층 구조 필요성이 커지고 있다.

비유하자면,
예전에는 왕복 4차선 도로면 충분했다면,
이제는 초고속 대형 입체 교차로가 필요해진 것이다.

그렇다면 자연스럽게 다음 질문이 나온다.

이런 MLB를 만들려면 무엇이 필요할까?

답은 더 높은 grade의 CCL이다.


3. MLB가 고도화될수록 왜 고사양 CCL이 필요해지는가


PCB는 구리만으로 만들어지지 않는다.
기판 내부에는 회로를 지지하는 절연 재료가 들어가는데, 그 대표적인 것이 CCL(Copper Clad Laminate) 이다.

쉽게 말하면 CCL은
구리 회로가 올라가는 절연 기판 재료다.

MLB가 고다층화되고 고속화될수록 CCL에는 더 높은 수준의 성능이 요구된다.

왜냐하면 신호 속도가 빨라질수록 재료가 신호를 방해하면 안 되기 때문이다.
또 층수가 많아지고 면적이 커질수록 열과 뒤틀림을 더 잘 버텨야 한다.

그래서 Rubin 세대로 갈수록 시장이 주목하는 것이 바로 M7급 이상 고사양 CCL, 더 나아가 M8·M9급 프리미엄 CCL이다.

여기서 핵심은 단순히 “비싼 기판 재료를 쓴다”는 뜻이 아니다.

고사양 CCL이 필요하다는 것은 결국

  • 신호 손실을 더 줄여야 하고

  • 더 높은 주파수 환경을 견뎌야 하며

  • 대면적 고다층 구조에서도 품질이 흔들리지 않아야 한다

는 뜻이다.

즉 Rubin은 고급 GPU 시대일 뿐 아니라, 동시에 고급 CCL 시대이기도 하다.

https://m.blog.naver.com/techref/224098578008
CCL (* Copper Clad Laminate) 동박적층판의 구성요소



4. 실제로 Rubin에서 MLB PCB와 프리미엄 CCL 수요는 얼마나 늘어나는가


이 부분이 이번 글에서 가장 중요한 추가 포인트다.

많은 사람이 Rubin을 단순히 “Blackwell보다 한 단계 더 좋은 차세대 서버” 정도로 이해하지만,
실제로 소재 관점에서 보면 더 정확한 해석은 이렇다.

Rubin은 PCB MLB와 프리미엄 CCL의 수요 구조를 한 단계 바꾸는 세대 전환이다.

기준을 Blackwell NVL72 rack = 1.0x로 놓고 보면,
세대별 수요의 감각은 아래처럼 정리할 수 있다.


세대별 비교의 큰 흐름

  • Hopper: 아직 구세대 HGX 중심 구조

  • Blackwell: NVL72 기반으로 MLB와 고사양 CCL 수요가 본격 확대

  • Rubin NVL72: 같은 72 GPU rack이라도 재료 grade와 보드 난도가 한 단계 상승

  • Rubin Ultra Kyber: NVL144/NVL576로 scale-up되면서 수요가 구조적으로 점프


이를 가장 단순하게 정리하면 다음과 같다.

세대별 수요 비교 요약




이 표에서 봐야 할 핵심은 단순하다.

첫째, Hopper에서 Blackwell로 갈 때는 고사양 기판 수요가 본격화되는 단계다.
둘째, Blackwell에서 Rubin NVL72로 갈 때는 같은 72 GPU rack이어도 재료 등급이 올라간다.
셋째, Rubin Ultra Kyber로 가면 단순 업그레이드가 아니라 수요 구조 자체가 점프한다.


5. 왜 Rubin NVL72는 같은 72 GPU인데도 수요가 2배 가까이 늘어나는가


Rubin NVL72는 Blackwell NVL72와 마찬가지로 같은 72 GPU rack이다.

그렇다면 “왜 소재 수요가 1.8배, 2배씩 늘어나느냐”는 질문이 자연스럽다.

이유는 기구물 숫자 자체가 아니라 재료의 난도와 grade mix가 올라가기 때문이다.

같은 72 GPU rack이라도 Rubin에서는

  • 더 높은 신호 무결성 요구

  • 더 높은 인터커넥트 밀도

  • 더 커진 MLB/backplane 부담

  • 더 빡빡해진 loss budget

이 동시에 발생한다.

즉 단순한 수량 증분이 아니라
같은 1개 rack 안에 더 비싼 재료, 더 높은 등급의 기판이 더 많이 들어가는 구조가 되는 것이다.

그래서 Rubin NVL72 단독만 놓고 봐도

  • Premium CCL 물량은 Blackwell 대비 1.8~2.3배

  • Premium CCL 금액 기준은 2.2~3.0배

  • PCB MLB 물량은 1.7~2.2배

  • PCB MLB 금액 기준은 2.0~2.8배


수준으로 추정하는 것이 합리적이다.

여기서 중요한 포인트는
면적 증가보다 grade mix 상승 효과가 더 크다는 점이다.

즉 시장은 단순히 “얼마나 많이 쓰느냐”만 볼 것이 아니라
M7/M8 중심에서 M8/M9 중심으로 얼마나 빨리 올라가느냐를 함께 봐야 한다.


6. 본게임은 Rubin Ultra Kyber다


진짜 구조적 변화는 Rubin Ultra Kyber에서 나타난다.

Kyber는 Rubin Ultra를 NVL144 또는 NVL576까지 scale-up하는 구조이며,
핵심은 576 GPU 연결이다.

이 말은 곧 GPU scale-up domain이 Blackwell NVL72나 Rubin NVL72 대비 8배 수준으로 커진다는 뜻이다.

물론 CCL이나 MLB 수요가 기계적으로 정확히 8배가 되는 것은 아니다.

왜냐하면

  • 일부 구조는 공유 인프라라서 8배보다 덜 늘고

  • 반대로 premium CCL은 M9 비중 확대 때문에 금액 기준으로 더 크게 뛰며

  • MLB는 spine/backplane/switching density 증가로 난도가 더 가파르게 올라가기 때문이다


그래서 가장 합리적인 해석은 다음과 같다.

Blackwell rack 대비 Vera Rubin Kyber는

  • Premium CCL(M7~M9급) 물량: 약 8.5~11.0배**

  • Premium CCL dollar content: 약 18~22배

  • PCB MLB 물량: 약 6.5~8.0배

  • PCB MLB dollar content: 약 16~21배

수준의 구조적 업그레이드로 보는 것이다.

이 숫자가 의미하는 바는 매우 크다.

Kyber는 단순히 더 큰 서버가 아니라,
프리미엄 CCL과 MLB PCB의 산업 구조를 상향 이동시키는 이벤트에 가깝다.


7. 프리미엄 CCL은 어떻게 바뀌는가: M7/M8 시대에서 M8/M9 시대로


이제 CCL을 조금 더 구체적으로 보자.

Rubin 시리즈에서 중요한 것은 단순히 프리미엄 CCL 총량만이 아니다.
정말 중요한 것은 grade mix 변화다.

Blackwell rack을 1.0으로 놓고 보면 프리미엄 CCL의 흐름은 대략 이렇게 볼 수 있다.

프리미엄 CCL grade mix 변화





이 표의 의미는 아주 명확하다.

  • Blackwell은 사실상 M7/M8 중심 시대

  • RubinM8 확대 + M9 진입 시작

  • KyberM9가 구조적으로 의미 있는 비중을 차지하는 첫 시스템


즉 앞으로 시장이 진짜 봐야 할 것은
단순한 출하면적이 아니라
**“M9가 얼마나 빨리 premium mix를 잠식하느냐”**이다.

이것이 중요한 이유는 소재업체 실적이 단순 면적이 아니라

  • 어느 grade를 얼마나 태웠는지

  • ASP가 얼마나 올라가는지

  • 수익성이 얼마나 개선되는지


와 연결되기 때문이다.


8. 절대 수량 감각으로 보면 변화가 더 선명해진다


상대 배수만 보면 감이 잘 안 올 수 있다.
그래서 Blackwell NVL72 rack의 프리미엄 CCL 탑재량을 가상의 100 unit으로 두고 보면 훨씬 이해가 쉬워진다.

절대 탑재량 감각 예시



이 표는 절대값 그 자체가 중요한 것이 아니라
수요 구조가 얼마나 가파르게 상향 이동하는지를 보여주는 보조 지표다.

투자적으로는 오히려 이런 식의 상대 스케일이 더 중요하다.

왜냐하면 결국 실적은
“몇 장 나갔는가”보다
**“어떤 고급 제품이 얼마나 많이 들어갔는가”**로 연결되기 때문이다.


9. 그런데 고사양 CCL의 핵심 뼈대가 바로 유리섬유다


여기서 다시 Nittobo로 연결된다.

많은 사람이 CCL을 수지나 동박 중심으로만 보지만,
실제로 고사양 CCL은 그 안에 들어가는 유리섬유의 수준이 매우 중요하다.

유리섬유는 CCL 안에서 기판의 골격 역할을 한다.

그래서 고다층 MLB, 고속 서버 보드, 패키지기판이 고도화될수록 유리섬유에도 더 까다로운 조건이 붙는다.

예를 들어,

  • 신호가 빨라질수록 저유전율, 저유전손실

  • 열이 많아질수록 저열팽창

  • 층수가 많아질수록 얇고 균일한 두께

  • 대면적화될수록 높은 치수 안정성


이 중요해진다.

즉 좋은 CCL을 만들려면 결국 좋은 유리섬유가 먼저 필요하다.

Rubin 시대에 프리미엄 CCL과 MLB가 중요해질수록
그 밑단의 유리섬유 업체 가치도 함께 올라가는 이유가 바로 여기에 있다.


https://m.blog.naver.com/techref/224098578008



10. Nittobo의 Fiber Glass를 가장 쉽게 설명하면


Nittobo의 Fiber Glass는
AI 서버와 데이터센터용 고성능 기판을 받쳐주는 초정밀 유리 재료다.

조금 더 쉽게 말하면,
반도체가 엔진이라면 Nittobo의 유리섬유는
그 엔진이 올라가는 고성능 차체와 골격에 가깝다.

AI 서버 안에는 GPU, CPU, 메모리, NIC, 스위치 칩 같은 핵심 부품이 빽빽하게 들어간다.
이 부품들은 모두 기판 위에 올라간다.
그리고 그 기판은 단순한 판이 아니라

  • 신호를 빠르게 보내야 하고

  • 열을 버텨야 하며

  • 부품 위치를 정밀하게 유지해야 하고

  • 오래 써도 휘지 않아야 하는


정밀 구조물이다.

Nittobo의 유리섬유는 바로 그 구조물의 뼈대를 이루는 재료다.


11. Nittobo 제품은 크게 두 방향으로 이해하면 쉽다


Nittobo의 제품군은 복잡해 보이지만,크게 두 축으로 이해하면 된다.


Nitto boseki


첫째, NE / NER / NEZ 계열

이 제품군은 신호 전달 성능을 높이는 유리섬유다.

고속 기판에서는 신호가 지나가면서 힘이 빠지거나 흐트러질 수 있다.
이때 필요한 것이 저유전율저유전손실이다.

쉽게 말하면 이 계열은
신호가 달리는 길을 더 매끈하고 안정적으로 만들어주는 재료다.

그래서 서버 메인보드, NIC, 스위치 보드, DDR 관련 기판처럼
고속 신호 전달이 중요한 영역에서 중요하다.

둘째, T 계열


이 제품군은 열과 변형을 잘 버티는 유리섬유다.

AI 서버와 반도체 패키지기판은 열이 많고 구조가 촘촘하다.
이때 기판이 팽창하거나 휘면 성능과 수율에 문제가 생긴다.

그래서 필요한 것이 저열팽창 특성이다.

쉽게 말하면 T 계열은
뜨거워져도 구조를 더 단단하게 잡아주는 재료다.

즉 아주 단순하게 정리하면

  • NE / NER / NEZ = 빠른 신호 대응

  • T = 열과 뒤틀림 대응

이라고 보면 된다.


NITTO BOSEKI



NITTO BOSEKI




12. 왜 Rubin 시대에는 Nittobo, CCL, MLB를 따로 볼 수 없는가


이제 전체 연결고리가 보인다.

Rubin 아키텍처 변화는 단순한 GPU 세대교체가 아니다.
그 변화는 랙 내부 인터커넥트 구조를 더 고밀도·고속·고다층 기판 중심으로 바꾸는 변화다.

그 결과 다음이 연쇄적으로 일어난다.

첫째, MLB PCB의 역할이 커진다.
기존 케이블이 담당하던 일부 기능을 기판이 더 많이 맡게 되기 때문이다.

둘째, MLB PCB의 고다층화와 대면적화가 진행된다.
그래서 Rubin, 특히 Kyber로 갈수록 PCB MLB 물량과 금액이 크게 증가한다.

셋째, 이런 MLB를 만들기 위해 더 높은 grade의 CCL이 필요해진다.
그래서 M7, M8, M9 같은 프리미엄 CCL 수요가 확대된다.

넷째, 그 프리미엄 CCL의 성능을 떠받치는 핵심 보강재가 유리섬유다.
즉 Nittobo 같은 고기능 glass fiber 업체의 가치가 함께 올라간다.

결국 이 셋은 따로 떨어진 소재가 아니라 하나의 체인이다.

Rubin 아키텍처 변화
MLB PCB 복잡도 상승
고사양 CCL 채택 확대
고기능 유리섬유 수요 증가

이 구조로 이해하는 것이 가장 정확하다.


13. 왜 800G에서 1.6T, 3.2T로 갈수록 Nittobo의 역할이 더 중요해지는가


속도가 올라간다는 것은 단순히 “더 빠르다”는 뜻이 아니다.
실제로는 기판 재료가 감당해야 하는 부담이 전부 커진다는 뜻이다.

속도가 높아질수록

  • 신호는 더 예민해지고

  • 손실 허용치는 더 낮아지며

  • 열은 더 많이 쌓이고

  • 층수는 더 늘어나고

  • 작은 휨과 오차도 더 큰 문제를 만든다


즉 800G에서 1.6T, 3.2T로 갈수록 중요한 것은
칩만이 아니라 기판 소재의 수준이다.

예전 기판이 일반 도로였다면,
지금 AI 서버 기판은 초고속 차량이 달리는 정밀 고속도로에 가깝다.

속도가 올라갈수록 도로는 더 평탄해야 하고, 더 단단해야 하며, 더 안정적이어야 한다.
이때 CCL과 유리섬유는 그 도로의 바닥과 골조를 구성하는 핵심 재료가 된다.

그래서 차세대 서버로 갈수록 Nittobo의 역할은 줄어드는 것이 아니라,
오히려 기판 성능의 핵심 재료 공급자로서 더 중요해질 가능성이 높다.


NITTO BOSEKI



14. 왜 이런 고성능 유리섬유는 아무나 못 만드는가


고성능 유리섬유는 단순한 범용 소재가 아니다.
좋은 원료만 있으면 바로 되는 산업도 아니다.

어려운 이유는 크게 세 가지다.

첫째, 유리 성분 설계 자체가 어렵다


저손실이 중요하면 유리 조성을 바꿔야 하고,
저열팽창이 중요하면 또 다른 조성이 필요하다.

그런데 성분을 바꾸면

  • 녹는 방식

  • 점도

  • 실로 뽑히는 성질

  • 강도

  • 가공성

까지 전부 같이 바뀐다.

즉 한 성능을 개선하면 다른 성능이 흔들릴 수 있다.

둘째, 실로 뽑는 과정이 어렵다


유리섬유는 아주 가는 실 형태로 만들어야 한다.
이때 굵기가 조금만 달라도 품질 차이가 난다.

얇고 균일한 실이 나와야 그다음 단계에서 좋은 glass cloth가 나온다.

셋째, 최종적으로 천으로 짜는 과정도 어렵다


고객이 실제로 쓰는 것은 단순 유리 원료가 아니라 glass cloth다.
그래서 실이 좋아도, 짠 뒤 두께가 불균일하거나 표면이 거칠면 문제가 된다.

특히 AI 서버, 고다층 MLB, 패키지기판 영역은
얇고, 평평하고, 균일한 cloth를 원한다.

즉 경쟁력은

  • 유리 조성

  • 섬유화

  • 실 품질

  • 직물 품질

  • 초박형 가공

  • 양산 안정성

전체를 함께 맞추는 데 있다.


15. 결국 해자는 양산 수율과 품질 일관성이다


진짜 중요한 것은 샘플이 아니라 양산이다.

고성능 재료는 한 번 잘 만드는 것보다,
오랫동안 같은 품질로 계속 공급하는 것이 훨씬 어렵다.

AI 데이터센터용 기판은 세대가 올라갈수록 허용 오차가 더 줄어든다.
그래서 고객은 단순히 “좋은 재료”보다
항상 같은 품질로 들어오는 재료를 원한다.

양산에서 중요한 것은 다음과 같다.

  • 유리 성분의 균일성

  • 실 굵기의 안정성

  • cloth 두께의 균일성

  • 직물 구조의 일관성

  • 장기간 공급 시 품질 편차 최소화

이 중 하나라도 흔들리면 고객 공정 수율이 영향을 받을 수 있다.

바로 그래서 후발주자가 따라오기 어렵고,
검증된 고기능 소재 업체의 가치가 높고,
업계에서 Nitto boseki의 Glass Fiber가 사실상 업계표준으로 불리우는 이유이다.



16. 투자 관점에서 무엇이 핵심인가


투자적으로 중요한 포인트는 단순하다.

많은 사람은 Rubin을 보면 GPU, HBM, 냉각, 전력부터 먼저 본다.
물론 그것도 중요하다.

하지만 Rubin의 진짜 구조적 변화 중 하나는
서버 내부 연결 구조의 난도 상승이고,
그 난도 상승은 결국 MLB PCB → 프리미엄 CCL → 고성능 유리섬유로 이어진다.

즉 앞으로 봐야 할 것은 단순한 AI 서버 출하량만이 아니다.

더 중요한 것은

  • MLB의 고다층화 속도

  • M7/M8/M9급 CCL 믹스 상승

  • 저손실·저CTE 소재 채택 확대

  • 패키지기판과 서버 보드 모두에서의 소재 업그레이드

이 네 가지다.

특히 이번 세대에서 가장 중요한 해석은 이 문장으로 정리할 수 있다.

Rubin Ultra Kyber는 premium CCL 시장을 M7/M8 중심에서 M8/M9 중심으로 재편하는 구조적 이벤트다.

  • Blackwell까지는 M7/M8 확대

  • Rubin에서 M9 진입

  • Kyber에서 M9 의미 있는 양산 구간 진입

으로 보는 것이 맞다.

그래서 앞으로 실적에서 정말 중요한 변수는
**“AI 서버 출하량 증가” 자체보다 “M9 채택 속도와 premium mix 상승 속도”**다.


최종 정리


아주 쉽게 다시 요약하면 이렇다.

첫째, Rubin 시리즈는 단순한 GPU 업그레이드가 아니다.
서버 내부 인터커넥트 구조가 더 고밀도·고속·고다층 기판 중심으로 진화하는 변화다.

둘째, 이 과정에서 케이블 비중이 줄고 MLB PCB의 역할이 커진다.
그래서 대면적·고다층 MLB 기판 수요가 확대될 가능성이 높다.

셋째, 실제 수요도 크게 뛴다.
Blackwell 대비 Rubin NVL72는 프리미엄 CCL 물량이 1.8~2.3배, PCB MLB 물량이 1.7~2.2배 수준으로 늘어날 수 있다.
그리고 Rubin Ultra Kyber는 Blackwell 대비 프리미엄 CCL 물량 8.5~11.0배, PCB MLB 물량 6.5~8.0배 수준의 구조적 업그레이드로 해석할 수 있다.

넷째, 더 중요한 것은 단순 물량보다 grade mix 상승이다.
Blackwell이 M7/M8 중심이었다면, Rubin은 M8 확대와 M9 진입, Kyber는 M9 비중이 구조적으로 커지는 첫 시스템에 가깝다.

다섯째, 이런 고사양 CCL의 핵심 뼈대 재료가 바로 유리섬유다.
그래서 Nittobo의 Fiber Glass는 AI 서버용 기판 성능을 끌어올리는 핵심 재료로 주목받는다.

여섯째, Nittobo의 강점은 단순한 범용 유리섬유가 아니라
저손실용 NE/NER/NEZ 계열과 저열팽창용 T 계열처럼
차세대 서버와 패키지기판이 요구하는 성능을 제품군별로 대응할 수 있다는 점이다.

결국 Rubin 시대를 이해하려면
GPU만 볼 것이 아니라, 그 GPU를 연결하고 지탱하는 기판과 소재 체인까지 함께 봐야 한다.

그리고 그 체인의 핵심에는
MLB PCB, 프리미엄 CCL, 그리고 Nittobo의 고기능 유리섬유가 있다.


=끝