나만의 투자이야기: 생각정리 135 (* Credo Technology, Memory Wall)

전일 Credo Technology 실적발표 컨콜에서 AI 추론에서의 메모리 계층화와 관련된 내용이 있어 정리해본다.

먼저 한 줄로 요약하면 이렇다.

Credo의 Weaver는 ‘새로운 메모리 칩’이라기보다, 비싸고 부족한 HBM 대신 싸고 많은 DDR 메모리를 AI 칩(XPU)에 잘 붙여 주는 배선·연결용 부품이고, 우리가 말해온 ‘메모리 월·메모리 계층화·추론에서 메모리의 역할’을 현실에서 구현하는 사례이다.

1. AI에서 말하는 ‘메모리 문제’는 무엇인가

요즘 AI 칩은 연산 능력(FLOPS, TOPS)은 계속 올라가는데, 정작 데이터를 가져오는 속도·용량·비용이 그 속도를 못 따라가는 문제가 생기고 있다. 이걸 흔히 **메모리 월(memory wall)**이라고 부른다.

비유를 들어보면,

**두뇌(연산기)**는 엄청 똑똑하고 빨리 계산할 수 있는데
**책꽂이(메모리)**에서 책(데이터)을 꺼내 오는 속도가 느리고, 책꽂이 크기도 작고, 새 책꽂이를 들이는 비용도 비싸서
결국 두뇌가 놀고 있는 시간이 늘어난다는 뜻이다.

AI에서는 특히

파라미터(모델 가중치),
중간 계산값,
대화·영상 히스토리 같은 상태값

을 보관하려면 큰 메모리 용량과 이를 빨리 주고받을 대역폭이 필요하다. 이게 막혀서 전체 성능이 제한될 때 “메모리 월에 걸렸다”라고 말한다.

2. 기존 해결책: HBM의 장점과 한계

지금까지는 이 문제를 해결하기 위해 **HBM(High Bandwidth Memory)**이라는 특수 메모리를 많이 써 왔다.

칩 바로 옆(패키지 안)에 붙어 있어서
한 번에 데이터를 많이, 아주 빠르게 주고받을 수 있다는 장점이 있다.

하지만 HBM에는 몇 가지 굵은 한계가 있다.

용량이 생각만큼 크지 않다.
- 칩 하나에 넣을 수 있는 HBM 스택 수가 제한되어 있다.
매우 비싸고, 공정·패키징이 어렵다.
- 고급 패키징(2.5D/3D)이 필요하고, 필연적으로 원가 부담이 크다.
공급망 제약이 심하다.
- 만들 수 있는 회사와 물량이 제한적이라, AI 붐이 오면 순식간에 부족해진다.

즉, HBM은 “빠른 대신 비싸고, 생각만큼 많이 못 넣는 고급 메모리”에 가깝다.
그래서 “연산 코어는 계속 늘어가는데 HBM이 발목을 잡는” 상황이 생기고 있다.

3. Credo Weaver가 하는 일: “HBM의 벽을 DDR로 우회”

Credo의 OmniConnect Gearboxes와 그 가운데 첫 제품인 Weaver는, 아주 단순화하면 다음 한 문장으로 설명할 수 있다.

“HBM만으로는 부족해진 AI 칩에, 일반 DDR 메모리를 대용량으로 붙여줄 수 있게 해 주는 고속 연결·배선용 칩”이다.

조금만 풀어 쓰면:

기존에는 XPU(가속기, AI 칩) 옆에 HBM만 붙이는 구조가 많았는데,
Weaver를 사용하면 일반 DDR·LPDDR 메모리를 칩 밖에 여러 개 달아, 마치 XPU가 거대한 메모리를 갖고 있는 것처럼 만들어 준다.
Credo 설명에 따르면, 설계자가 HBM 대신/또는 HBM과 함께 일반 메모리를 쓰면서도
- 최대 30배 더 큰 메모리 용량,
- 8배 더 높은 대역폭
  을 노릴 수 있도록 설계되어 있다.

여기서 핵심 역할을 하는 것이 Credo의 **112G VSR SerDes(CertiS)**인데, 이게 하는 일은

“데이터 고속도로”의 차선 수와 품질을 크게 늘려주는 것에 가깝다.
그 덕분에 같은 보드 위에 있는 메모리들을, 속도 저하를 최소화하면서 XPU에 많이 붙일 수 있다.

정리하면,

HBM 중심 구조에서 생기는 용량·대역폭·비용의 벽을
값싸고 구하기 쉬운 DDR 메모리 풀로 우회하게 해 주는 솔루션이 Weaver이다.

4. 메모리 계층 구조 안에서 Weaver의 위치

현대 컴퓨팅 시스템에서 메모리는 보통 여러 층으로 나뉜 구조를 갖는다. 단순히 그려 보면:

캐시 (L1/L2/L3) – 가장 빠르고 가장 작다
- 칩 안에 있는 초고속 작은 노트.
HBM – 빠르고 중간 용량
- 칩 패키지 안에 있는 고급 메모리.
DDR/LPDDR – 속도는 떨어지지만 싸고 용량이 크다
- 보드 위에 여러 개 꽂는 일반 메모리.
SSD/NVMe – 훨씬 느리지만 매우 싸고 용량이 크다
- 저장장치.

Weaver는 이 계층 구조에서 HBM과 DDR 사이를 이어주는 다리 역할을 한다.

XPU 하나당 붙일 수 있는 DDR 채널·용량을 기하급수적으로 늘려 주고,
그 연결을 고속·고밀도로 정리해 주는 배선 허브 같은 위치에 서 있다.

이렇게 되면 메모리 계층을 조금 더 구체적으로 나눌 수 있다.

Tier 0: 캐시 (칩 속 가장 빠른 메모리)
Tier 1: HBM (가까운 고속 메모리)
Tier 2: Weaver를 통해 묶인 DDR 풀 (조금 먼 대용량·중속 메모리)
Tier 3: SSD/스토리지 (아주 먼 초대용량 메모리)

결국 Weaver는 우리가 말하던

메모리 계층화(자주 쓰는 데이터는 위쪽에, 덜 자주 쓰는 데이터는 아래쪽에 두는 구조),
메모리 디스어그리게이션(메모리를 칩에서 떼어내 풀(pool)처럼 따로 두는 구조)

를 실제 하드웨어 제품으로 구현한 사례라고 보면 된다.

5. 왜 특히 ‘추론(inference) 시장’과 잘 맞는가

우리가 이전에 이야기했듯, **학습(training)**과 **추론(inference)**은 메모리에서 요구하는 포인트가 다르다.

학습은 여전히 “극한의 속도”가 중요하다

역전파, 옵티마이저, 거대한 배치(batch)를 처리하려면
- HBM의 초고대역폭이 핵심이다.
그래서 학습용 GPU는 “HBM 최대한 많이, 최대한 빠르게”가 기본 전략이다.

추론은 “얼마나 많이·얼마나 싸게”가 중요해지는 단계로 가고 있다

LLM 추론에서는
- KV 캐시, 긴 컨텍스트, 동시 접속 사용자 수가 늘어날수록
- 필요한 메모리 용량이 계속 불어난다.
실시간 비디오 생성, 자율주행도
- 여러 프레임·센서 정보·히스토리를 동시에 붙들고 있어야 해서
- 메모리 용량과 대역폭이 병목이 되기 쉽다.

이때 Weaver 구조를 쓰면:

자주 쓰이는 아주 핵심 데이터·연산은 HBM에 두고,
KV 캐시, 히스토리, 버퍼, 덜 자주 쓰이는 파라미터 등은 DDR 풀에 두는
형태의 자연스러운 메모리 티어링이 가능하다.

즉,

같은 XPU 개수로 더 많은 세션을 처리하거나,
더 긴 문맥(컨텍스트)을 제공하거나,
비디오/자율주행처럼 “상태를 많이 들고 있어야 하는” 추론 서비스의 수용력을 늘리는 데 직접적으로 도움을 준다.

Credo도 실제로

실시간 AI 비디오 생성, 자율주행 등 “메모리 용량·대역폭이 병목인 워크로드”를 Weaver의 대표 타깃으로 설명하고 있다.
그리고 이런 메모리–컴퓨트 연결 시장이 앞으로 수십억 달러 규모로 커질 것으로 본다고 말한다.

6. 우리가 쓰고 있는 큰 틀 속에서의 위치

우리가 전체 AI 하드웨어·메모리 지형을 정리할 때 쓰고 있는 프레임에 넣어 보면 Weaver는 다음과 같이 정리된다.

메모리 월 축
- 과거: CPU vs DRAM 속도 차이 → “latency wall”
- 현재: HBM 중심 구조의 용량·대역폭·비용 제약 → “capacity/bandwidth/cost wall”
- Weaver는 이 두 번째 벽, 특히 용량·비용 문제를 DDR로 우회하는 솔루션이다.
메모리 계층화·디스어그리게이션 축
- 단일 패키지 안 HBM 중심 구조 →
- **“HBM + DDR 메모리 풀 + (향후) CXL 메모리”**로 이어지는 다층 구조
- Weaver는 그중 **“HBM과 DDR을 엮는 커넥티비티 레이어”**에 해당한다.
학습 vs 추론 축
- 학습: HBM 중심 초고성능 GPU
- 추론: 메모리 용량·비용이 더 중요해지는 추론 특화 XPU + 대용량 메모리 풀
- Weaver는 제품 정의부터 추론 워크로드를 겨냥하고 있어,
  우리 리포트에서는 “추론용 메모리 아키텍처/메모리 티어링” 파트의 핵심 사례로 배치하는 것이 자연스럽다.

정리하면,

Credo의 Weaver/OmniConnect Gearboxes는
- 우리가 논의해 온 메모리 월,
- 메모리 계층화·디스어그리게이션,
- 추론에서 메모리의 전략적 역할
  이 세 가지와 모두 긴밀하게 맞닿아 있는 제품이다.
다만 본질은 “새로운 메모리 칩”이 아니라, 메모리와 AI 칩을 잇는 고속 도로를 새로 깔아서 HBM의 한계를 보완해 주는 커넥티비티/배선 솔루션이라는 점을 명확히 짚고 가면, 전체 그림이 훨씬 보기 쉬워진다.

=끝

나만의 투자이야기

2025년 12월 2일 화요일

생각정리 135 (* Credo Technology, Memory Wall)

1. AI에서 말하는 ‘메모리 문제’는 무엇인가

2. 기존 해결책: HBM의 장점과 한계

3. Credo Weaver가 하는 일: “HBM의 벽을 DDR로 우회”

4. 메모리 계층 구조 안에서 Weaver의 위치

5. 왜 특히 ‘추론(inference) 시장’과 잘 맞는가

6. 우리가 쓰고 있는 큰 틀 속에서의 위치

댓글 없음:

댓글 쓰기

블로그 보관함

프로필