2025년 12월 2일 화요일

생각정리 135 (* Credo Technology, Memory Wall)

전일 Credo Technology 실적발표 컨콜에서 AI 추론에서의 메모리 계층화와 관련된 내용이 있어 정리해본다.

먼저 한 줄로 요약하면 이렇다.

Credo의 Weaver는 ‘새로운 메모리 칩’이라기보다, 비싸고 부족한 HBM 대신 싸고 많은 DDR 메모리를 AI 칩(XPU)에 잘 붙여 주는 배선·연결용 부품이고, 우리가 말해온 ‘메모리 월·메모리 계층화·추론에서 메모리의 역할’을 현실에서 구현하는 사례이다.

 


1. AI에서 말하는 ‘메모리 문제’는 무엇인가


요즘 AI 칩은 연산 능력(FLOPS, TOPS)은 계속 올라가는데, 정작 데이터를 가져오는 속도·용량·비용이 그 속도를 못 따라가는 문제가 생기고 있다. 이걸 흔히 **메모리 월(memory wall)**이라고 부른다.

비유를 들어보면,

  • **두뇌(연산기)**는 엄청 똑똑하고 빨리 계산할 수 있는데

  • **책꽂이(메모리)**에서 책(데이터)을 꺼내 오는 속도가 느리고, 책꽂이 크기도 작고, 새 책꽂이를 들이는 비용도 비싸서

  • 결국 두뇌가 놀고 있는 시간이 늘어난다는 뜻이다.


AI에서는 특히

  • 파라미터(모델 가중치),

  • 중간 계산값,

  • 대화·영상 히스토리 같은 상태값


을 보관하려면 큰 메모리 용량과 이를 빨리 주고받을 대역폭이 필요하다. 이게 막혀서 전체 성능이 제한될 때 “메모리 월에 걸렸다”라고 말한다.


2. 기존 해결책: HBM의 장점과 한계


지금까지는 이 문제를 해결하기 위해 **HBM(High Bandwidth Memory)**이라는 특수 메모리를 많이 써 왔다.

  • 칩 바로 옆(패키지 안)에 붙어 있어서

  • 한 번에 데이터를 많이, 아주 빠르게 주고받을 수 있다는 장점이 있다.

하지만 HBM에는 몇 가지 굵은 한계가 있다.

  1. 용량이 생각만큼 크지 않다.

    • 칩 하나에 넣을 수 있는 HBM 스택 수가 제한되어 있다.

  2. 매우 비싸고, 공정·패키징이 어렵다.

    • 고급 패키징(2.5D/3D)이 필요하고, 필연적으로 원가 부담이 크다.

  3. 공급망 제약이 심하다.

    • 만들 수 있는 회사와 물량이 제한적이라, AI 붐이 오면 순식간에 부족해진다.

즉, HBM은 “빠른 대신 비싸고, 생각만큼 많이 못 넣는 고급 메모리”에 가깝다.
그래서 “연산 코어는 계속 늘어가는데 HBM이 발목을 잡는” 상황이 생기고 있다.


3. Credo Weaver가 하는 일: “HBM의 벽을 DDR로 우회”


Credo의 OmniConnect Gearboxes와 그 가운데 첫 제품인 Weaver는, 아주 단순화하면 다음 한 문장으로 설명할 수 있다.

“HBM만으로는 부족해진 AI 칩에, 일반 DDR 메모리를 대용량으로 붙여줄 수 있게 해 주는 고속 연결·배선용 칩”이다.


조금만 풀어 쓰면:

  • 기존에는 XPU(가속기, AI 칩) 옆에 HBM만 붙이는 구조가 많았는데,

  • Weaver를 사용하면 일반 DDR·LPDDR 메모리를 칩 밖에 여러 개 달아, 마치 XPU가 거대한 메모리를 갖고 있는 것처럼 만들어 준다.

  • Credo 설명에 따르면, 설계자가 HBM 대신/또는 HBM과 함께 일반 메모리를 쓰면서도

    • 최대 30배 더 큰 메모리 용량,

    • 8배 더 높은 대역폭
      을 노릴 수 있도록 설계되어 있다.


여기서 핵심 역할을 하는 것이 Credo의 **112G VSR SerDes(CertiS)**인데, 이게 하는 일은

  • “데이터 고속도로”의 차선 수와 품질을 크게 늘려주는 것에 가깝다.

  • 그 덕분에 같은 보드 위에 있는 메모리들을, 속도 저하를 최소화하면서 XPU에 많이 붙일 수 있다.

정리하면,

  • HBM 중심 구조에서 생기는 용량·대역폭·비용의 벽

  • 값싸고 구하기 쉬운 DDR 메모리 풀로 우회하게 해 주는 솔루션이 Weaver이다.


4. 메모리 계층 구조 안에서 Weaver의 위치


현대 컴퓨팅 시스템에서 메모리는 보통 여러 층으로 나뉜 구조를 갖는다. 단순히 그려 보면:

  1. 캐시 (L1/L2/L3) – 가장 빠르고 가장 작다

    • 칩 안에 있는 초고속 작은 노트.

  2. HBM – 빠르고 중간 용량

    • 칩 패키지 안에 있는 고급 메모리.

  3. DDR/LPDDR – 속도는 떨어지지만 싸고 용량이 크다

    • 보드 위에 여러 개 꽂는 일반 메모리.

  4. SSD/NVMe – 훨씬 느리지만 매우 싸고 용량이 크다

    • 저장장치.

Weaver는 이 계층 구조에서 HBM과 DDR 사이를 이어주는 다리 역할을 한다.

  • XPU 하나당 붙일 수 있는 DDR 채널·용량을 기하급수적으로 늘려 주고,

  • 그 연결을 고속·고밀도로 정리해 주는 배선 허브 같은 위치에 서 있다.

이렇게 되면 메모리 계층을 조금 더 구체적으로 나눌 수 있다.

  • Tier 0: 캐시 (칩 속 가장 빠른 메모리)

  • Tier 1: HBM (가까운 고속 메모리)

  • Tier 2: Weaver를 통해 묶인 DDR 풀 (조금 먼 대용량·중속 메모리)

  • Tier 3: SSD/스토리지 (아주 먼 초대용량 메모리)

결국 Weaver는 우리가 말하던

  • 메모리 계층화(자주 쓰는 데이터는 위쪽에, 덜 자주 쓰는 데이터는 아래쪽에 두는 구조),

  • 메모리 디스어그리게이션(메모리를 칩에서 떼어내 풀(pool)처럼 따로 두는 구조)


실제 하드웨어 제품으로 구현한 사례라고 보면 된다.


5. 왜 특히 ‘추론(inference) 시장’과 잘 맞는가


우리가 이전에 이야기했듯, **학습(training)**과 **추론(inference)**은 메모리에서 요구하는 포인트가 다르다.

  1. 학습은 여전히 “극한의 속도”가 중요하다

  • 역전파, 옵티마이저, 거대한 배치(batch)를 처리하려면

    • HBM의 초고대역폭이 핵심이다.

  • 그래서 학습용 GPU는 “HBM 최대한 많이, 최대한 빠르게”가 기본 전략이다.

  1. 추론은 “얼마나 많이·얼마나 싸게”가 중요해지는 단계로 가고 있다

  • LLM 추론에서는

    • KV 캐시, 긴 컨텍스트, 동시 접속 사용자 수가 늘어날수록

    • 필요한 메모리 용량이 계속 불어난다.

  • 실시간 비디오 생성, 자율주행도

    • 여러 프레임·센서 정보·히스토리를 동시에 붙들고 있어야 해서

    • 메모리 용량과 대역폭이 병목이 되기 쉽다.

이때 Weaver 구조를 쓰면:

  • 자주 쓰이는 아주 핵심 데이터·연산은 HBM에 두고,

  • KV 캐시, 히스토리, 버퍼, 덜 자주 쓰이는 파라미터 등은 DDR 풀에 두는
    형태의 자연스러운 메모리 티어링이 가능하다.

즉,

  • 같은 XPU 개수로 더 많은 세션을 처리하거나,

  • 더 긴 문맥(컨텍스트)을 제공하거나,

  • 비디오/자율주행처럼 “상태를 많이 들고 있어야 하는” 추론 서비스의 수용력을 늘리는 데 직접적으로 도움을 준다.

Credo도 실제로

  • 실시간 AI 비디오 생성, 자율주행 등 “메모리 용량·대역폭이 병목인 워크로드”를 Weaver의 대표 타깃으로 설명하고 있다.

  • 그리고 이런 메모리–컴퓨트 연결 시장이 앞으로 수십억 달러 규모로 커질 것으로 본다고 말한다.


6. 우리가 쓰고 있는 큰 틀 속에서의 위치


우리가 전체 AI 하드웨어·메모리 지형을 정리할 때 쓰고 있는 프레임에 넣어 보면 Weaver는 다음과 같이 정리된다.

  1. 메모리 월 축

    • 과거: CPU vs DRAM 속도 차이 → “latency wall”

    • 현재: HBM 중심 구조의 용량·대역폭·비용 제약 → “capacity/bandwidth/cost wall”

    • Weaver는 이 두 번째 벽, 특히 용량·비용 문제를 DDR로 우회하는 솔루션이다.

  2. 메모리 계층화·디스어그리게이션 축

    • 단일 패키지 안 HBM 중심 구조 →

    • **“HBM + DDR 메모리 풀 + (향후) CXL 메모리”**로 이어지는 다층 구조

    • Weaver는 그중 **“HBM과 DDR을 엮는 커넥티비티 레이어”**에 해당한다.

  3. 학습 vs 추론 축

    • 학습: HBM 중심 초고성능 GPU

    • 추론: 메모리 용량·비용이 더 중요해지는 추론 특화 XPU + 대용량 메모리 풀

    • Weaver는 제품 정의부터 추론 워크로드를 겨냥하고 있어,
      우리 리포트에서는 “추론용 메모리 아키텍처/메모리 티어링” 파트의 핵심 사례로 배치하는 것이 자연스럽다.


정리하면,

  • Credo의 Weaver/OmniConnect Gearboxes

    • 우리가 논의해 온 메모리 월,

    • 메모리 계층화·디스어그리게이션,

    • 추론에서 메모리의 전략적 역할
      이 세 가지와 모두 긴밀하게 맞닿아 있는 제품이다.

  • 다만 본질은 “새로운 메모리 칩”이 아니라, 메모리와 AI 칩을 잇는 고속 도로를 새로 깔아서 HBM의 한계를 보완해 주는 커넥티비티/배선 솔루션이라는 점을 명확히 짚고 가면, 전체 그림이 훨씬 보기 쉬워진다.


=끝

댓글 없음:

댓글 쓰기