0. 서론: 차세대 DPU(BlueField-4급)가 의미하는 것
먼저 이번 구조의 출발점이 되는 차세대 DPU(4세대급 DPU) 가 무엇인지부터 정리할 필요가 있다.
이 DPU는 한마디로 이렇게 이해하면 된다.
**“GPU가 계산에만 집중하도록, 네트워크·스토리지·보안 같은 ‘데이터 이동과 인프라 잡일’을 옆에서 전담하는 인프라용 프로세서”**이다. (NVIDIA Blog Korea)
기존 NIC(네트워크 카드) 가 “패킷을 잘 보내고 받는 장치”였다면, 이 DPU는 여기에
Arm 계열 코어(작은 CPU들) 와
네트워크·스토리지·암호화·보안 가속기 를 붙여,
네트워크/스토리지/보안 처리를 서버 CPU 대신 맡는 ‘인프라 전용 컴퓨터’ 로 만든 개념이다.
특히 한 GPU 업체는 이 DPU 기반으로 ICMSP(Inference Context Memory Storage Platform) 라는 개념을 제시했다. 여기서 이 DPU는
“KV 캐시·에이전트 컨텍스트를 SSD 풀에 저장·공유하고, RDMA·NVMe-oF를 통해 저지연·저지터로 GPU와 데이터를 주고받는 컨텍스트 메모리 매니저”
역할을 한다고 정의된다. (NVIDIA Developer)
이제 이 DPU를 전제로, SSD=외부 컨텍스트 메모리 계층과 이를 운영하는 스토리지 플랫폼 이야기를 이어가 보겠다.
1. SSD가 갑자기 중요해진 이유: 저장장치에서 “외부 메모리”로
AI 인프라는 한동안 “GPU가 얼마나 빠르냐” 가 핵심이었다.
하지만 LLM·에이전트 추론이 커지자, 진짜 승부처는 이렇게 바뀌고 있다.
“GPU가 얼마나 빠른가”보다, “GPU를 얼마나 멈추지 않고 계속 돌릴 수 있는가”
즉, GPU 활용도(Utilization) 가 더 중요해진 것이다.
GPU가 멈추는 대표 이유가 바로 컨텍스트(context) 이다.
컨텍스트는 단순 텍스트 이력뿐 아니라, 다음 토큰을 빠르게 만들기 위해 저장해 두는 계산 결과까지 포함한다.
KV 캐시(KV cache):
LLM이 다음 토큰을 만들 때, 이전 토큰에서 계산한 중간 결과를 저장해 두는 “임시 메모리”이다. 같은 계산을 반복하지 않고 속도를 내는 데 필수적이다.에이전트 컨텍스트(agent context):
에이전트가 멀티스텝 작업을 수행할 때 “무엇을 했고, 무엇을 하려는지, 중간 결과는 무엇인지” 같은 작업 상태를 유지하는 정보이다.
문제는 이 컨텍스트가 커질수록, GPU 옆 초고속 메모리인 HBM 에 다 올려두기 어렵다는 점이다.
장문맥 대화, 멀티 에이전트, 롱런 세션이 늘어날수록 KV 캐시/컨텍스트가 HBM을 잠근다.
그러면:
새 작업을 올리기 어렵고(배치 확장이 막히고),
컨텍스트 때문에 데이터 이동·재계산·대기가 반복되면서,
→ GPU가 멈추는 유휴 시간이 늘고 토큰 처리량이 떨어진다.
핵심은 “HBM이 논다”가 아니라,
HBM에 컨텍스트를 붙잡아 두느라 GPU가 제대로 일을 못 하고, 활용도가 떨어진다는 점이다.
NVIDIA가 CES에서 내놓은 Vera/Rubin 계열 설계의 메시지는 명확하다. (Tom's Hardware)
컨텍스트를 GPU 내부 HBM만으로 감당하지 말고, 랙/클러스터 전체가 공유하는 ‘외부 메모리 계층(External Memory Tier)’을 만들자.
그리고 그 역할을 SSD가 맡게 하자.
이 순간 SSD는 단순 “저장장치”가 아니라, 추론을 위한 외부 메모리 계층으로 성격이 바뀐다.
2. DPU + RDMA + NVMe-oF: SSD를 메모리처럼 쓰는 통로
컨텍스트를 SSD로 내려보내고(offload),
다시 필요할 때 빠르게 가져오려면(fetch),
그 사이의 데이터 경로가 병목이 되면 안 된다.
그래서 제시된 조합이 DPU + RDMA + NVMe-oF 이다. (NVIDIA Developer)
DPU(Data Processing Unit)
네트워크/스토리지/보안 등 “데이터 이동” 작업을 서버 CPU 대신 전담 하는 인프라용 프로세서이다. GPU가 계산에 집중하도록 데이터 경로 부담을 분리한다.RDMA(Remote Direct Memory Access)
네트워크로 데이터를 옮길 때 CPU 개입과 메모리 복사를 줄여, 지연(latency) 과 지터(jitter, 지연의 흔들림) 를 낮추는 기술이다.NVMe-oF(NVMe over Fabrics)
NVMe SSD 접근을 네트워크로 확장해, 멀리 있는 SSD도 고속·저지연 으로 접근하는 방식이다.
이 조합의 목적은 단순히 “SSD를 빨리 읽자”가 아니라,
“SSD에 있는 컨텍스트를, HBM 옆 메모리처럼 예측 가능하게 다루자”
는 데 있다.
그래야 SSD가 진짜로 “외부 컨텍스트 메모리 계층” 이 될 수 있기 때문이다.
실제 한 GPU 업체의 설명에서도, 이 DPU 기반 플랫폼이 재사용 가능한 추론 컨텍스트(KV 캐시)를 보관하고 GPU 근처로 프리스테이징해, GPU 활용도를 높인다고 밝히고 있다. (NVIDIA Developer)
3. (중간 요약) HBM에 묶여 있던 컨텍스트를 SSD로 빼고, 다시 Prefetch로 당겨오는 구조
여기까지를 한 번에 요약하면 다음과 같다.
예전에는 LLM이 다음 토큰을 빠르게 만들기 위해
KV 캐시(이전 계산 결과) 와 에이전트 컨텍스트(작업 상태) 를
GPU 옆 초고속 메모리(HBM) 에 계속 붙잡아 두는 구조였다.
그런데 대화가 길어지고 에이전트가 많아지면 이 컨텍스트가 커져서 HBM을 많이 잠가 버린다.
그러면 GPU가 새 작업을 올리거나 배치를 키우기 어려워지고, 컨텍스트 때문에 데이터 이동·재계산·대기 같은 일이 늘면서 GPU가 멈추는 시간(유휴) 이 생기거나 처리량이 떨어진다.
즉 문제의 핵심은 “HBM이 논다”가 아니라 GPU 활용도가 떨어진다는 점이다.
새로운 구조(차세대 DPU + ICMSP 방향)는 이 컨텍스트를 HBM에만 두지 않고 외부 메모리 계층으로 빼는 방식이다.
구체적으로는 HBM을 많이 잡아먹는 KV 캐시/컨텍스트를 RDMA(빠른 전송) 로
DPU(데이터 이동 전담 칩) 가 관리하는
SSD 풀(NVMe-oF로 접근되는 원격 SSD 묶음) 로 내려둔다.
이렇게 하면 HBM은 컨텍스트에 덜 잠기고, GPU는 더 자주 “계산”에 집중할 수 있다.
그리고 나중에 그 컨텍스트가 다시 필요해지면, SSD 풀의 데이터를 “그때그때 느리게 가져오는” 방식이 아니라 Prefetch(필요하기 전에 미리 당겨오기) 로 GPU HBM 쪽에 미리 올려둔다.
결과적으로 GPU는 컨텍스트를 기다리느라 멈추는 시간이 줄고, 같은 GPU로 더 많은 토큰을 안정적으로 뽑는 방향(=GPU 활용도 개선)으로 간다.
한 줄로 정리하면,
이 구조는 KV 캐시/컨텍스트를 HBM에만 묶어두지 않고 SSD 기반 외부 메모리 계층으로 오프로딩했다가, 필요할 때 Prefetch로 다시 HBM에 올려 GPU 유휴를 줄이는 아키텍처이다.
4. 스토리지 플랫폼의 역할: “고속도로 위의 운영체제”
여기서 한 스토리지 소프트웨어/데이터 플랫폼 업체가 맡는 역할은,
**“고속도로(하드웨어)를 깔아놓은 뒤, 그 위에서 컨텍스트가 끊기지 않고 잘 흘러가게 만드는 운영체제”**에 가깝다.
ICMSP가 제공하는 것은 요약하면 “컨텍스트를 SSD로 보내고 다시 가져올 수 있는 고속도로(DPU·RDMA·NVMe-oF)” 이다.
이 위에서 스토리지 플랫폼이 하는 일은 세 가지로 보고 정리할 수 있다.
컨텍스트를 개별 GPU의 로컬이 아니라, 클러스터 전체의 ‘컨텍스트 풀(pool)’로 운영하는 것
어떤 컨텍스트를 언제 SSD로 내리고(offload), 언제 HBM으로 미리 끌어올릴지(prefetch) 결정하는 정책을 구현하는 것
이 모든 것을 저지연·저지터 데이터 경로 위에서 안정적으로 돌리는 것
따라서 이런 스토리지 플랫폼은 “SSD 박스를 파는 회사”가 아니라,
SSD를 LLM/에이전트의 외부 컨텍스트 메모리 계층으로 쓰게 만들어 GPU 효율을 현금화하는 소프트웨어/데이터 플랫폼
이라고 보는 것이 정확하다. (NVIDIA Developer)
5. 한 페이지 요약: 외부 컨텍스트 메모리 시대의 수혜 밸류체인·병목·CAPEX 이동
ICMSP로 대표되는 “SSD=외부 컨텍스트 메모리” 전환은,
투자·산업의 초점을 GPU 단품 성능에서 클러스터 전체의 데이터 이동·컨텍스트 재사용 효율로 옮긴다.
병목은 “연산 부족”이 아니라 컨텍스트를 얼마나 빨리·일관되게(저지연·저지터) 옮기고 재사용하느냐로 이동하고, CAPEX는 GPU만이 아니라 네트워킹·DPU·스토리지 계층으로 구조적으로 확장된다.
(1) 광모듈 / 실리콘 포토닉스
병목: 컨텍스트 공유(ICMSP)로 동서(East-West) 트래픽이 폭증하면, 전기 기반 링크만으로는 전력·발열·거리·신호무결성 측면에서 한계가 빨리 온다.
CAPEX 포인트: 트래픽이 늘수록 “몇 Tbps냐”보다 비트당 에너지(pJ/bit) 가 핵심이 되며, 광모듈·실리콘 포토닉스 비중이 커진다.
한 시장조사기관은 광트랜시버 시장이 **2024년 약 136억달러 → 2029년 250억달러(CAGR 약 13%)**로 성장할 것으로 본다. (MarketsandMarkets)
(2) CPO(Co-Packaged Optics) 패키징
병목: 플러거블 광 트랜시버 + 전기 리치 구조에서는 고대역 스위치에서 I/O 밀도·전력·열 이 병목이 된다.
CAPEX 포인트: CPO는 스위치 ASIC과 광학을 한 패키지에 붙여 pJ/bit를 낮추고 전기 경로 손실을 줄이는 해법이다.
NVIDIA는 실리콘 포토닉스 기반 CPO 스위치로, 포트당 1.6Tb/s급·네트워크 전력 3.5배 절감·수백만 GPU 연결을 목표로 하는 로드맵을 공개했다. (NVIDIA Newsroom)
(3) 스위치 ASIC
병목: ICMSP는 대역폭뿐 아니라 예측 가능한 지연(저지터) 를 요구한다. 네트워크 지연이 흔들리면 Prefetch가 깨지고 GPU 파이프라인이 비면서 전체 처리량이 떨어진다.
CAPEX 포인트: 단순 고성능 스위치가 아니라, AI 트래픽·RDMA·혼잡제어에 최적화된 스위치 ASIC 이 필요하며, 스위치 계층이 GPU와 동급의 핵심 설비로 올라간다. (NVIDIA Newsroom)
(4) DPU/NIC
병목: 컨텍스트 Offload/Fetch/Prefetch의 핵심은 “데이터 이동”이며, 이것을 CPU가 처리하면 오버헤드와 지터가 커진다. 결국 데이터 경로의 결정론(determinism) 이 병목이다.
CAPEX 포인트: DPU/NIC는 단순 네트워크 카드가 아니라 컨텍스트 메모리 매니저 로 기능이 확장된다. ICMSP가 표준이 될수록 필수 부품으로 CAPEX 비중이 커진다. (NVIDIA Developer)
(5) NVMe SSD(External AI SSD, 컨텍스트 티어)
병목: SSD는 이제 “용량”보다 지연·IOPS·일관성(QoS) 이 추론 품질(TTFT, 토큰/초)을 좌우한다. 컨텍스트 재사용률이 높아질수록 SSD는 사실상 메모리 계층이 된다.
CAPEX 포인트: 백업/저장용 스토리지가 아니라, “GPU당 필요한 외부 컨텍스트 메모리 티어” 로 NVMe CAPEX가 잡힌다.
(6) 스토리지 소프트웨어 / 데이터 플랫폼
병목: 어떤 컨텍스트를 언제 오프로딩하고, 어디에 두고, 언제 Prefetch할지, 멀티 테넌트 환경에서 어떻게 격리·복구할지 같은 정책과 운영이 최종 병목이다.
CAPEX 포인트: “스토리지 관리 SW”가 아니라, GPU 효율을 현금화하는 컨텍스트 OS/플랫폼 으로 비용이 배정된다. GPU 투자 대비 수익률(토큰/초, J/token)을 좌우하는 레이어로 격상된다.
6. 2030년까지 광인터커넥트(광트랜시버·OCS·InP 웨이퍼) 시나리오
같은 맥락에서, 광인터커넥트 산업을 2030년까지 시나리오로 보면 다음과 같다.
6-1. 광트랜시버: 수요는 크고, 단기 성장은 “공급이 결정”
한 글로벌 시장조사기관은 광트랜시버 시장이 **2024년 100억달러대 중반 → 2029년 250억달러 수준(CAGR 10%대 중반)**으로 성장할 것으로 본다. (MarketsandMarkets)
하지만 실제 출하·매출은 부품 공급(특히 InP 기반 레이저·EML, 드라이버/TIA, SiPh 칩·패키징) 에 의해 제약될 수 있다. 즉 “총수요는 충분한데, 공급이 따라가느냐”가 2026년의 관전 포인트라는 것이다.
6-2. OCS(광회로스위치): 2028년 10억달러대, 2030년에는 ‘스텝 점프’ 가능
한 통신 특화 리서치사는 OCS(Optical Circuit Switch) 시장이 2028년에 10억달러를 넘을 것이라고 본다. (Cignal AI)
같은 내용을 보도한 업계 매체들도, AI 데이터센터에서 OCS가 전력 절감과 유연성을 동시에 확보하는 기술로 부상하고 있다고 정리한다. (Light Reading)
이를 2030년까지 단순 외삽하면, 연 15~30% 성장률을 가정할 때 2030년 13~20억달러 정도가 합리적인 범위 추정이다. 다만 OCS는 “완만한 성장”보다 아키텍처 전환이 임계점을 넘을 때 한 번에 점프하는 패턴을 보일 가능성이 크다.
6-3. CPO: 플러거블을 ‘대체’라기보다 ‘병존+점진적 잠식’
NVIDIA는 실리콘 포토닉스 기반 CPO 스위치를 통해 수백만 GPU를 1.6Tb/s 포트 스위치로 연결하면서, 네트워크 전력을 3배 이상 절감하는 방향을 제시한다. (NVIDIA Newsroom)
여러 시장조사기관은 CPO 스위치 시장이 2020년대 후반까지 20%대 중후반 CAGR으로 성장할 수 있다고 본다. (PW Consulting)
이를 종합하면,
2025~26년: 여전히 플러거블(800G/1.6T) 중심 성장 구간
2026~2030년: CPO가 플러거블을 완전히 “대체”하기보다는,
**하이엔드·대규모 클러스터를 중심으로 “병존+점진적 잠식”**하는 구도가 될 가능성이 높다.
6-4. InP 웨이퍼(3인치 → 6인치): 병목 해소의 핵심 이벤트
코히런트는 세계 최초 6인치 InP(Indium Phosphide) 웨이퍼 팹을 구축했다고 발표했다. 이는 3인치 중심에서 6인치로 생산을 옮겨, 웨이퍼당 다이 수 증가·수율 개선·다이당 원가 절감을 동시에 노리는 전략이다. (Coherent Inc)
2030년까지 InP 수급은
단순 웨이퍼 장수가 아니라 유효 다이 수(다이/웨이퍼 × 수율),
3인치 → 6인치 전환 속도,
고속 노드(200G→400G/lane) 수율 안정화
같은 변수에 의해 결정된다.
요약하면, InP 공급이 얼마나 빨리 “면적×수율”을 키우느냐에 따라, 2025~27년 EML 병목이 짧게 끝날지, 2030년 근처까지 길게 이어질지가 갈릴 수 있다.
7. 2030년까지의 두 가지 압축 시나리오
시나리오 A: 공급이 계속 타이트(병목 지속)
6인치 전환·고속 노드 수율이 예상보다 느리게 안정화.
결과:
EML(특히 고속 노드) 가격/마진 파워 지속
트랜시버 업체는 SiPh 채택을 더 적극 활용해 InP 병목을 우회
OCS/CPO 도입은 빨라지지만, 광원(InP) 공급이 병목이라 “설치 속도”는 공급이 결정
시나리오 B: 6인치 전환 가속(2027~28년에 병목 완화)
6인치 InP 전환이 업계에 빠르게 확산, 공정·수율이 빠르게 안정.
결과:
2025~26년은 타이트하지만, 2027~30년으로 갈수록 InP 병목 완화
플러거블→CPO/ELS 전환이 수요측에서 빨라져도, 공급이 일정 부분 따라감
가격 파워는 2025~26년 피크 후, 이후에는 제품 믹스·장기공급계약 구조가 수익성의 핵심
두 시나리오 모두 공통 메시지는 같다.
ICMSP/외부 컨텍스트 메모리 구조가 만들어낸 “동서 트래픽 폭증”과 “저지연·저지터 요구”는,
광트랜시버·OCS·CPO·InP 웨이퍼 전 밸류체인의 CAPEX와 기술 전환 속도를 2030년까지 꾸준히 끌어올리는 방향으로 작용한다.
8. 최종 정리
정리하면,
차세대 DPU(BlueField-4급)는 “네트워크·스토리지·보안을 전담하는 인프라용 프로세서(DPU)”, ICMSP에서는 “컨텍스트 메모리 매니저” 역할을 한다. (NVIDIA Blog Korea)
SSD는 더 이상 단순 저장장치가 아니라, LLM/에이전트 컨텍스트를 담는 외부 메모리 계층이 된다.
스토리지 플랫폼은 이 계층을 **클러스터 전체의 ‘공유 컨텍스트 풀’**로 운영하여, HBM에 묶여 있던 KV 캐시/에이전트 컨텍스트를 SSD로 빼고, 필요 시 Prefetch로 다시 HBM에 올려 GPU 유휴를 줄이는 역할을 한다.
이 구조로 인해 병목은 GPU 연산에서 컨텍스트 데이터 이동·재사용 으로 옮겨가고, CAPEX는 GPU 단독에서
광모듈/실리콘 포토닉스 → CPO 패키징 → 스위치 ASIC → DPU/NIC → NVMe SSD → 스토리지 SW
전 구간으로 분산된다.2030년까지의 광인터커넥트 전망(광트랜시버·OCS·CPO·InP)을 겹쳐 보면, ICMSP/외부 컨텍스트 메모리 방향은 단순한 기술 옵션이 아니라,
광·네트워크·스토리지 전 밸류체인의 CAPEX 재배치를 강제하는 거대한 수요 축이라고 정리할 수 있다.
댓글 없음:
댓글 쓰기