전날 유독 메모리, 광학인터커넥팅 주가상승이 두드러졌다.
관련되서 새롭게 시장에서 주목받는 Celestial Photonic Fabric 기술에 대한 리서치 기록을 남겨본다.
인포마켓에 올라오는 영상은 언제나 유익하다.
AI 인프라의 병목은 GPU에서 메모리와 광학 인터커넥트로 이동하고 있다
부제: Agent AI 시대, NVIDIA의 G1/G2 근처에 새로운 물리 계층이 열리고 있다
AI 인프라 경쟁의 중심이 바뀌고 있다.
과거에는 더 많은 GPU, 더 높은 FLOPS, 더 큰 연산능력이 핵심이었다. 하지만 최근 AI 모델은 단순히 빠르게 계산하는 것을 넘어, 더 긴 문맥을 이해하고, 여러 단계의 추론을 수행하며, Agent AI 형태로 복잡한 작업을 이어가야 한다.
이 변화 속에서 병목은 점점 연산에서 메모리와 데이터 이동으로 옮겨가고 있다.
이제 중요한 질문은 하나다.
GPU가 얼마나 빠르게 계산하느냐보다, 얼마나 많은 정보를 저장하고, 얼마나 빠르게 다시 불러오며, 얼마나 적은 전력으로 이동시키느냐가 더 중요해지고 있다.
1. Agent AI 시대의 핵심 병목은 KV cache다
LLM은 문장을 읽고 답변을 생성할 때 이전 토큰들의 정보를 계속 저장한다. 이때 저장되는 정보가 KV cache다.
쉽게 말하면 KV cache는 AI가 방금 읽은 문맥을 잊지 않기 위해 남겨두는 작업 기억 공간이다. 사용자가 긴 문서를 넣거나, 여러 번 대화를 이어가거나, Agent AI가 여러 단계의 업무를 수행하려면 이 작업 기억 공간이 계속 커져야 한다.
문제는 컨텍스트 길이가 늘어날수록 KV cache도 함께 커진다는 점이다.
8K 토큰을 처리하는 모델과 128K, 1M 토큰을 처리하는 모델은 필요한 메모리 규모가 완전히 다르다. 여기에 동시 사용자 수, 배치 크기, 멀티턴 작업까지 더해지면 AI 데이터센터는 단순한 연산 설비가 아니라 거대한 상태 저장·이동 시스템이 된다.
NVIDIA도 agentic AI에서 KV cache가 장문 컨텍스트와 멀티턴 추론의 핵심 병목이 된다고 설명한다. 출처: NVIDIA Developer Blog, BlueField-4 기반 CMX
2. MoE는 연산비를 낮추지만, 통신비와 메모리비를 만든다
최근 프런티어 모델은 대부분 MoE, Mixture of Experts 구조를 활용한다.
MoE는 전체 파라미터를 매번 모두 쓰지 않는다. 질문마다 필요한 일부 전문가만 활성화한다. 덕분에 토큰당 연산량은 줄어든다.
하지만 비용이 사라지는 것은 아니다.
전문가들이 여러 GPU에 흩어져 있으면 매 토큰마다 어느 전문가에게 보낼지 결정해야 한다. 이후 토큰을 해당 전문가에게 보내고, 계산 결과를 다시 모아야 한다.
이 과정에서 여러 숨은 비용이 생긴다.
즉 MoE는 연산량을 줄이는 대신 GPU 간 통신과 VRAM 임시 버퍼 비용을 만든다.
여기에 장문 컨텍스트로 인한 KV cache까지 커지면 병목은 더 이상 FLOPS에만 있지 않다. 병목은 메모리 용량, 메모리 대역폭, GPU 간 인터커넥트, 전력, 배선 밀도로 이동한다.
3. 기존 G1/G2 구조만으로는 한계가 온다
NVIDIA는 추론 컨텍스트가 위치하는 메모리 계층을 대략 G1~G4로 나눈다.
이 구조에서 G1인 HBM은 가장 빠르지만 용량이 작고 비싸다. GPU 패키지 바로 옆에 붙어야 하므로 패키지 면적, 수율, 전력, 발열, I/O 제약을 받는다.
G2인 시스템 DRAM은 HBM보다 용량은 크지만 GPU에서 한 단계 멀다. 속도와 지연시간 측면에서 active generation에 필요한 hot KV를 모두 감당하기 어렵다.
즉 장문 컨텍스트와 Agent AI가 확산될수록 기존 G1/G2 구조만으로는 한계가 뚜렷해진다.
여기서 중요한 질문이 등장한다.
G1 HBM과 G2 DRAM 근처에 새로운 물리적 메모리 계층을 만들 수 있는가?
이 질문이 Celestial Photonic Fabric Appliance를 이해하는 핵심이다.
4. Celestial Photonic Fabric은 G1/G2 근처에 새 계층을 만드는 시도다
Celestial AI의 Photonic Fabric Appliance, PFA는 이 문제를 해결하려는 대표적인 접근이다.
핵심 아이디어는 단순하다.
GPU 옆에만 고속 메모리를 붙이지 말고, 별도의 거대 메모리풀을 만들자. 그리고 이를 광학 인터커넥트로 GPU와 빠르게 연결하자.
Celestial AI의 논문 **“Photonic Fabric Platform for AI Accelerators”**는 이 구조를 구체적으로 제안한다. 논문은 PFA가 HBM3E, 온모듈 광 스위치, 외부 DDR5를 2.5D 전기·광 패키지로 통합해 최대 32TB 공유 메모리와 115Tbps all-to-all digital switching을 제공한다고 설명한다. 출처: arXiv, Photonic Fabric Platform for AI Accelerators
쉽게 비유하면 이렇다.
기존 구조는 GPU마다 자기 옆에 작은 고속 창고를 붙여두는 방식이다. Celestial의 구조는 랙 안에 거대한 공용 창고를 만들고, GPU들이 빛의 통로를 통해 이 창고에 빠르게 접근하는 방식이다.
여기서 HBM은 빠른 작업대 역할을 한다.
DDR5는 큰 창고 역할을 한다.
광 스위치와 Photonic Fabric은 GPU와 메모리풀을 연결하는 고속 도로 역할을 한다.
| 출처: arXiv, Photonic Fabric Platform for AI Accelerators |
| 출처: arXiv, Photonic Fabric Platform for AI Accelerators |
| 출처: arXiv, Photonic Fabric Platform for AI Accelerators |
5. 핵심은 fixed memory-to-compute ratio를 깨는 것이다
Celestial 논문의 문제의식은 명확하다.
기존 XPU/GPU는 고정된 memory-to-compute ratio에 묶여 있다. GPU의 연산능력이 커져도, 그 옆에 붙일 수 있는 HBM 용량은 패키지 면적과 수율, 전력, I/O 제약을 받는다.
큰 모델을 여러 GPU에 나눠 올리면 또 다른 문제가 생긴다.
모델을 쪼개는 순간 GPU들은 계속 서로 대화해야 한다. tensor parallelism, collective communication, all-reduce 같은 통신이 반복된다. GPU가 계산을 못 해서 쉬는 것이 아니라, 필요한 데이터가 도착하기를 기다리며 쉬는 상황이 발생한다.
Celestial PFA는 이 문제를 완화하려는 구조다.
GPU 주변 HBM만으로 부족한 메모리 용량을 외부 공유 메모리풀로 보완하고, 광 기반 고대역폭 연결을 통해 GPU 간 통신 부담을 줄이려 한다.
6. G3.5 CMX와는 다른 물리 계층이다
여기서 NVIDIA의 CMX와 Celestial PFA를 구분해야 한다.
NVIDIA가 Rubin 세대에서 제시한 CMX는 G3.5 context memory tier다. BlueField-4 STX rack을 기반으로 NVMe SSD와 flash를 활용해 KV cache를 저장하고, 필요할 때 다시 GPU HBM이나 시스템 메모리로 올리는 구조다.
즉 CMX는 주로 SSD 기반 context memory storage다. 출처: NVIDIA Developer Blog, BlueField-4 기반 CMX
반면 Celestial PFA는 다른 계층이다.
따라서 두 기술은 같은 방향을 향하지만, 맡는 역할이 다르다.
CMX는 HBM에서 밀려난 KV cache를 SSD 기반 G3.5 계층에 효율적으로 보관하고 다시 올리는 구조다.
Celestial PFA는 그보다 위쪽, 즉 G1/G2 근처에 새로운 물리적 메모리 계층을 만드는 구조다.
이 차이가 중요하다.
CMX는 아래쪽에서 context를 받쳐주는 기술이다. Celestial PFA는 위쪽에서 HBM과 DRAM의 물리적 한계를 완화하는 기술이다.
7. 메모리를 없애는 것이 아니라, 계층을 다시 배치하는 것이다
Celestial PFA를 “HBM을 대체하는 기술”로 이해하면 오해가 생긴다.
현실적인 방향은 HBM을 없애는 것이 아니다. HBM이 가장 잘하는 일에 집중시키는 것이다.
가장 뜨거운 데이터는 계속 G1 HBM에 둔다.
더 크고 자주 재사용되지만 HBM에 모두 둘 수 없는 데이터는 광 기반 공유 메모리풀로 보낸다.
더 차가운 KV cache나 장기 context는 CMX 같은 G3.5 SSD 계층으로 내려갈 수 있다.
미래 AI 메모리 계층은 대략 이렇게 바뀔 가능성이 있다.
여기서 G1.5는 NVIDIA의 공식 명칭은 아니다. 이해를 돕기 위해 편의상 붙인 표현이다.
핵심은 Celestial PFA가 G3.5 SSD 계층이 아니라, G1/G2에 더 가까운 고성능 물리 계층이라는 점이다.
8. 왜 광학 인터커넥트가 필요한가
구리 배선은 짧은 거리에서는 강력하다. 하지만 대역폭이 커지고, GPU 수가 늘고, 랙 내부 배선이 복잡해질수록 한계가 커진다.
전력 소모가 늘어난다.
발열이 커진다.
신호 무결성 문제가 생긴다.
거리 제약이 심해진다.
배선 밀도가 높아진다.
AI 인프라에서는 수많은 GPU가 동시에 데이터를 주고받는다. MoE에서는 전문가 라우팅 때문에 GPU 간 토큰 이동이 늘어난다. 장문 컨텍스트에서는 KV cache 이동이 늘어난다. 대형 모델에서는 tensor parallelism과 all-reduce 통신도 증가한다.
이 구조에서 광학 인터커넥트는 단순한 통신 부품이 아니다.
메모리를 외부로 분리해도 GPU가 이를 빠르게 접근할 수 있도록 만드는 핵심 기술이다.
다시 말하면 Celestial PFA의 본질은 물리적으로는 메모리를 분리하고, 광학적으로는 다시 가까운 것처럼 연결하는 구조다.
9. NVIDIA의 전략적 투자는 같은 방향을 가리킨다
최근 NVIDIA의 전략적 지분투자와 파트너십은 이 변화를 더 선명하게 보여준다.
NVIDIA는 Marvell과 협력해 NVLink Fusion 생태계를 확대하고 있다. Marvell은 custom XPU와 scale-up networking 역량을 제공하고, NVIDIA는 Vera CPU, ConnectX NIC, BlueField DPU, NVLink, Spectrum-X 스위치 등을 제공한다. 양사는 advanced optical interconnect와 silicon photonics technology도 함께 추진한다고 밝혔다. 출처: NVIDIA-Marvell NVLink Fusion 협력
이 협력은 Celestial AI와도 연결된다. Marvell은 Celestial AI를 인수해 Photonic Fabric 기술을 확보했다. Marvell은 Celestial의 기술이 scale-up optical interconnect뿐 아니라 장기적으로 pooled memory appliance와 multi-die package 내부 광 연결까지 확장될 수 있다고 설명했다. 출처: Marvell, Celestial AI 인수 발표
Coherent와 Lumentum 투자도 같은 방향이다. NVIDIA는 이들 기업과의 협력을 통해 레이저, 광부품, 실리콘 포토닉스, optical networking 생산능력을 강화하고 있다. 출처: NVIDIA-Coherent 전략적 파트너십, 출처: NVIDIA-Lumentum 전략적 파트너십
Corning은 더 바깥쪽의 물리 인프라를 담당한다. NVIDIA와 Corning은 AI 인프라용 advanced optical connectivity 생산능력을 확대하는 장기 파트너십을 발표했다. Corning은 optical connectivity 제조능력과 fiber 생산능력을 확대할 계획이다. 출처: NVIDIA-Corning 장기 파트너십
이 기업들은 각자 다른 층위를 담당한다.
겉으로는 서로 다른 투자처럼 보인다. 하지만 방향은 하나다.
AI 데이터센터 안에서 데이터가 이동하는 경로가 점점 광학 기반으로 바뀌고 있다.
처음에는 랙 간, 클러스터 간 연결에서 광이 중요했다. 이제는 스위치 주변, 랙 내부, XPU와 메모리 사이까지 광학 인터커넥트가 더 깊게 들어가려 한다.
10. 결론: 서버당 메모리와 광학 인터커넥트 탑재율은 함께 증가한다
앞으로 AI 인프라의 방향은 두 가지로 정리된다.
첫째, 서버당·랙당 메모리 탑재율은 구조적으로 증가한다.
HBM은 여전히 가장 중요한 고속 메모리로 남을 것이다. 하지만 HBM만으로 장문 컨텍스트와 Agent AI 수요를 모두 감당하기는 어렵다. DDR, HBF, AI SSD, CMX, 외부 공유 메모리풀까지 포함한 계층형 메모리 구조가 함께 커질 가능성이 높다.
둘째, 서버당·랙당 광학 인터커넥트 탑재율도 구조적으로 증가한다.
광섬유는 데이터센터 외곽에서 랙 내부로 들어온다. CPO와 실리콘 포토닉스는 스위치 주변으로 들어온다. Celestial Photonic Fabric 같은 기술은 그보다 더 안쪽, 즉 XPU, switch, memory 연결부까지 광을 밀어 넣으려 한다.
이 변화의 본질은 단순한 부품 교체가 아니다.
AI 인프라가 GPU 중심 아키텍처에서 메모리·통신 중심 아키텍처로 재편되는 과정이다.
마무리: 새로운 경쟁축은 G1/G2 근처의 물리 계층이다
앞으로의 AI 인프라 경쟁은 GPU 연산능력만으로 결정되지 않는다.
더 높은 AI 추론 성능과 Agent AI 확산을 위해서는 긴 컨텍스트를 저장할 KV cache가 필요하다. 이 KV cache는 G1 HBM에만 둘 수 없다. G2 DRAM만으로도 부족하다. 그렇다고 모두 G3.5 SSD 계층으로 내리면 지연시간과 에너지 비용이 커진다.
그래서 새로운 기회가 열린다.
G1/G2 근처에 새로운 물리적 메모리 계층을 만들고, 이를 광학 인터커넥트로 GPU와 연결하는 구조다.
NVIDIA의 CMX는 SSD 기반 G3.5 계층에서 KV cache를 효율적으로 저장·재사용하는 해법이다. Celestial Photonic Fabric은 그보다 위쪽에서, HBM과 DRAM에 가까운 새 공유 메모리 계층을 만들려는 해법이다.
두 기술은 경쟁 관계라기보다 보완 관계에 가깝다.
CMX는 아래쪽에서 context를 받쳐준다.
Celestial류 PFA는 위쪽에서 HBM과 DRAM의 물리적 한계를 완화한다.
결국 앞으로의 AI 데이터센터는 더 많은 GPU를 넣는 싸움에서 끝나지 않는다.
핵심은 더 많은 메모리를 얼마나 가까운 것처럼 쓰게 만들 수 있는가, 그리고 더 적은 전력으로 더 많은 데이터를 이동시킬 수 있는가다.
이 관점에서 보면 광학 인터커넥트와 메모리 풀링은 Agent AI와 장문 컨텍스트 추론을 가능하게 하는 차세대 AI 데이터센터의 핵심 인프라가 될 가능성이 있다.
=끝
댓글 없음:
댓글 쓰기