HBM의 아버지 김정호 교수님의 HBF 언급이 있어 관련된 내용과 생각을 정리해본다.
https://youtu.be/uJWZQb9rWUk?si=QOOm3FRdAtk3LP6k
개인용 추론 컴퓨팅의 현실과 ‘메모리 병목’, 그리고 HBF의 도래
최근 생성형 AI의 매체가 텍스트 중심에서 동영상·이미지 중심으로 급격히 이동하고 있다. 씨게이트테크놀로지에 따르면, 구글의 Veo 플랫폼 출시 후 5개월 동안 2억 7,500만 개 이상의 동영상이 생성되었으며, 1분짜리 AI 동영상은 1,000단어 텍스트 대비 최대 2만 배의 저장 용량을 요구한다고 한다.
이는 생성형 AI가 만들어내는 비정형 멀티미디어 데이터의 저장 총량이 기존 텍스트 데이터 대비 압도적으로 크다는 사실을 시사한다.
나아가 physical AI가 대두되면 모델은 동영상·사진 기반 **비정형 ‘프라이어’**를 대규모로 학습·모방하게 되고, 이는 현재의 정형 텍스트 기반 저장보다 훨씬 큰 스토리지·메모리 수요를 야기한다. 결과적으로 NAND 기반 eSSD 및 HBF(High Bandwidth Flash) 수요는 구조적으로 확대될 가능성이 높다.
이 수요 증가는 개인용 추론 컴퓨팅에서도 그대로 드러난다. 최근 엔비디아 DGX Spark가 일반 판매를 시작했다. 개인용 딥러닝 컴퓨터 성격의 이 시스템은 약 1테라플롭스급 연산을 제공하며, 200억(20B) 파라미터 모델 기준 이론상 초당 1,000토큰 생성이 가능하다는 기대가 제시되었다. 이 속도는 ChatGPT-3.5급 모델을 50~100명 동시 서비스하는 수준으로 해석된다.
그러나 실제 측정치는 달랐다. 한 리뷰에서는 1,200억(120B) 파라미터 모델 테스트 시 초당 14토큰에 그쳤다. 표면적으로는 연산(FLOPS) 부족이 떠오르지만, 성능 열화의 일차 원인은 연산 코어가 아니라 메모리 계층의 병목이다. 그 이유는 다음과 같다.
-
작업 특성의 변화(추론)
추론 시 토큰 하나를 만들 때마다 모델은 방대한 파라미터·KV 캐시·임베딩 등 **외부/내부 ‘프라이어’**를 반복 참조한다. 이 과정의 대역폭·지연이 곧 토큰/초를 좌우한다. FLOPS가 충분해도 메모리 공급 속도가 성능을 결정한다. -
장비 구성상의 제약(GDDR, 공냉, 전력한계)
DGX Spark는 HBM이 아닌 GDDR 계열을 사용한다. GDDR은 핀당 속도와 총 대역폭이 HBM 대비 낮고, 개인용 폼팩터 특성상 항시 풀로드를 가정하기 어렵다. 공냉 중심의 냉각은 전력·발열 마진을 제한해 지속 클록과 메모리 컨트롤러 효율을 낮춘다. 결과적으로 메모리 공급이 연산 수요를 따라가지 못한다. -
모델 규모의 상승(20B → 120B)
이론치는 보통 작은·가벼운 모델 + 낮은 지연의 메모리 경로를 가정한다. 반면 실제 테스트는 120B처럼 큰 모델이다. 모델이 커질수록 파라미터·KV 캐시 이동량이 기하급수적으로 늘고, 배치/시퀀스 길이를 보수적으로 잡을수록 메모리 접근 지배적(메모리 바운드) 상황이 된다.
위 세 가지가 결합되면, 연산 여력은 남아도 메모리가 데이터를 제때 공급하지 못해 스루풋이 급락한다. 그래서 기대치(20B 가정, 이상적 메모리 경로)인 1,000토큰/초와 달리, 실제(120B, GDDR, 공냉·전력 제약) 환경에서는 14토큰/초라는 결과가 나온다. 즉, 그 제약들이 메모리 병목을 촉발했고 그 병목이 성능을 규정했다.
이 병목을 구조적으로 줄이려면 HBM이 필요하지만, HBM은 실리콘 인터포저 기반 첨단 패키징(예: CoWoS) 없이는 구현이 어렵다. 문제는 이 공정의 유효 캐파 자체가 글로벌 병목이라는 점이다. **TSMC의 2025년 CoWoS 증설(연 7.5만 웨이퍼 전망)**에도 불구하고, 수요가 워낙 커 단기간 수급 균형을 맞추기는 어렵다는 관측이 우세하다.
결론적으로, 개인용 추론 컴퓨팅의 성능 향상은 연산 코어 증설보다 메모리 계층의 한계 해소가 관건이다. 이 제약이 풀리기 전까지 사용자가 체감하는 토큰/초의 급격한 도약을 기대하기 어렵다. 더 넓게 보면, 동영상 중심의 생성형 AI 확산이 데이터센터·엣지 전반에서 비정형 대용량 프라이어의 실시간 참조를 일상화하면서, 메모리·스토리지의 구조적 재편을 강제한다.
여기서 **HBF(High Bandwidth Flash)**의 필요성이 뚜렷해진다. AI의 성능 초점이 학습에서 추론으로 이동하면서 시스템 병목은 연산 코어가 아니라 프라이어를 얼마나 빠르고 지속적으로 불러올 수 있느냐로 옮겨왔다. 이때 HBM만으로는 용량 한계에 부딪힌다. **플래시 기반 적층 메모리(HBF)**는 DRAM보다 느리지만 압도적인 용량·비용 효율을 통해 추론용 지식 저장소에 최적화된다. 결과적으로 SRAM → HBM → HBF → 원격 스토리지로 이어지는 계층에서, HBM이 인코더·디코더 등 초고속 활성 파라미터를 담당하는 동안 HBF는 GPU 인접에서 대용량 프라이어를 고대역·지속 공급하는 전용 캐비닛 역할을 한다.
실증적 징후도 분명하다. DGX Spark 사례처럼 이론상 FLOPS가 충분해도, 실제 토큰/초는 메모리 경로의 대역폭·지연에 의해 좌우된다. 토큰 하나를 생성할 때마다 모델은 거대한 **‘암호책’(프라이어)**을 여러 차례 읽어야 하며, 이 읽기 중심 병목이 실효 성능을 깎아낸다.
엔비디아 CPX가 제시한 해법은 **하드웨어 차원의 ‘컨텍스트 처리 구간’ 분리(오프로딩)**로, 롱컨텍스트의 연산·메모리 접근을 전담시켜 어텐션 등 컨텍스트 연산을 가속하고, 생성 페이즈를 맡는 HBM 기반 GPU의 부담을 덜어 시스템 단위 효율을 높인다.
그러나 이는 HBM 대역폭·용량 부족을 근본 대체하기보다 가장 막히는 구간을 분리·효율화하는 보완책에 가깝다. 컨텍스트 가속으로 경로 효율을 높여도, **대용량 프라이어 자체를 담아두고 빠르게 공급할 저지연·대용량 스토어(HBF)**가 없으면 전체 토큰/초의 상한은 남는다.
따라서 **CPX(컨텍스트 오프로딩) × HBM(초고속 활성 파라미터) × HBF(대용량 프라이어)**의 삼각 편성이 필요하다.
-
CPX: 컨텍스트 단계의 연산·접근 패턴을 최적화해 병목 구간을 분해·가속한다.
-
HBM: 핵심 연산이 요구하는 초저지연·고대역을 제공한다.
-
HBF: 대용량 프라이어를 GPU 인접에서 고밀도·저비용으로 지속 공급해 토큰/초 상한을 끌어올린다.
이러한 요구에 부합하는 해법이 HBF이다. HBM 수준의 지연 특성에 최대한 근접시키되, HDD/일반 SSD 대비 월등한 집적도·비용 효율로 수십~수백 TB급 프라이어 풀을 붙여 두는 중간 계층을 형성한다. 모델 규모 확대와 동시 사용자 증가가 가속되는 만큼, HBF를 GPU 바로 옆에 적층해 경로를 짧게 하고 대역을 넓히는 설계가 필요하다. GPU 주변 공간 제약을 감안하면 **HBF 목표 용량은 HBM 대비 10배+**가 합리적이며, 이후에는 광연결을 도입해 경로 지연을 구조적으로 절감하는 방향이 유력하다.
결과적으로 데이터센터에서는 기존 LPDDR·SSD의 일부 역할을 HBF가 대체하며 AI 지식 저장소로 편입되고, **시스템 유효성능(토큰/초)**과 전성비가 동시에 개선된다. DRAM은 휘발성, 플래시는 비휘발성으로 각각 속도·수명 이슈가 있으나, 읽기 위주 추론 워크로드에서는 HBM·DRAM·HBF의 계층적 연계로 실효 병목을 크게 낮출 수 있다.
결론적으로, 연산 코어 증설보다 메모리 계층 확장이 추론 성능 혁신의 지배 요인이다. 동영상 중심 생성형 AI의 폭발이 비정형 데이터 프라이어의 대용량·저지연 공급을 상수로 만들었고, CPX는 병목 구간을 해체·가속하는 보강재이지만 HBF 없이는 전체 토큰/초의 상한을 뚫기 어렵다.
**HBM은 빠른 처리의 ‘근육’, HBF는 방대한 지식의 ‘장기’, CPX는 흐름을 정리하는 ‘혈관 확장제’**에 가깝다. HBF의 도입은 선택이 아니라 필수이며, 데이터센터 아키텍처·투자 포지셔닝·산업 구조 전반을 재정의할 것이다.
SKH의 AI 전용 낸드 라인업(AI NAND Lineup)
-
AIN P (Performance)
· AI 추론 환경용 고성능 SSD이다.
· 데이터 입출력 병목 최소화를 통해 속도와 에너지 효율을 높인다.
· 내년 말 샘플 출시 예정이다. -
AIN D (Density)
· 초고용량·저비용 낸드이다.
· QLC 기반으로 TB급 SSD를 넘어 PB(페타바이트)급을 목표로 한다.
· SSD 속도와 HDD 경제성을 결합한 중간계층 스토리지이다. -
AIN B (Bandwidth)
· HBM처럼 낸드를 수직 적층한 HBF 기술을 적용한 제품이다.
· AI 추론·LLM 대형화에 대응해 메모리 용량 부족 문제를 해결한다.
· 샌디스크와 HBF 표준화 MOU를 8월에 체결했으며, 생태계 확장을 도모한다.
#SANDISK HBF: 로드맵과 재무 프레임
· HBF(High Bandwidth Flash):
-
목적: DRAM/HBM 대체가 아니라, AI 추론 단계에서 고대역·고밀도·저전력 NAND 적용을 확대하여 온디바이스/엣지·서버 추론을 겨냥한다.
-
일정: 2026년 말 NAND, 2027년 초 시스템 제공을 목표로 산업 표준화 협력 중이다.
· 장기 모델: **총마진 ‘스루사이클 35%’**는 바닥도 상한도 아닌 ‘3년 평균’ 가이드다. 과거 평균 하회 구간이 있었던 만큼, 향후 몇 분기는 마진 확장 국면이 기대된다.
· OpEx/매출 15%: 대부분 R&D 비중이며, HBF·eSSD에 집중 투자한다. SG&A는 효율화(저원가 지역 인력 이전 등) 병행 방침이다.
결론
DGX Spark 사례가 보여주듯 개인용 추론 컴퓨팅의 병목은 연산이 아니라 메모리다. HBM은 첨단 패키징 용량이라는 현실적 제약에 묶여 있고, 소비자용은 당분간 GDDR7/온패키지 LPDDR 고속화와 대용량 VRAM으로 성능을 끌어올리는 경로가 합리적이다.
동시에 추론 중심의 AI 진화는 저지연·대용량 ‘프라이어’ 저장 공간을 GPU 인접에 요구하며, 이 요구를 비휘발·고밀도 특성으로 충족하는 HBF가 다음 메모리 계층으로 부상할 것이다. 광연결과 결합된 HBF는 AI 데이터센터 유효성능을 끌어올리고 전성비를 개선함으로써, 산업 구조와 밸류체인 전반에 변화를 촉발할 것이다.
=끝
댓글 없음:
댓글 쓰기