이전에 봐두었던 김정호 교수님의 HBF 관련 내용 중, 내가 주목했었던 포인트는 AI 시대에 NAND의 사용처가 변화하면서 SSD의 가속상각 가능성이 함께 부각될 수 있다는 점이다.
또한 NAND와 DRAM의 본질적 성질 차이에 대한 설명은 김정호 교수님이 비교적 명확하게 정리해주는 편이라고 느꼈다.
입자성..파동성... 슈뢰딩거방정식 뭐시기 ..
| https://www.youtube.com/watch?v=uJWZQb9rWUk&t=1738s |
1. 문제의식: AGENT AI 시대, 왜 갑자기 낸드 경제학이 중요해졌는가
지금까지 AI 인프라를 이야기할 때 중심은 주로 GPU·HBM·DRAM이었다.
낸드(NAND)는 “싸고 큰 저장공간(SSD)” 정도로 취급되었다.
그런데 최근 한 GPU 업체가 BlueField-4 기반의 Inference Context Memory Storage Platform(ICMSP) 를 공개하면서 상황이 바뀌었다. 이 플랫폼은 KV 캐시 같은 추론 컨텍스트를 NVMe SSD 기반의 별도 메모리 계층에 보관하고, 재사용 가능한 컨텍스트를 미리 GPU 근처로 프리스테이징해 GPU 활용도를 높인다는 아이디어를 전면에 내세운다.(NVIDIA Developer)
여기에 여러 연구·백서들이 KV 캐시/컨텍스트를 스토리지로 오프로딩하는 구조를 제안하고 있고, 특히 agentic AI(멀티스텝 에이전트) 가 확산될수록 이 컨텍스트 데이터가 기하급수적으로 늘어난다고 지적한다.(arXiv)
이 흐름을 종합하면:
낸드는 더 이상 “가끔 쓰고 주로 읽기만 하는 저장소”가 아니라
에이전트 컨텍스트를 계속 읽고 쓰는 외부 메모리 계층으로 올라가고 있고,
따라서 낸드의 쓰기 내구성·상각·공급제약이 AI 인프라 경제학에서 점점 핵심 변수가 되고 있다.
이 글은 바로 이 지점,
“AGENT AI 시대에 컨텍스트가 늘어날수록 왜 낸드가 더 빨리 상각될 수 있는지,
그리고 수급 불균형·초과수요 국면에서 그 위험이 어떻게 증폭되는지”
를 구조적으로 정리해 보려는 시도이다.
2. AGENT AI가 왜 낸드 쓰기를 늘리는가: 컨텍스트 폭증의 메커니즘
2-1. 단순 LLM 질의 vs AGENT 워크로드
단순 LLM 질의에서는:
사용자 질문 1회 → 모델 한 번 추론 → KV 캐시는 세션 안에서만 쓰이고 사라지는 경우가 많다.
SSD는 주로 모델 가중치·데이터셋을 저장하는 쪽에 쓰이고,
추론 중에는 read 비중이 압도적으로 크다.
반면 AGENT AI 워크로드에서는 상황이 완전히 달라진다.
하나의 요청이
여러 번의 툴 호출,
내부 검증/재시도/교차 검증,
다른 에이전트와의 상태 공유,
를 포함하는 멀티스텝 체인(chain) 구조가 된다.
에이전트는 단발성이 아니라,
장기간 유지되는 “작업 세션/작업 공간” 을 다루게 된다.
삼성 반도체의 KV 캐시 오프로딩 백서도,
에이전트형 AI 시스템이 보편화될수록 대화·작업 컨텍스트가 길어지고, KV 캐시·상태 정보를 외부 스토리지 계층으로 오프로딩해야 할 필요성이 커진다고 정리한다.(download.semiconductor.samsung.com)
이 말은 곧,
생성되는 컨텍스트의 총량이 증가하고,
여러 스텝·여러 에이전트 간에 공유해야 하는 컨텍스트가 늘어나며,
이를 GPU HBM만으로 감당하기 어려워 SSD와 같은 외부 계층에 내려놓는 비율이 커진다는 뜻이다.
즉, AGENT AI = 컨텍스트 폭증 → SSD(낸드) 쓰기 트래픽 증가라는 방향성은
여러 기술자료들에서 공통적으로 지적하는 흐름이다.(NVIDIA Developer)
2-2. “저장소”에서 “외부 메모리”로: 워크로드 성격 변화
이때 SSD 위의 워크로드는 크게 두 가지로 나뉜다.
쓰기(write)
길어진 세션, 여러 에이전트가 사용하는 컨텍스트를
GPU HBM에서 외부 컨텍스트 티어(SSD)로 내릴 때 발생
읽기(read)
같은 컨텍스트를
후속 단계에서 다시 참조하거나,
다른 GPU/노드가 이어받아 추론할 때
SSD에서 다시 읽어와 HBM으로 Prefetch할 때 발생
즉, 앞으로의 SSD는:
“한 번 써 두고 계속 읽는 저장소”가 아니라,
“새 컨텍스트를 쓰고, 재사용하고, 지우는 read/write 혼합 외부 메모리”
라는 성격을 점점 강하게 띠게 된다.
여기서부터 낸드 수명·상각 문제가 본격적인 분석 대상이 된다.
3. 낸드 수명·상각의 기본: DWPD 관점에서 본다
낸드 기반 SSD의 내구성은 일반적으로
P/E 사이클(Program/Erase), TBW(Terabytes Written), DWPD(Drive Writes Per Day) 같은 지표로 표현된다.(Kingston Technology Company)
핵심만 추리면:
낸드 플래시는 셀당 쓰기/지우기 횟수가 유한하다.
제조사는 SSD가 보증 기간 동안 버틸 수 있는 총 쓰기량을
TBW(총 몇 TB를 쓸 수 있는지),
DWPD(드라이브 전체 용량을 하루에 몇 번까지 쓸 수 있는지)
형태로 명시한다.(Kingston Technology Company)
예를 들어,
5년 보증, 1 DWPD SSD라면
→ “5년 동안 매일 이 드라이브 전체를 1번씩 모두 써도 견딘다”는 뜻이고,같은 조건에서 3 DWPD SSD라면
→ “매일 3번씩 전체를 덮어써도 된다”는 의미다.
경제학적으로 보면,
SSD 한 개의 CAPEX를 수명 동안 쓸 수 있는 총 쓰기량(TBW) 으로 나누면,
“1TB를 쓸 때마다 실제로는 얼마를 상각하는가”
라는 단위 비용으로 볼 수 있다.(Sandisk Documents)
따라서:
하루당 쓰기량(DWPD)이 올라가면
SSD 교체 시점이 앞당겨지거나(수명 단축),
더 높은 DWPD 등급의 SSD를 도입해야 하고(초기 CAPEX 증가),
어떤 경우든 낸드 관련 상각·투자 부담은 증가한다.
4. 수식으로 보는 상각 가속: 수요 폭증 + 공급 제약
이제 AGENT 워크로드와 메모리 공급을 함께 보자.하루 전체 SSD 쓰기량을
SSD 한 개 용량을 ,
전체 SSD 개수를 라고 하면
라고 볼 수 있다(단순 평균 모델).
4-1. AGENT AI가 바꾸는 것은
앞서 본 것처럼 AGENT AI 도입이 본격화되면:
세션 길이,
에이전트 체인 깊이,
컨텍스트 종류(중간 상태·검증 로그·툴 결과 등),
이 모두 늘어나고, KV 캐시/컨텍스트를 외부 계층으로 오프로딩하는 비율도 올라간다는 점에서
하루 전체 쓰기량 이 증가하는 방향성은 상당히 확실하다.
게다가, 최근 연구들도 KV 캐시를 스토리지·CSD(Computational Storage Drive)로 오프로딩하는 방안이 긴 컨텍스트·대규모 LLM 추론에서 점점 유력한 접근이 되고 있음을 보여준다.
4-2. DRAM·NAND 공급은 단기에 기하급수적으로 늘어나기 어렵다
반대로 메모리 공급은 물리적·투자적 제약을 받는다.
DRAM·NAND는 대규모 팹 투자와 공정 전환이 필요하고,
설비 리드타임·공정 안정화까지 고려하면 수년 단위 사이클로 움직인다.(SemiAnalysis)최근 메모리 리포트들은
AI 데이터센터 수요가 메모리(특히 HBM·DRAM·낸드)에 강한 상방 압력을 주고,
일부 구간에서 공급 부족·리드타임 증가·가격 상승이 동시에 나타나고 있다고 지적한다.(Barron's)
즉, 전방 수요는 기하급수에 가깝게 늘고 있는데, 후방 공급은 긴 리드타임을 가진 완만한 곡선이다.
이 간극에서 수급 불균형(특히 초과수요 구간) 이 발생한다.
이런 시기에는:
SSD를 더 많이 깔고 싶어도
공급 부족,
높은 가격,
납기 지연 때문에
(\text{N}_{\text{SSD}}) 를 충분히 늘리기 어렵다.
4-3. 그 결과: SSD 한 개당 DWPD 상승 압력
수식을 다시 보면,
-
는 AGENT 수요로 인해 ↑,
-
는 공급 제약으로 인해 단기적으로 제한,
-
역시 공정 전환·비용 때문에 급격히 키우기 어렵다.
이때 평균 DWPD는
에 가깝게 움직인다.
따라서 수급 불균형·초과수요 국면에서는
“AGENT AI가 만들어내는 총 쓰기량 증가분을
충분히 많은 SSD/낸드로 나눠 다루지 못해,
SSD 1개당 쓰기 부담이 증가하고(DWPD 상승),
그만큼 낸드 상각이 가속될 위험이 커진다.”
고 보는 것이 논리적으로 자연스럽다.
이건
“항상 그렇게 된다”가 아니라
**“그럴 압력이 구조적으로 커진다”**는 의미다.
5. 완충 장치와 한계: 상각 가속을 얼마나 완화할 수 있나
현실의 시스템·사업자는 이런 상각 압력을 그대로 방치하지 않는다.
대표적인 완충 메커니즘은 다음과 같다.
5-1. 아키텍처·정책 차원
모든 상태를 SSD에 내리지 않고,
짧게 쓰고 끝나는 노이즈 컨텍스트는 HBM/DRAM/로컬 캐시에서만 처리하고,
재사용 가치가 높은 컨텍스트만 외부 컨텍스트 티어로 오프로딩한다.
TTL, eviction 정책을 조절해
SSD에 오래 남을 필요가 없는 데이터는 빨리 제거해, 불필요한 쓰기·갱신을 줄인다.
즉, AGENT로 컨텍스트가 늘어난다고 해서 그만큼 SSD 쓰기가 선형으로 늘어나지 않도록 정책을 튜닝하는 것이다.
5-2. 스토리지 플릿·제품 선택
외부 컨텍스트 계층에는
DWPD가 높은 엔터프라이즈급 SSD를 우선 배치하고,(Sandisk Documents)
오버프로비저닝을 키워 실효 수명을 확보한다.
동일한 를
더 많은 SSD,
더 큰 용량,
더 높은 내구성 등급 제품으로 나누어 받도록 설계해
개별 SSD의 DWPD를 1 이하로 관리하려 한다.
5-3. 가격·비즈니스 모델
컨텍스트를 많이 쓰는 워크로드,
장기간 상태를 유지해야 하는 에이전트에는
더 높은 과금 혹은 별도 요금제를 적용해
낸드 상각 비용을 가격에 반영할 수 있다.반대로, 비용 민감한 워크로드는
컨텍스트 보존 기간을 줄이거나, 외부화 비율을 낮추는 옵션을 통해
낸드 부담을 줄이는 식의 상품 설계가 가능하다.
이러한 대응 덕분에,
“AGENT AI → NAND가 무조건 몇 년 안에 타버린다” 같은 극단적인 상황은 피할 수 있다.
그러나 동시에,
AGENT AI가 없던 시기보다 낸드 상각 압력이 구조적으로 커진다는 방향성 자체는 바뀌지 않는다.
컨텍스트 외부화 비중이 높아지고,
총 쓰기량이 늘어나며,
수급이 타이트한 구간에서는 SSD 1개당 부담이 커질 가능성이 크기 때문이다.
6. 결론: AGENT AI 시대, 낸드는 “외부 메모리 + 상각 자산”으로 봐야 한다
정리하면 다음과 같다.
AGENT AI 확산 → 컨텍스트 폭증
멀티스텝 체인, 툴 호출, 내부 검증, 에이전트 간 상태 공유로
KV 캐시·중간 상태·에이전트 컨텍스트 총량이 크게 증가한다.(download.semiconductor.samsung.com)
HBM만으로는 이 컨텍스트를 다 품기 어려워, 외부 컨텍스트 메모리 계층(SSD/NVMe)로의 오프로딩이 늘어난다.
ICMSP 같은 플랫폼은 KV 캐시를 NVMe SSD로 확장된 컨텍스트 티어에 저장·공유하는 구조를 이미 제시하고 있다.(NVIDIA Developer)
SSD는 더 이상 “거의 읽기 전용 저장소”가 아니라, “컨텍스트를 계속 읽고 쓰는 외부 메모리”가 된다.
이로 인해 낸드의 하루당 쓰기량(DWPD) 이 구조적으로 상승할 압력이 생긴다.(arXiv)
동시에 DRAM·NAND 공급은 팹 리드타임·공정 난도 때문에 단기에 기하급수적으로 늘어나기 어렵다.
AI 데이터센터 수요 급증 국면에서,
메모리 시장은 공급 부족·리드타임 증가·가격 상승을 경험하고 있다.(Barron's)
수요는 빠르게 늘고( ↑), SSD 개수를 마음대로 못 늘리면( 제한), SSD 1개당 DWPD가 올라가고, 낸드 상각이 가속될 가능성이 커진다.
이는 수식으로도, 시장 구조상으로도 합리적인 추론이다.
물론 아키텍처 최적화·고내구성 SSD·가격 체계 설계로 이 상각을 완화할 여지는 크다.
하지만 “AGENT AI가 없던 시기보다 낸드 상각이 덜 중요해진다”고 말하기는 어렵고,
오히려 에이전트 시대에는 낸드가 “토큰당 비용(J/token, $/token)”을 결정하는 핵심 자산 중 하나로 부상한다고 보는 편이 현실에 가깝다.
요약하면,
AGENT AI 시대의 낸드 경제학은
“얼마나 큰 SSD를 사느냐”를 넘어서,
**“얼마나 자주 쓰고 지우게 될지, 그 쓰기 횟수를 어떤 아키텍처와 공급망으로 감당할지”**에 관한 문제이다.
#글을 마치며
예전에 린홍원의 『TSMC, 세계 1위의 비밀』를 읽으면서 “NAND가 의외로 AI 시대에 중요한 역할을 할 것”이라는 대목이 인상에 남아 있었다.
이제는 한 걸음 더 나아가, Agent AI 시대의 진짜 주인공은 어쩌면 DRAM이 아니라 NAND일지도 모른다는 생각으로 글을 마무리해본다.
-끝