이번 Nvidia의 최신 GPU 26만장 공급은 의미가 크다고 한다.
한국이 미국의 AI 전략적 파트너로 급부상한 의미라고 해석되며, 동시에 그 이면에는 AI 시대의 메모리의 중요성을 Nvidia의 젠슨황이 재확인시켜준 것이 아닌가라는 생각이 들었다.
개인적으로는 한국에서 메모리 유전이 터졌다라고 해석하는게 맞지 않을까 싶었다. 앞으로 AI 시대의 메모리의 전략적 중요성과 발전방향에 대해 한번 뇌피셜을 정리해볼까 한다. 1) 인문학적 출발점: 지능은 ‘많이’가 아니라 ‘잘’
AI 권위자 페이페이 리가 설명하듯, 최초의 생명체 지능은 시각이라는 감각이 생기고 → 신경계가 조직화되고 → 통찰–이해–행동으로 이어지는 과정에서 탄생한다고 하며, AI 지능의 진화방향도 생명체 지능의 진화방향과 궤를 같이할 가능성이 크다고 한다.
오늘의 AI 역시 생물학적 두뇌의 원리를 전자기적 컴퓨팅 위에 구현하는 방향으로 진화하고 있으며, 만약 더 똑똑한 AI의 진화경로가 인간 두뇌의 진화와 수렴한다면 성능과 효율은 매개변수의 양적 팽창이 아니라 배선의 효율화로 귀결될 것이다.
다시 말해, 인간 두뇌의 효율적인 시냅스 신경망처럼 AI도 **‘적지만 전략적인 연결’**로 설계되는 방향이 합리적이다.
-
통념과 다른 사실: 생명체의 지능이 높아지는 길이 시냅스 연결을 무한히 늘리는 것이 아니라, 불필요한 연결은 덜고 핵심 경로를 정교하게 배치하는 쪽이라는 점이다.
-
신경 효율 가설은 이를 뒷받침한다. 같은 과제를 할 때 적은 에너지·적은 활성으로 더 잘 수행하는 뇌가 더 높은 수행을 보인다.
-
네트워크 관점에서도, 전체 연결량보다 정보가 짧은 경로로 빠르게 통하는 전역/국소 효율과 핵심 허브 품질이 지능과 더 밀접하다.
-
**가지치기(pruning)**는 유년기의 과잉 연결을 청소년기–성인기에 걸쳐 정제해, **‘적지만 전략적인 연결’**로 경제적인 배선을 만든다.
요컨대, **지능의 본질은 ‘배선 경제성’과 ‘국소–전역 효율’**이다. 이 인문학적·생물학적 통찰을 시스템 설계 언어로 번역하면, 필요한 데이터를 필요한 순간에 가장 가까운 곳에서 읽게 만드는 구조—불필요한 연결을 과감히 제거하고, 핵심 경로와 허브를 강화하며, 연산과 메모리의 지역성을 극대화하는 설계—가 답이다. AI의 다음 도약은 양의 확장이 아니라 효율의 정교화에서 온다.
2) 추론 시대의 병목: 메모리(용량·대역폭·거리)
추론(inference)은 토큰을 만들 때마다 파라미터·KV 캐시·임베딩 같은 **대용량 ‘프라이어(사전지식)’**를 계속 읽는다. 그래서 성능을 좌우하는 것은 연산기가 아니라 프라이어를 얼마나 가까운 곳에서, 얼마나 넓은 대역으로, 얼마나 짧은 지연으로 공급하느냐다.
-
용량: 모델·컨텍스트가 커질수록 프라이어가 기하급수적으로 늘어난다.
-
대역폭: 공급 속도가 느리면 코어는 놀고 토큰/초가 떨어진다.
-
거리(지연): 멀리서 가져오면 왕복 시간이 성능 상한을 만든다.
따라서 앞으로의 설계의 방향은 명확하다. “필요한 데이터를, 필요한 순간에, 가장 가까운 곳에서” 읽게 만드는 칩 인근 집적·계층 최적화다.
3) 메모리의 효율화: HBM만으로는 부족 → HBF가 보완
원리 세 가지로 요약된다. 가까이(Near) · 병렬(Broad) · 계층화(Tiered).
-
가까이: 온패키지 HBM이 코어와 가장 가까운 핫(초저지연) 데이터를 담당한다. 다만 면적·열·수율·패키징 제약으로 용량을 무한정 올릴 수 없다.
-
병렬: 채널·적층을 늘려 HBM 대역폭을 키우지만, 모델·컨텍스트 증가 속도를 단가·전력 측면에서 따라잡기 어렵다.
-
계층화: **HBM 바로 아래에 ‘근접 대용량 플래시 계층’(HBF, High Bandwidth Flash)**을 둔다.
-
역할 분담: HBM은 어텐션·매트멀 등 즉시성·초저지연이 필요한 활성 데이터, HBF는 수십~수백 TB급 프라이어를 대용량·고대역·저전력으로 지속 공급한다.
-
철학: “HBM으로 다 담겠다”가 아니라 **‘핫은 HBM, 헬디(heavy·자주 읽는 대용량)는 HBF’**라는 두뇌식 분업이다.
-
**경로 최적화(예: CPX)**가 더해지면, 긴 컨텍스트 구간을 따로 처리하여 HBM의 부담을 줄이고 HBF에서 안정적으로 퍼 올리는 흐름이 된다.
-
결론적으로, HBM=속도의 근육, HBF=방대한 지식의 장기(저전력·저원가·대용량 공급원), 경로 최적화=혈관 확장술이 된다. 이 삼각편성이 토큰/초 상한을 끌어올리고 W/토큰을 낮추는 최단 경로다.
4) 전력까지 ‘효율화’: NVIDIA의 800V DC 전환
메모리를 가까이·빨리 만들었다면, 전력도 덜 잃고·덜 차지하게 해야 한다. 그 해법이 **낮은 전압(54V)·큰 전류 → 높은 전압(800V)·작은 전류의 직류(DC)**로 바꾸는 것이다. 전류가 줄면 I²R(열) 손실이 급감하고, 굵고 무거운 케이블·버스바가 가벼워지며, 랙 내부 전원선반(AC PSU) 공간을 회수해 더 많은 GPU를 넣을 수 있다. 요지는 전력 경로의 효율화가, 곧 컴퓨팅 밀도와 메모리 집적 여유로 직결된다는 점이다.
먼저, 용어를 아주 쉽게 정리한다.
-
AC / DC: AC(교류)는 우리가 쓰는 상용전기, DC(직류)는 배터리처럼 한 방향으로 흐르는 전기. 전자장비는 결국 DC를 쓴다.
-
HVDC(고압직류): 전압을 높인 DC. 같은 전력이라도 전류가 줄어 열 손실·케이블 두께가 줄어든다.
-
변압·정류: 변압은 전압을 올리고 내리는 것, 정류는 AC를 DC로 바꾸는 것.
-
SST(솔리드스테이트 변압기): 전자식 변압기. 작고, 빠르고, 제어가 정밀하다. AC→DC 전환을 더 효율적으로 돕는다.
-
UPS: 정전 시 잠깐 버티게 해주는 배터리+변환기.
-
PSU: 랙 안에서 **AC→DC(예: 54V)**로 바꾸는 전원 상자.
-
VRM: 보드 위 미세 전압 변환기(예: 12V→1V).
-
랙(Rack): 서버·GPU를 층층이 꽂는 철제 선반.
-
사이드카(Sidecar): 랙 옆 별도 전원 모듈. 800V→12V로 고비율(예: 64:1) 변환.
-
DC 버스(버스웨이): 랙/실에 DC를 배분하는 굵은 선·버스바.
기존 방식
외부 전력망(AC) → UPS(AC 유지) → 랙 PSU(AC→54V DC) → 보드 VRM(54V→1V) → GPU/CPU
문제(랙 전력 400kW→600kW→1MW):
-
배선이 두꺼워지고 무거워짐
-
발열·손실 증가
-
PSU가 공간을 차지 → 동일 면적 GPU 탑재량 감소
새 방식(800V DC)
외부 전력망(AC) → 초기에 AC→800V DC로 정류(SST 등) → 데이터홀/랙까지 800V DC로 배전 → 사이드카에서 800V→12V로 크게 낮춤 → 보드 VRM이 1V 근처로 마지막 변환 → GPU/CPU
포인트
-
전류를 초반부터 줄인다: 배선·버스바가 가벼워지고 I²R 손실이 감소.
-
랙 내부 AC PSU를 대폭 축소/제거: 공간·무게·열 이득 → 더 많은 GPU를 같은 랙에.
-
VRM은 남지만 부담이 줄어 효율·안정성이 개선.
-
ESS(슈퍼캡/배터리)와의 결합으로 부하 스파이크 흡수(학습 시 유용).
-
주의: VRM은 필요하며, AC용 PSU만 축소/제거되는 방향. “PSU/VRM을 없앤다”가 아니다.
전성비 관점의 효과
-
전기요금(손실) 절감: 전류↓ → 열로 새는 전력↓.
-
공간 절약 → 더 많은 GPU: PSU·팬·케이블 공간을 회수.
-
자재 절감: 구리·케이블 단면을 줄일 수 있어 비용·시공 효율↑.
-
안정성: 고속 저장(슈퍼캡)/BESS와 조합해 전력 변동 완충.
결국, 메모리의 근접·대역을 키우는 일(HBM + HBF)과 **전력의 손실·부피를 줄이는 일(800V DC)**은 같은 ‘효율화’ 원리의 양면이다. 공간과 전력을 회수할수록 GPU와 HBM/HBF를 더 가까이, 더 많이, 더 효율적으로 배치할 수 있다.
5) 한 장짜리 청사진(효율 설계의 결론)
| https://www.youtube.com/watch?v=uJWZQb9rWUk |
-
연산·메모리: HBM(핫) + HBF(근접 대용량) + 경로 최적화(CPX 등)
-
전력·냉각: 800V DC(손실·부피↓) + 액냉/액침(열 밀도 대응) + 계층형 ESS(부하 스무딩)
-
설계 원리: 가까이·빨리·덜 옮기기 — 뇌의 가지치기처럼 ‘희소하지만 전략적인’ 연결·배치를 우선한다.
결론(한 문장)
추론 시대의 AI는 인간 두뇌처럼 **‘효율화’**의 길을 간다. 그 실체는 **메모리의 칩 인근 집적·계층화(HBM + HBF)**와 **전력 경로의 고효율화(800V DC)**이며, 이 조합이 토큰/초 상한을 끌어올리고 전성비·TCO를 동시에 개선하는 가장 현실적인 해법이다.
즉, 지금은 메모리 숏티지로 공급되는 대로 소화되는 국면이지만, AGI로 수렴해 갈수록 시스템은 뇌의 가지치기처럼 ‘희소하지만 전략적인’ 연결·배치를 우선하는 구조로 정련될 것이다. 그 결과, 가까이·빠르게·덜 옮기는 설계를 구현해 메모리–전력–경로의 낭비를 줄인 고효율 칩의 부가가치는 더욱 높아지는 방향으로 이동하지 않을까 한다.
=끝