1. 딥러닝의 역사: “병목이 풀릴 때마다 S-커브가 바뀐다”
인공지능의 역사는 한 문장으로 요약할 수 있다.
“어떤 병목이 풀릴 때마다 새로운 S-커브가 열린다.”
초기 인공지능은 규칙 기반 기호주의, 그다음은 인공신경망과 역전파, 이후 **GPU + 대규모 데이터셋(ImageNet)**이 등장하며 오늘의 딥러닝·LLM 시대로 이어졌다.
아래에서는 이 흐름을 “병목–해결–도약” 관점에서만 짧게 짚는다.
1-1. 규칙 기반 기호주의: 표현력의 병목
초기 AI는 사람이 규칙을 다 써 넣는 **기호주의(Symbolic AI)**였다.
-
냉전기 과제
-
아군/적군 탱크 자동 구분
-
러시아어 문서 자동 번역
-
-
접근 방식
-
“고양이는 포유류, 다리 네 개, 꼬리 있음…” 식으로 특징을 정의
-
이를 조건문·수식으로 수천~수만 줄 코딩
-
문제는 현실 세계의 모습이 사실상 무한한 변형을 가진다는 점이다.
-
앉은 고양이, 뒤돌아 선 고양이, 부분 가림, 조명 변화, 원근 왜곡…
-
이 모든 경우를 규칙으로 쓰려고 하면 규칙 수가 폭발한다.
결국 **“현실의 다양성을 규칙으로 완전히 설명할 수 없다”**는 표현력의 병목에 막혔다.
1-2. 인공신경망: 계산 인프라가 받쳐주지 못한 1차 시도
이 병목을 넘기 위해 연구자들은 인간의 뇌를 모방하기 시작했다.
-
구성
-
다수의 뉴런
-
뉴런 간 시냅스 연결
-
경험에 따라 달라지는 가중치
-
-
특징
-
명시적인 규칙 없이도 패턴을 학습
-
언어·지각·추론을 모두 이 구조로 수행
-
이를 수학적으로 모사한 것이 **인공신경망(ANN)**이다.
1980년대에는 **역전파(Backpropagation)**가 정식화되며, 심층 신경망 학습 이론이 정리되었다.
그러나 그 당시에는
-
연산 성능 부족
-
대규모 디지털 데이터 부재
-
조금만 깊어져도 학습이 멈추는 실용 한계
때문에 **“이론은 있으나 실용은 어려운 기술”**에 머물렀고, 결국 AI 겨울을 맞는다.
여기서의 병목은 명확했다. 계산과 데이터가 부족했다.
1-3. 페이페이 리와 ImageNet: 데이터 인프라의 구축
다음 도약을 만든 것은 데이터 인프라였다.
스탠퍼드의 **페이페이 리(Fei-Fei Li)**는 ImageNet 프로젝트를 통해
-
수백만~천만 장 수준의 이미지를 수집하고
-
WordNet 기반으로 수천 개 객체 카테고리를 만들며
-
사람 손으로 라벨링한 뒤
-
매년 ImageNet Challenge를 열어
-
같은 데이터·같은 평가 기준으로 전 세계 모델을 비교하게 만들었다.
-
ImageNet은 결과적으로
**“신경망이 현실 시각 패턴을 학습·검증할 수 있는 공용 실험장”**이 되었고,
다음 병목 해소의 기반이 되었다.
1-4. GPU와 알렉스넷: 스케일업이 실제로 통한다는 증명
2000년대 후반, 세 가지 축이 동시에 갖춰진다.
-
GPU: 엔비디아 GPU를 범용 연산에 활용
-
데이터: 페이페이 리의 ImageNet
-
알고리즘: 역전파 기반 심층 신경망 이론
이 위에서 알렉스 크리제브스키, 일야 서츠케버, 제프리 힌턴이 2012년 **알렉스넷(AlexNet)**으로 ImageNet 대회를 제패한다.
알렉스넷이 보여준 것:
-
GPU + 심층 CNN + 역전파의 실제 구현
-
동일 조건에서 기존 기법 대비 압도적 오류율 감소
-
모델·데이터를 키우면 성능이 비선형적으로 도약한다는 스케일링 패턴
이 시점부터 딥러닝은
**“기대되는 이론”에서 “산업을 재편하는 범용 접근법”**으로 위상이 바뀐다.
이후 트랜스포머, 사전학습, LLM, 생성형 AI는 모두 이 스케일링 곡선을 연장한 결과이다.
정리하면, 여기까지의 메시지는 명확하다.
과거 도약은 항상
규칙의 한계 → 신경망,
계산·데이터의 한계 → GPU + ImageNet
처럼, 병목이 풀릴 때마다 나왔다는 것이다.
2. 오늘의 병목: 연산이 아니라 메모리, 특히 KV 캐시
이제 질문은 이것이다.
“지금 세대의 병목은 무엇인가?”
이전글에서 정리했듯, 현재 LLM은 구조적으로 메모리 바운드이다.
파라미터보다 컨텍스트·KV 캐시·내부 추론 토큰이 메모리와 전력을 잡아먹는다.
2-1. LLM 안에서 실제로 벌어지는 일: 파라미터 vs 컨텍스트 vs KV
LLM 요청 하나를 기준으로 보면, 내부에는 세 가지 주요 덩어리가 있다.
-
모델 파라미터
-
학습된 지식·패턴이 숫자로 압축된 두뇌
-
-
텍스트 컨텍스트
-
시스템 프롬프트 + 과거 대화 + 새 질문 + RAG 결과 등
-
한 세션에서 참고하는 “전체 회의록”
-
-
KV 캐시
-
각 토큰마다 만들어진 Key·Value 벡터를 레이어·토큰별로 모아 둔 것
-
회의록 옆에 붙은 포스트잇 메모 묶음
-
동작 순서는 항상 같다.
-
컨텍스트를 길게 이어 붙이고
-
프리필(prefill) 단계에서 이 전체를 한 번 쭉 통과시키며 KV 캐시를 만들고
-
디코드(decode) 단계에서 답변 토큰 하나를 만들 때마다
-
모든 과거 KV를 다시 읽어 참고 비율을 계산하고
-
새 K/V를 캐시에 추가한다.
-
이 구조에서 연산 유닛(GPU 코어)보다 먼저 한계에 부딪히는 것은
-
HBM 대역폭
-
메모리 접근 전력
이다. 토큰 수가 늘어날수록, 그리고 Chain of Thought·자기검증·다중 시나리오 탐색으로 내부 토큰이 많아질수록, 연산시간보다 **“데이터를 메모리에서 가져오는 시간과 전력”**이 전체 비용을 지배하게 된다.
2-2. DistServe·InfiniGen: KV가 파라미터를 추월하는 지점
이 현상은 실험에서도 확인된다.
-
DistServe는 긴 프롬프트(프리필)와 짧은 응답(디코드)을 한 GPU에 섞어 돌릴 경우,
-
요청량(QPS)이 조금만 올라가도
-
디코드 지연이 계단식으로 폭증한다는 것을 보여준다.
→ 프리필 전용 GPU와 디코드 전용 GPU를 분리해야 같은 하드웨어에서 토큰/초·지연·토큰/MW가 개선된다.
-
-
InfiniGen 계열 연구는
-
시퀀스 길이·배치 크기를 늘려가며 메모리 사용량을 측정했을 때,
-
어느 지점부터는 KV 캐시 메모리가 모델 파라미터 메모리를 넘어서는 구간이 나온다는 것을 보여준다.
-
긴 컨텍스트에서도 실제로 자주 참조되는 Key는 1% 미만이지만, 최적화가 없으면 이 전체를 HBM·DRAM에 올려 둬야 한다.
-
즉, 설계 기준이
“HBM 용량 ≒ 모델 크기(파라미터)”에서
이제는
“HBM 용량을 결정하는 주인공은 KV 캐시(컨텍스트 상태)”
로 바뀐 것이다.
ChatGPT5 세대에서 체감되는 **“메모리 폭증”**은,
모델 파라미터 때문이라기보다 KV가 모델을 추월하는 임계 구간에 진입했기 때문이라고 보는 것이 더 정확하다.
2-3. Physical AI: 스토리지까지 걸친 전 계층 메모리 문제
여기에 자율주행·로봇·엣지 디바이스 같은 Physical AI가 더해지면, 문제는 HBM을 넘어 스토리지까지 확장된다.
-
인간은 반복 경험을 통해 가중치(신경 회로)를 바꾸며 학습곡선을 만든다.
-
Physical AI도
-
카메라·LiDAR·IMU·힘·토크 같은 센서 데이터,
-
행동 로그,
-
성공/실패 결과를 쌓아
-
정책·월드 모델을 지속적으로 업데이트해야 한다.
-
이 과정에는
-
엑사바이트급 COLD 스토리지(HDD·eSSD·HBF),
-
대용량 DRAM/CXL,
-
프리필·재학습용 GDDR/LPDDR/SOCAMM,
-
실시간 제어·디코드용 HBM
이 모두 필요하다.
따라서 “사람처럼 경험에서 배우는 Physical AI”를 만들려면,
스토리지에서 HBM까지 이어지는 모든 메모리 계층의 용량·대역폭·전력 효율이 함께 올라가야 한다.
2-4. 이 병목이 풀리면 가능한 도약의 방향
메모리 병목이 완화·해결될 때 기대할 수 있는 도약은 크게 네 가지이다.
-
더 큰·더 모듈형 모델
-
더 많은 파라미터, 더 많은 전문가 모듈(MoE, 도메인별 서브모델)을 동시에 운용
-
한 세션에서 여러 서브모델·에이전트를 상시 켜 둔 상태로 협업 가능
-
-
극단적으로 긴 컨텍스트와 장기 기억
-
프로젝트 전체 히스토리, 코드베이스 전체, 수년 치 대화·선호·작업 로그를 항상 유지
-
“도구형 LLM”에서 “장기간 함께 일해 온 동료형 에이전트”로 진화
-
-
깊은 추론의 기본값화
Chain of Thought, 자기검증, 다중 후보 생성·비교를 비용 걱정 없이 상시 사용
-
“감으로 한 방에 찍는 LLM”에서 “스스로 생각하고 검산하는 LLM”으로 전환
-
Physical AI의 안전성·성공률 도약
-
더 긴 시간 창의 센서·행동 기록을 현장에서 저장·재활용
-
희귀하지만 치명적인 실패 패턴까지 학습에 반영 → 실제 세계에서의 안전성·성공률 향상
-
요약하면,
메모리 병목이 풀리면, 이미 관측된 스케일링 곡선을 한 번 더 크게 연장하는 도약이 가능하다.
새로운 이론의 혁명이라기보다는,
**“스케일 기반 성능 향상의 다음 라운드”**라고 보는 것이 적절하다.
3. 이제 승부는 “모델팀”보다 “전력·메모리·서버랙”이다
내부 기술 병목이 메모리라면, 산업 구조의 병목은 인프라이다.
이미 여러 곳에서 “할 수 있는 수요는 있는데, GPU·전력·쿼터가 없어서 못 판 매출”이 드러나고 있다.
3-1. AWS·구글 사례: 수요는 넘치는데 전기가 없다
몇 가지 징후만 보더라도 방향은 분명하다.
-
Similarweb 자료를 보면, 지난 1년간 생성형 AI 트래픽은
-
AWS 베드록은 내부 문서에서 **“중대한 용량 제약”**을 언급했다.
-
구글에서는 아민 바닷이 사내 전체 회의에서 다음과 같이 말했다.
-
“앞으로 6개월마다 AI 서빙 용량을 2배씩 늘려야 한다.”
-
“4~5년 안에 지금의 1000배 컴퓨팅이 필요하다.”
-
피차이는 “Veo를 더 많은 사용자에게 열었으면 사용량이 훨씬 더 컸겠지만, 컴퓨팅 부족 때문에 그렇게 하지 못했다”고 했다.
| https://timesofindia.indiatimes.com/technology/tech-news/googles-ai-infrastructure-boss-amin-vahdat-has-new-goal-for-employees-we-must/articleshow/125487674.cms?utm_source=chatgpt.com |
- OpenAI의 CEO Sam Altman은 이미지 생성 도구 등 신기능의 폭발적 수요로 인해 **“인프라 용량 부족(capacity crunches)”으로 인해 제품 출시가 지연될 수 있다”고 경고했다.
이 사례들은 하나의 문장으로 정리된다.
지금은 모델이 아니라 인프라가 수요의 상한을 결정하는 시기이다.
3-2. 제미나이 3: “모델 팀 × 인프라 투자 곡선”의 곱
데미스 하사비스는 **제미나이 3(Gemini 3)**가 로드맵대로 빠르게 진화하고 있다고 말한다.
동시에 AGI까지는 5~10년은 더 필요하며, 그 사이에
-
더 강한 추론,
-
더 나은 기억,
-
월드 모델(world model),
-
physical intelligence를 해결하는 단계
가 필요하다고 본다.
그러나 이 모든 것은
-
더 큰 파라미터,
-
멀티모달·센서 입력,
-
긴 컨텍스트와 자기검증으로 인한 내부 토큰 폭증
을 의미한다.
이를 실제 제품·서비스로 돌리려면, 구글의
-
공격적인 데이터센터·전력 Capex,
-
세대별 TPU 전력 효율 개선,
-
메모리·네트워크 아키텍처 설계
가 뒷받침되어야 한다.
그래서 제미나이 3의 발전은 이렇게 보는 것이 정확하다.
“제미나이 3의 성능 곡선 = 모델 팀의 능력 × 구글 인프라 투자 곡선.”
3-3. 토큰/MW와 메모리 계층: 싸움의 단위가 바뀌고 있다
데이터센터에서는 이제 **전력(MW)**이 가장 강한 제약이다.
송전망·변전 설비·냉각·부지 확장은 몇 년 단위이고, AI 수요는 그보다 훨씬 빠르다.
따라서 KPI는 자연스럽게
-
토큰/초/MW
-
행동/초/MW
-
토큰/TCO
와 같은 지표로 이동한다.
여러 분석에서 공통적으로 나오는 결론은
-
현대 LLM 에너지의 상당 부분은 연산이 아니라 메모리 접근·데이터 이동에 쓰이고,
-
따라서 전력 병목을 줄이는 가장 직접적 수단은 메모리 전력 최적화라는 점이다.
이 때문에 업계는
-
“HBM에 모든 워킹셋을 욱여넣는 단층 구조”에서
-
HBM–GDDR/CPX–LPDDR/SoCAMM–플래시(HBF)로 이어지는 계층형 메모리 구조로 이동하고 있다.
핵심 아이디어는 명확하다.
비싼 와트(HBM·NVLink 등)를 진짜 필요한 데이터에만 쓰고,
나머지는 더 싼 와트(LPDDR, 플래시 등)로 내려 보내
전체 토큰/MW를 최대화한다.
엔비디아가 서버 DRAM을 DDR5에서 저전력 LPDDR로 전환하기 시작한 것도 같은 맥락이다.
“모바일용 메모리”를 서버에 쓰겠다는 결정 자체가,
메모리 전력이 전체 AI 서버 전성비·TCO의 1급 변수가 되었다는 신호이다.
3-4. 앞으로의 승부 구조
모든 내용을 세 줄로 요약하면 다음과 같다.
-
AI 경쟁력 = 모델 아키텍처 × 데이터 × 전력·메모리 인프라이다.
-
이 중 지금 가장 빠르게 격차가 벌어지는 축은 전세계에 전력·메모리·서버랙을 얼마나 많이, 효율적으로 깔 수 있느냐이다.
-
과거 “논문·모델 잘 내는 회사”의 싸움이던 구간에서, 앞으로 몇 년은 “인프라를 가장 잘 깔고 돌리는 회사”의 싸움으로 이동하고 있다.
4. 결론: 앞으로 5~10년, AI 성능 곡선은 “메모리와 전력”이 정한다
마지막으로, 전체 논지를 다시 한 번 압축하면 다음과 같다.
-
역사적 패턴
-
규칙 기반의 표현력 병목 → 인공신경망
-
신경망의 계산·데이터 병목 → GPU + ImageNet + 알렉스넷
-
시퀀스 모델링 병목 → 트랜스포머·LLM
-
즉, 병목이 풀릴 때마다 S-커브가 바뀌었다.
-
-
현재의 병목: 메모리와 전력
-
LLM은 구조적으로 메모리 바운드이다.
-
컨텍스트·KV·내부 추론 토큰이 파라미터를 추월하며, HBM·DRAM·스토리지 전 계층을 압박한다.
-
Physical AI는 엑사바이트급 경험 데이터를 요구한다.
-
-
인프라가 수요 상한을 만든다
-
AWS 베드록의 용량 부족, 구글의 “6개월마다 2배, 4~5년 내 1000배” 전략, 제미나이 3의 발전 등은 지금은 모델이 아니라 인프라가 상한임을 보여준다.
-
KPI는 FLOPS가 아니라 토큰/MW·토큰/TCO로 이동하고 있다.
-
-
메모리 병목이 풀 때의 도약
-
더 큰·더 모듈형 모델, 극단적으로 긴 컨텍스트, 깊은 추론의 기본값화, Physical AI의 안전성 향상 등
-
이는 딥러닝 스케일링 곡선을 한 번 더 연장하는 도약이다.
-
따라서 앞으로의 AI 성능 경쟁을 한 문장으로 정리하면 다음과 같다.
“향후 5~10년 동안 AI의 품질과 속도, 비용을 결정하는 1차 변수는
알고리즘이 아니라 ‘메모리와 전력’이라는 물리적 병목이다.
전세계에 전력·메모리·서버랙을 가장 많이, 가장 효율적으로 깔 수 있는 쪽이
다음 라운드의 승자가 될 가능성이 가장 높다.”
이 관점에서 보면, 지금의 ChatGPT·제미나이·딥시크·클로드 경쟁은
결국 **“누가 이 물리적 한계를 더 멀리, 더 효율적으로 밀어낼 것인가”**를 둘러싼 장기전의 초입이라고 볼 수 있다.
=끝
댓글 없음:
댓글 쓰기