2025년 11월 24일 월요일

생각정리 126 (* 실업률, 중립금리, AI)



0. 서론: 리사 쿠크, 그리고 오래된 프레임의 문제


이전 글에서 나는 리사 쿠크의 자산가격·헤지펀드·AI 트레이딩 관련 발언을 따로 정리하고, 그 발언이 단기적으로 나스닥 변동성을 키우는 방식에 대해 회의감을 가졌었다.

이번 글에서 다루고 싶은 핵심은 “쿠크 개인”이 아니라, 그 발언 뒤에 깔려 있는 프레임이다.

  1. 인플레이션은 반드시 2%까지 낮춰야 한다.

  2. 실업률이 낮고 자산가격이 높으면, 통화정책은 기본적으로 너무 완화적이다.

  3. 따라서 2%를 넘는 물가상승률과 낮은 실업률이 이어지는 한, 금리를 동결하거나 인상하는 쪽이 더 안전하다는 식의 사고방식이다.

나는 이 프레임이

  • 2%라는 숫자의 역사적 기원,

  • 최근 미국 고용지표의 구성 변화,

  • AI 시대에 필립스 곡선이 갖는 한계


를 고려할 때 더 이상 설득력이 크지 않다고 본다.


1. 2% 물가목표는 얼마나 근거가 빈약한가


1-1. 뉴질랜드에서 공중에서 뽑힌 숫자

지금은 전 세계 중앙은행이 2%를 거의 종교처럼 받들고 있지만, 출발은 상당히 우연하다.

  • 1980년대 후반, 뉴질랜드 재무장관 로저 더글러스가 TV 인터뷰에서
    “인플레이션을 0~1% 정도로 낮추고 싶다”고 즉석에서 말한 것이 출발점이다.

  • 이후 중앙은행 총재였던 돈 브래시는 이 발언을 근거로 목표범위를 설계하면서, 나중에 **“거의 우연한 발언이었고, 숫자는 공중에서 그냥 뽑아 든 것이다”**라고 회고했다.

뉴질랜드는 처음에 0~2% 정도의 범위를 설정했고, 그 중앙값이 편의상 “2%”로 자리 잡았다. 이 관행이 캐나다·영국·유럽·일본·미국으로 복제되면서, 어느 순간 2%는 ‘엄밀하게 계산된 최적값’처럼 포장되기 시작했다.

1-2. 연준·BOJ의 공식 표현: 결국 “판단(judgment)”일 뿐


미 연준이 2012년 처음으로 2%를 공식 목표로 채택할 때 쓴 문장은 다음과 같다.

  • “위원회는 **2%의 물가상승률이 연준의 법정 책무에 가장 부합한다고 판단(judges)**한다.”


일본은행도 2013년 2% 목표를 도입하면서 “소비자물가지수(CPI) 기준 전년 대비 2%의 상승률을 물가안정 목표로 설정한다”고만 적고 있을 뿐, 왜 1%나 3%가 아닌지에 대한 근거는 없다.

정리하면, 2%는 어디까지나 1980~90년대 정책당국의 ‘정치적·커뮤니케이션상 편의치’가 굳어져 버린 숫자에 가깝다. 그럼에도 연준은 지금도 “인플레이션이 지속적으로 2%를 향한다는 확신이 생길 때까지는 금리를 내리기 어렵다”는 문장을 모든 성명서에 반복하고 있다.


[표 1] 2% 물가목표의 형성과정 요약



2% 자체가 문제라기보다, 이 숫자를 마치 ‘자연법칙’으로 보는 태도가 문제이다. 이 숫자를 절대선처럼 고정해 놓으면, 구조가 바뀐 뒤에도 정책은 같은 프레임에 갇히기 때문이다.


2. “고용 호조”라는 착시: 비농업고용의 대부분은 고령화·보건복지에서 나온다


2-1. 2024년 고용 증가의 3분의 1은 헬스케어


2024년 한 해 동안 미국 경제는 약 220만 개의 비농업 일자리를 새로 만들었다. 이 가운데 보건의료(health care) 부문에서만 68만 6,600개, 비중으로는 **31%**가 창출되었다.

헬스케어 내부를 보면

  • 병원 일자리만 21만 5,000개,

  • 가정 간호·요양·노인 돌봄 관련 서비스에서 상당한 증가가 있었다.

이는 고령화와 복지수요가 만든 구조적 일자리이지, 경기 사이클과 직접적으로 연동된 일자리가 아니다.

[표 2] 2024년 미국 비농업 고용 증가의 업종별 기여(연간, 대략)



즉, 헤드라인 고용증가의 3분의 1이 **“간호·간병·노인 돌봄”**과 관련된 영역에서 나오는 구조인데, 이 부문은 침체기에조차 꾸준히 고용이 증가해 온 대표적인 업종이다.

2-2. 월별 데이터를 봐도 패턴은 같다


대표적인 몇 개 월만 봐도 패턴이 뚜렷하다.

[표 3] 최근 주요 월별 비농업 고용 증가 구성(예시, 천 명)


각 월마다

  • 전체 고용 증가는 10만~27만 명 수준인데,

  • 이 중 보건의료·사회복지·정부가 차지하는 비중이 적게는 40%, 많게는 절반을 넘는다.

나머지 업종(제조, 정보, 일부 서비스)은 “변화 없음” 혹은 순감소가 반복된다.

2-3. 그래프 1: May 2024 업종별 일자리 증감


위 패턴을 단순화해서 2024년 5월 기준 업종별 일자리 증감을 그리면 다음과 같다.


이 그래프에서만 봐도

  • Health care & social assistance가 8만 3,500명으로 가장 큰 기여를 하고,

  • 그 다음이 Government, Leisure & hospitality, Professional & business services,

  • 나머지 수십 개 업종을 다 합친 “Other industries”가 겨우 7만 명 정도에 불과하다.

즉, “고용 호조”라는 헤드라인의 상당 부분은 사실상 고령화와 복지수요에 의해 결정되는 특정 섹터에 집중된 현상이다.


3. AI·자동화 노출 업종의 조정: 저임금·저숙련·대체가능 직군의 약화


반대로 AI·자동화 도입 속도가 빠르고, 저숙련·저임금 대체가 쉬운 업종에서는 이미 눈에 띄는 조정이 진행 중이다.

[표 4] AI/자동화 및 저숙련 대체 가능 업종의 고용 조정(요약)


이 표는 몇 가지 사실을 말해 준다.

  1. 임시직·사무지원·창고·제조·운송처럼 AI와 자동화의 효율성 증가에 직접 노출된 업종에서 고용이 줄거나 정체되고 있다.

  2. 그럼에도 전체 실업률은 4%대 초반에 머무르는데, 이는 앞서 본 것처럼 보건의료·사회복지·정부 부문이 구조적으로 자리를 채우고 있기 때문이다.

  3. BLS가 2024년 4월~2025년 3월까지의 일자리를 나중에 91만 1천 개나 하향 수정했다는 사실은, 헤드라인 고용지표가 생각보다 훨씬 불확실하다는 점도 보여준다. 특히 레저·숙박, 전문·비즈니스, 소매, 정부에서 큰 폭의 하향조정이 있었다.

결국 현재의 노동시장은

  • 고령화·복지수요가 끌어올리는 비경기성 일자리

  • AI·자동화 도입으로 효율화·축소되는 전통적·저숙련 일자리

가 동시에 존재하는 이중 구조에 가깝다.


4. 이런 고용구조에서 ‘실업률=경기·물가 선행지표’라는 가정은 더 이상 성립하지 않는다


과거 필립스 곡선이 통하던 시절에는

  • 제조업·건설·전통 서비스가 경제의 대부분이었고,

  • 고용이 늘면 생산이 늘고, 임금이 오르고, 수요가 올라 인플레이션이 발생하는 구조였다.

하지만 지금은 다음과 같은 변화가 겹쳐 있다.

  1. 고령화·보건복지·공공 일자리

    • 경기와 거의 무관하게 꾸준히 늘어난다.

    • 이 부문이 전체 고용증가의 40% 안팎을 차지하는 상황에서, 실업률이 낮다는 사실만으로 “수요 과열”을 말하기 어렵다.

  2. AI·자동화와 글로벌 공급망

    • 생산성은 크게 오르지만, 추가 고용 없이도 산출을 늘릴 수 있다.

    • 국내 실업률보다는 글로벌 수요·원자재·공급망·정책 리스크가 물가에 더 큰 영향을 미친다.

  3. 필립스 곡선의 구조적 변화

    • 1990년대 이후 각국 연구를 보면, 국내 경기와 물가 사이의 탄력(필립스 곡선 기울기)은 전반적으로 낮아졌고, 대신 글로벌 슬랙·환율·무역비용이 중요해졌다는 결과가 반복된다.

    • 최근 IMF·Chicago Fed 등은 팬데믹 이후 일시적으로 곡선이 가팔라졌다고 보지만, 그 역시 공급망 붕괴·재화 수요 쏠림이라는 특수 요인이 컸다고 본다.

요약하면, 실업률이 4%대라고 해서 곧바로 “수요가 과열되어 인플레이션이 폭발할 것”이라고 말하기는 점점 더 어려운 환경이다.

그럼에도 리사 쿠크를 포함한 일부 FOMC 위원들은

“실업률이 낮고 자산가격이 높으니, 인플레이션이 다시 고개를 들 위험이 크다.
2% 목표에 안착하기 전까지는 금리 완화 속도를 늦춰야 한다.”

 

는 식의 논리를 반복한다. 문제는 이 논리의 전제(2% 목표의 절대성, 실업률-물가 간의 단순한 상관관계)가 현실과 점점 동떨어지고 있다는 점이다.


5. 기업이익·GDP·고용의 탈동조화: AI 시대의 새로운 조합


앞서 제시한 MRB Partners의 차트에서 보듯, 최근 몇 년간 미국에서 나타나는 현상은 다음 세 가지가 동시에 성립하는 구간이다.

  1. S&P 500 순이익 마진은 11~12% 수준으로 역사적으로 높은 구간

    • 2024년 2분기 기준 S&P 500 순이익 마진은 약 12.1%로, 전년과 5년 평균(11.5~11.6%)을 웃도는 수준이다.

    • BEA 기준 기업이익(법인세 후)의 GDP 대비 비중도 2025년 2분기 기준 약 11%로, 장기 평균(7.3%)을 크게 상회한다.

  2. 실업률은 4.0~4.4% 박스권에서 거의 움직이지 않는다

    • 2024년 중반 이후 실업률은 4.0~4.3% 사이에서 박스권을 형성해 왔다.

  3. 노동소득분배율은 2000년대 이후 구조적으로 하락

    • 미국을 포함한 선진국에서 노동소득분배율은 1980년대 이후 하락세를 보여 왔으며, 자본소득의 비중이 높아졌다.

이는 곧

  • 기업이익·자본소득은 역사적 고점,

  • 실업률은 수치상 낮지만, 고용의 질·소득분배는 악화,

  • AI·자동화로 생산성은 오르지만, 그 과실이 노동으로 전달되지 않는 구조

라는 조합이다.

이 구조에서는 “실업률이 낮으니 임금-물가 스파이럴이 온다 → 금리를 올려야 한다”는 고전적 필립스 곡선 논리가 현실에서 성립하기 훨씬 어렵다. 임금과 물가 사이의 고리는 느슨해지고, 이익과 자산가격이 더 큰 몫을 가져간다.


6. 그렇다면 금리동결·금리인상론의 구조적 약점은 무엇인가


지금의 FOMC 다수 의견, 그리고 쿠크가 대표하는 시각은 대략 다음 세 문장으로 요약할 수 있다.

  1. 인플레이션은 반드시 2%로 돌아가야 한다.

  2. 실업률이 4%대 초반이고 자산가격이 높은 이상, 정책은 여전히 충분히 제약적이어야 한다.

  3. 따라서 금리인하는 천천히, 금리인상 가능성은 열어 두어야 한다.

이 논리의 구조적 약점은 다음과 같다.

6-1. 기준점 자체가 문제다: 2%는 ‘자연법칙’이 아니다


앞서 보았듯, 2%는 정치·커뮤니케이션의 산물이지, 인구·기술·재정·글로벌 구조를 모두 반영한 최적값이 아니다.

고령화·고부채·AI CAPEX·글로벌 탈탄소와 같은 구조적 요인을 고려하면, 장기적으로는 **2~3% 정도의 완만한 물가상승이 오히려 재정·부채·임금 구조를 견딜 수 있는 “새 균형”**일 가능성도 충분하다.

그럼에도 2%를 절대선으로 고집할 경우

  • 고령화·복지지출·에너지 전환 비용으로 인한 구조적 인플레이션 압력을 전부 통화정책으로만 누르려 하게 되고,

  • 그 부담은 결국 실질임금과 취약계층 고용이 떠안게 된다.

6-2. 실업률이 더 이상 경기·물가의 선행지표가 아니다


이번 글에서 중심적으로 강조하고 싶은 부분이다.

  • 비농업 일자리 증가의 3분의 1은 헬스케어, 상당 부분은 사회복지·정부에서 나온다.

  • 이 부문은 경기와 무관하게 고령화·복지제도·정책에 따라 움직이는 영역이다.

  • 반대로 **AI·자동화 직접 노출 업종(임시직, 사무지원, 제조, 물류 등)**은 이미 고용이 줄거나 정체되고 있다.

이런 상황에서 단순히

“실업률이 아직 4%대니까 노동시장은 여전히 타이트하다.
따라서 인플레이션 압력이 계속될 것이다.” 


라고 말하는 것은, 실업률이라는 지표에 내장된 구조 변화(고령화·AI·산업구조 재편)를 무시하는 것이다.

실제 경제 현장에서 느끼는 경기·고용 체감과 헤드라인 실업률이나 비농업고용 수치는 점점 더 다른 것을 말하고 있다. 이런 지표에만 기대어 금리를 동결·인상하자는 것은 현실의 거시경제를 반영하지 못하는 정책 잣대라고 보는 편이 타당하다.


6-3. 필립스 곡선에 대한 집착이 만들어내는 오판 위험


연구들을 종합하면

  • 1990년대 이후 필립스 곡선은 전반적으로 평평해졌고,




  • 팬데믹 이후의 급등은 주로 공급망 붕괴·에너지·재화 편중 수요라는 특수한 상황에서 나타난 일종의 비선형·일시적 현상에 가깝다.


그럼에도 일부 위원들이 “실업률 조금만 더 올리면 인플레가 훨씬 빠르게 내려갈 것”이라는 전제를 그대로 붙들고 갈 경우, 실제로는

  • 이미 구조적 전환 압력에 시달리는 AI 노출 업종·저숙련 노동자에게 추가적인 실업·소득 손실을 강요하면서,

  • 인플레이션은 고령화·재정·관세·에너지·주거비라는 다른 채널에서 버티는 **‘높은 고정비 구조’**가 되는 위험이 있다.

즉, 금리 인상으로는 잡히지 않는 인플레이션에 대해, 금리만 계속 만지작거리는 셈이 된다.


7. 맺으며: AI 시대에 필요한 것은 “새로운 중립점”에 대한 솔직한 토론이다


정리하면, 나는 리사 쿠크 개인에 대한 호불호와 별개로, 그녀의 발언 속에 담긴

  • 2% 물가목표에 대한 맹신,

  • 실업률·자산가격을 중심으로 한 오래된 필립스 곡선 프레임,

  • 그 결과로서의 “금리 동결 내지 재인상” 논리

에 대해 근본적인 의문을 가지고 있다.

지금의 미국·세계경제는

  • 고령화와 복지지출 확대,

  • AI·자동화·데이터센터·전력 인프라 CAPEX,

  • 트럼프식 관세와 공급망 재편,

  • 달러 기축체제와 재정·부채 구조

가 한꺼번에 겹친 새로운 레짐에 있다.

이 환경에서 과거와 같은

“실업률이 얼마니까, 인플레이션은 얼마일 것이고, 금리는 몇 퍼센트가 중립이다.”

라는 단순한 함수관계를 그대로 적용하는 것은, 최소한 이론적으로도, 데이터 상으로도 설득력이 약해지고 있다고 본다.

따라서 지금 필요한 것은

  1. 2% 물가목표를 다시 한 번 ‘정치적·역사적 산물’로서 냉정하게 검토하는 일,

  2. 고용지표(특히 비농업·실업률) 속에 숨은 인구·산업 구조 변화를 분해해서 보는 일,

  3. AI 시대에 어떤 물가·성장·금리 조합이 “사회적으로 지속 가능한 중립점”인지에 대한 보다 솔직한 토론

이지, 단지

“아직 2%가 아니니까, 그리고 실업률이 아직 4%대니까, 금리는 여기서 더 오래 높은 수준을 유지해야 한다”


는 식의 기계적 논리 반복은 아니라고 생각한다.

이 글은 그런 의미에서, 리사 쿠크라는 개인의 발언을 넘어 “오래된 2%·필립스 곡선 프레임이 AI 시대에도 여전히 유효한가”에 대한 회의를 정리해 본 시도이다.

어쩌면 실제 체감 물가상승률이 어느 정도인지 알고 싶다면, 점점 신뢰성이 떨어지는 공식 물가통계에 의존하기보다 길 가는 시민 100~200명을 붙잡고 설문조사를 해보는 편이 더 정확할지도 모르겠다.


=끝

생각정리 125 (* AI Infra bottle-neck)


1. 딥러닝의 역사: “병목이 풀릴 때마다 S-커브가 바뀐다”


인공지능의 역사는 한 문장으로 요약할 수 있다.
“어떤 병목이 풀릴 때마다 새로운 S-커브가 열린다.”

초기 인공지능은 규칙 기반 기호주의, 그다음은 인공신경망과 역전파, 이후 **GPU + 대규모 데이터셋(ImageNet)**이 등장하며 오늘의 딥러닝·LLM 시대로 이어졌다.
아래에서는 이 흐름을 “병목–해결–도약” 관점에서만 짧게 짚는다.

1-1. 규칙 기반 기호주의: 표현력의 병목

초기 AI는 사람이 규칙을 다 써 넣는 **기호주의(Symbolic AI)**였다.

  • 냉전기 과제

    • 아군/적군 탱크 자동 구분

    • 러시아어 문서 자동 번역

  • 접근 방식

    • “고양이는 포유류, 다리 네 개, 꼬리 있음…” 식으로 특징을 정의

    • 이를 조건문·수식으로 수천~수만 줄 코딩

문제는 현실 세계의 모습이 사실상 무한한 변형을 가진다는 점이다.

  • 앉은 고양이, 뒤돌아 선 고양이, 부분 가림, 조명 변화, 원근 왜곡…

  • 이 모든 경우를 규칙으로 쓰려고 하면 규칙 수가 폭발한다.

결국 **“현실의 다양성을 규칙으로 완전히 설명할 수 없다”**는 표현력의 병목에 막혔다.

1-2. 인공신경망: 계산 인프라가 받쳐주지 못한 1차 시도


이 병목을 넘기 위해 연구자들은 인간의 뇌를 모방하기 시작했다.

  • 구성

    • 다수의 뉴런

    • 뉴런 간 시냅스 연결

    • 경험에 따라 달라지는 가중치

  • 특징

    • 명시적인 규칙 없이도 패턴을 학습

    • 언어·지각·추론을 모두 이 구조로 수행

이를 수학적으로 모사한 것이 **인공신경망(ANN)**이다.
1980년대에는 **역전파(Backpropagation)**가 정식화되며, 심층 신경망 학습 이론이 정리되었다.

그러나 그 당시에는

  • 연산 성능 부족

  • 대규모 디지털 데이터 부재

  • 조금만 깊어져도 학습이 멈추는 실용 한계

때문에 **“이론은 있으나 실용은 어려운 기술”**에 머물렀고, 결국 AI 겨울을 맞는다.
여기서의 병목은 명확했다. 계산과 데이터가 부족했다.

1-3. 페이페이 리와 ImageNet: 데이터 인프라의 구축


다음 도약을 만든 것은 데이터 인프라였다.

스탠퍼드의 **페이페이 리(Fei-Fei Li)**는 ImageNet 프로젝트를 통해

  1. 수백만~천만 장 수준의 이미지를 수집하고

  2. WordNet 기반으로 수천 개 객체 카테고리를 만들며

  3. 사람 손으로 라벨링한 뒤

  4. 매년 ImageNet Challenge를 열어

    • 같은 데이터·같은 평가 기준으로 전 세계 모델을 비교하게 만들었다.

ImageNet은 결과적으로
**“신경망이 현실 시각 패턴을 학습·검증할 수 있는 공용 실험장”**이 되었고,
다음 병목 해소의 기반이 되었다.

1-4. GPU와 알렉스넷: 스케일업이 실제로 통한다는 증명


2000년대 후반, 세 가지 축이 동시에 갖춰진다.

  • GPU: 엔비디아 GPU를 범용 연산에 활용

  • 데이터: 페이페이 리의 ImageNet

  • 알고리즘: 역전파 기반 심층 신경망 이론


이 위에서 알렉스 크리제브스키, 일야 서츠케버, 제프리 힌턴이 2012년 **알렉스넷(AlexNet)**으로 ImageNet 대회를 제패한다.

알렉스넷이 보여준 것:

  1. GPU + 심층 CNN + 역전파의 실제 구현

  2. 동일 조건에서 기존 기법 대비 압도적 오류율 감소

  3. 모델·데이터를 키우면 성능이 비선형적으로 도약한다는 스케일링 패턴

이 시점부터 딥러닝은
**“기대되는 이론”에서 “산업을 재편하는 범용 접근법”**으로 위상이 바뀐다.
이후 트랜스포머, 사전학습, LLM, 생성형 AI는 모두 이 스케일링 곡선을 연장한 결과이다.

정리하면, 여기까지의 메시지는 명확하다.

과거 도약은 항상
규칙의 한계 → 신경망,
계산·데이터의 한계 → GPU + ImageNet
처럼, 병목이 풀릴 때마다 나왔다는 것이다.

 


2. 오늘의 병목: 연산이 아니라 메모리, 특히 KV 캐시


이제 질문은 이것이다.
“지금 세대의 병목은 무엇인가?”

이전글에서 정리했듯, 현재 LLM은 구조적으로 메모리 바운드이다.
파라미터보다 컨텍스트·KV 캐시·내부 추론 토큰이 메모리와 전력을 잡아먹는다.

2-1. LLM 안에서 실제로 벌어지는 일: 파라미터 vs 컨텍스트 vs KV


LLM 요청 하나를 기준으로 보면, 내부에는 세 가지 주요 덩어리가 있다.

  1. 모델 파라미터

    • 학습된 지식·패턴이 숫자로 압축된 두뇌

  2. 텍스트 컨텍스트

    • 시스템 프롬프트 + 과거 대화 + 새 질문 + RAG 결과 등

    • 한 세션에서 참고하는 “전체 회의록”

  3. KV 캐시

    • 각 토큰마다 만들어진 Key·Value 벡터를 레이어·토큰별로 모아 둔 것

    • 회의록 옆에 붙은 포스트잇 메모 묶음

동작 순서는 항상 같다.

  • 컨텍스트를 길게 이어 붙이고

  • 프리필(prefill) 단계에서 이 전체를 한 번 쭉 통과시키며 KV 캐시를 만들고

  • 디코드(decode) 단계에서 답변 토큰 하나를 만들 때마다

    • 모든 과거 KV를 다시 읽어 참고 비율을 계산하고

    • 새 K/V를 캐시에 추가한다.

이 구조에서 연산 유닛(GPU 코어)보다 먼저 한계에 부딪히는 것은

  • HBM 대역폭

  • 메모리 접근 전력

이다. 토큰 수가 늘어날수록, 그리고 Chain of Thought·자기검증·다중 시나리오 탐색으로 내부 토큰이 많아질수록, 연산시간보다 **“데이터를 메모리에서 가져오는 시간과 전력”**이 전체 비용을 지배하게 된다.

2-2. DistServe·InfiniGen: KV가 파라미터를 추월하는 지점


이 현상은 실험에서도 확인된다.

  • DistServe는 긴 프롬프트(프리필)와 짧은 응답(디코드)을 한 GPU에 섞어 돌릴 경우,

    • 요청량(QPS)이 조금만 올라가도

    • 디코드 지연이 계단식으로 폭증한다는 것을 보여준다.
      → 프리필 전용 GPU와 디코드 전용 GPU를 분리해야 같은 하드웨어에서 토큰/초·지연·토큰/MW가 개선된다.

  • InfiniGen 계열 연구

    • 시퀀스 길이·배치 크기를 늘려가며 메모리 사용량을 측정했을 때,

    • 어느 지점부터는 KV 캐시 메모리가 모델 파라미터 메모리를 넘어서는 구간이 나온다는 것을 보여준다.

    • 긴 컨텍스트에서도 실제로 자주 참조되는 Key는 1% 미만이지만, 최적화가 없으면 이 전체를 HBM·DRAM에 올려 둬야 한다.

즉, 설계 기준이

“HBM 용량 ≒ 모델 크기(파라미터)”에서
이제는
“HBM 용량을 결정하는 주인공은 KV 캐시(컨텍스트 상태)


로 바뀐 것이다.
ChatGPT5 세대에서 체감되는 **“메모리 폭증”**은,
모델 파라미터 때문이라기보다 KV가 모델을 추월하는 임계 구간에 진입했기 때문이라고 보는 것이 더 정확하다.

2-3. Physical AI: 스토리지까지 걸친 전 계층 메모리 문제


여기에 자율주행·로봇·엣지 디바이스 같은 Physical AI가 더해지면, 문제는 HBM을 넘어 스토리지까지 확장된다.

  • 인간은 반복 경험을 통해 가중치(신경 회로)를 바꾸며 학습곡선을 만든다.

  • Physical AI도

    • 카메라·LiDAR·IMU·힘·토크 같은 센서 데이터,

    • 행동 로그,

    • 성공/실패 결과를 쌓아

    • 정책·월드 모델을 지속적으로 업데이트해야 한다.

이 과정에는

  • 엑사바이트급 COLD 스토리지(HDD·eSSD·HBF),

  • 대용량 DRAM/CXL,

  • 프리필·재학습용 GDDR/LPDDR/SOCAMM,

  • 실시간 제어·디코드용 HBM

이 모두 필요하다.

따라서 “사람처럼 경험에서 배우는 Physical AI”를 만들려면,
스토리지에서 HBM까지 이어지는 모든 메모리 계층의 용량·대역폭·전력 효율이 함께 올라가야 한다.

2-4. 이 병목이 풀리면 가능한 도약의 방향


메모리 병목이 완화·해결될 때 기대할 수 있는 도약은 크게 네 가지이다.

  1. 더 큰·더 모듈형 모델

    • 더 많은 파라미터, 더 많은 전문가 모듈(MoE, 도메인별 서브모델)을 동시에 운용

    • 한 세션에서 여러 서브모델·에이전트를 상시 켜 둔 상태로 협업 가능

  2. 극단적으로 긴 컨텍스트와 장기 기억

    • 프로젝트 전체 히스토리, 코드베이스 전체, 수년 치 대화·선호·작업 로그를 항상 유지

    • “도구형 LLM”에서 “장기간 함께 일해 온 동료형 에이전트”로 진화

  3. 깊은 추론의 기본값화

    • Chain of Thought, 자기검증, 다중 후보 생성·비교를 비용 걱정 없이 상시 사용

    • “감으로 한 방에 찍는 LLM”에서 “스스로 생각하고 검산하는 LLM”으로 전환

  4. Physical AI의 안전성·성공률 도약

    • 더 긴 시간 창의 센서·행동 기록을 현장에서 저장·재활용

    • 희귀하지만 치명적인 실패 패턴까지 학습에 반영 → 실제 세계에서의 안전성·성공률 향상


요약하면,

메모리 병목이 풀리면, 이미 관측된 스케일링 곡선을 한 번 더 크게 연장하는 도약이 가능하다.


새로운 이론의 혁명이라기보다는,
**“스케일 기반 성능 향상의 다음 라운드”**라고 보는 것이 적절하다.


3. 이제 승부는 “모델팀”보다 “전력·메모리·서버랙”이다


내부 기술 병목이 메모리라면, 산업 구조의 병목은 인프라이다.
이미 여러 곳에서 “할 수 있는 수요는 있는데, GPU·전력·쿼터가 없어서 못 판 매출”이 드러나고 있다.

3-1. AWS·구글 사례: 수요는 넘치는데 전기가 없다


몇 가지 징후만 보더라도 방향은 분명하다.

  • Similarweb 자료를 보면, 지난 1년간 생성형 AI 트래픽은

    • OpenAI 중심에서 Gemini, Claude, Perplexity, Copilot 등으로 분산되었지만,

      https://aisokuho.com/2025/10/04/generative-ai-traffic-share-trends-2025-openai-remains-top-gemini-claude-and-perplexity-gain-rapid-growth/?utm_source=chatgpt.com


    • 전체 트래픽은 꾸준히 증가해 왔다.

      https://www.demandsage.com/chatgpt-statistics/




  • AWS 베드록은 내부 문서에서 **“중대한 용량 제약”**을 언급했다.

    • 에픽게임즈는 AWS가 충분한 GPU 쿼터를 제공하지 못하자,
      1,000만 달러 규모 포트나이트 프로젝트를 Google Cloud로 이전했다.

    • 이 과정에서 AWS는 수천만 달러 규모의 매출을 놓치거나 지연시켰다.


      https://www.businessinsider.com/amazon-ai-capacity-crunch-pushed-customers-to-rivals-google-anthropic-2025-11?utm_source=chatgpt.com


  • 구글에서는 아민 바닷이 사내 전체 회의에서 다음과 같이 말했다.

    • 앞으로 6개월마다 AI 서빙 용량을 2배씩 늘려야 한다.

    • 4~5년 안에 지금의 1000배 컴퓨팅이 필요하다.

    • 피차이는 “Veo를 더 많은 사용자에게 열었으면 사용량이 훨씬 더 컸겠지만, 컴퓨팅 부족 때문에 그렇게 하지 못했다”고 했다.

https://timesofindia.indiatimes.com/technology/tech-news/googles-ai-infrastructure-boss-amin-vahdat-has-new-goal-for-employees-we-must/articleshow/125487674.cms?utm_source=chatgpt.com


  • OpenAI의 CEO Sam Altman은 이미지 생성 도구 등 신기능의 폭발적 수요로 인해 **“인프라 용량 부족(capacity crunches)”으로 인해 제품 출시가 지연될 수 있다”고 경고했다.


이 사례들은 하나의 문장으로 정리된다.

지금은 모델이 아니라 인프라가 수요의 상한을 결정하는 시기이다.

 

3-2. 제미나이 3: “모델 팀 × 인프라 투자 곡선”의 곱


데미스 하사비스는 **제미나이 3(Gemini 3)**가 로드맵대로 빠르게 진화하고 있다고 말한다.
동시에 AGI까지는 5~10년은 더 필요하며, 그 사이에

  • 더 강한 추론,

  • 더 나은 기억,

  • 월드 모델(world model),

  • physical intelligence를 해결하는 단계

가 필요하다고 본다.

그러나 이 모든 것은

  • 더 큰 파라미터,

  • 멀티모달·센서 입력,

  • 긴 컨텍스트와 자기검증으로 인한 내부 토큰 폭증

을 의미한다.

이를 실제 제품·서비스로 돌리려면, 구글의

  • 공격적인 데이터센터·전력 Capex,

  • 세대별 TPU 전력 효율 개선,

  • 메모리·네트워크 아키텍처 설계

가 뒷받침되어야 한다.

그래서 제미나이 3의 발전은 이렇게 보는 것이 정확하다.

“제미나이 3의 성능 곡선 = 모델 팀의 능력 × 구글 인프라 투자 곡선.”

 

3-3. 토큰/MW와 메모리 계층: 싸움의 단위가 바뀌고 있다


데이터센터에서는 이제 **전력(MW)**이 가장 강한 제약이다.
송전망·변전 설비·냉각·부지 확장은 몇 년 단위이고, AI 수요는 그보다 훨씬 빠르다.

따라서 KPI는 자연스럽게

  • 토큰/초/MW

  • 행동/초/MW

  • 토큰/TCO

와 같은 지표로 이동한다.

여러 분석에서 공통적으로 나오는 결론은

  • 현대 LLM 에너지의 상당 부분은 연산이 아니라 메모리 접근·데이터 이동에 쓰이고,

  • 따라서 전력 병목을 줄이는 가장 직접적 수단은 메모리 전력 최적화라는 점이다.

이 때문에 업계는

  • “HBM에 모든 워킹셋을 욱여넣는 단층 구조”에서

  • HBM–GDDR/CPX–LPDDR/SoCAMM–플래시(HBF)로 이어지는 계층형 메모리 구조로 이동하고 있다.

핵심 아이디어는 명확하다.

비싼 와트(HBM·NVLink 등)를 진짜 필요한 데이터에만 쓰고,
나머지는 더 싼 와트(LPDDR, 플래시 등)로 내려 보내
전체 토큰/MW를 최대화한다.


엔비디아가 서버 DRAM을 DDR5에서 저전력 LPDDR로 전환하기 시작한 것도 같은 맥락이다.
“모바일용 메모리”를 서버에 쓰겠다는 결정 자체가,
메모리 전력이 전체 AI 서버 전성비·TCO의 1급 변수가 되었다는 신호이다.

3-4. 앞으로의 승부 구조


모든 내용을 세 줄로 요약하면 다음과 같다.

  1. AI 경쟁력 = 모델 아키텍처 × 데이터 × 전력·메모리 인프라이다.

  2. 이 중 지금 가장 빠르게 격차가 벌어지는 축은 전세계에 전력·메모리·서버랙을 얼마나 많이, 효율적으로 깔 수 있느냐이다.

  3. 과거 “논문·모델 잘 내는 회사”의 싸움이던 구간에서, 앞으로 몇 년은 “인프라를 가장 잘 깔고 돌리는 회사”의 싸움으로 이동하고 있다.


4. 결론: 앞으로 5~10년, AI 성능 곡선은 “메모리와 전력”이 정한다


마지막으로, 전체 논지를 다시 한 번 압축하면 다음과 같다.

  1. 역사적 패턴

    • 규칙 기반의 표현력 병목 → 인공신경망

    • 신경망의 계산·데이터 병목 → GPU + ImageNet + 알렉스넷

    • 시퀀스 모델링 병목 → 트랜스포머·LLM

    • 즉, 병목이 풀릴 때마다 S-커브가 바뀌었다.

  2. 현재의 병목: 메모리와 전력

    • LLM은 구조적으로 메모리 바운드이다.

    • 컨텍스트·KV·내부 추론 토큰이 파라미터를 추월하며, HBM·DRAM·스토리지 전 계층을 압박한다.

    • Physical AI는 엑사바이트급 경험 데이터를 요구한다.

  3. 인프라가 수요 상한을 만든다

    • AWS 베드록의 용량 부족, 구글의 “6개월마다 2배, 4~5년 내 1000배” 전략, 제미나이 3의 발전 등은 지금은 모델이 아니라 인프라가 상한임을 보여준다.

    • KPI는 FLOPS가 아니라 토큰/MW·토큰/TCO로 이동하고 있다.

  4. 메모리 병목이 풀 때의 도약

    • 더 큰·더 모듈형 모델, 극단적으로 긴 컨텍스트, 깊은 추론의 기본값화, Physical AI의 안전성 향상 등

    • 이는 딥러닝 스케일링 곡선을 한 번 더 연장하는 도약이다.

따라서 앞으로의 AI 성능 경쟁을 한 문장으로 정리하면 다음과 같다.

“향후 5~10년 동안 AI의 품질과 속도, 비용을 결정하는 1차 변수는
알고리즘이 아니라 ‘메모리와 전력’이라는 물리적 병목이다.
전세계에 전력·메모리·서버랙을 가장 많이, 가장 효율적으로 깔 수 있는 쪽이
다음 라운드의 승자가 될 가능성이 가장 높다.”

 

이 관점에서 보면, 지금의 ChatGPT·제미나이·딥시크·클로드 경쟁은
결국 **“누가 이 물리적 한계를 더 멀리, 더 효율적으로 밀어낼 것인가”**를 둘러싼 장기전의 초입이라고 볼 수 있다.

=끝

2025년 11월 23일 일요일

생각정리 124 (* 메모리 직관)

ChatGPT5 이후로 많은 사람이 같은 질문을 던진다.

“모델이 좋아진 건 알겠는데, 왜 하필 이번 세대부터 메모리(특히 HBM·DRAM·스토리지) 사용량이 예전처럼 ‘서서히’가 아니라 ‘갑자기 튀어 오른 것처럼’ 보이는가?”

방향 자체는 단순하다. AI의 실질적인 유용성을 끌어올리는 축은 결국 세 가지이다.

  1. 다루어야 할 세계와 역할이 커지면서 모델은 커지고(파라미터↑)

  2. 사용자·세션·개인화 수요가 늘면서 컨텍스트는 길어지고(KV 캐시↑)

  3. 더 깊은 사고와 자기검증이 요구되면서 출력·내부 추론 토큰이 늘어난다(추론·평가·반성 토큰↑)


문제는 이 세 축이 각각 조금씩 커진 것이 아니라, ChatGPT5 세대에서 동시에 임계점을 넘었다는 점이다.

 그 결과, 토큰과 데이터가 지나가는 경로를 따라 스토리지–시스템 DRAM–SoC 메모리–HBM 전 계층의 부담이 “선형 증가”가 아니라 **“계단식 급등”**처럼 보이는 구간에 진입하게 되었다.

아래에서는 먼저 LLM 내부가 어떻게 동작하는지
(모델 파라미터, 텍스트 컨텍스트, KV 캐시, 프리필, 디코드)를 정리한 뒤,
이 세 축의 변화와 최근 연구 결과가 왜 전 계층 메모리 수요를 필연적으로, 그리고 체감상 “갑자기” 키워 버리는지 설명하고자 한다.


1. LLM 핵심 개념 다섯 가지


먼저 용어부터 짚고 간다.

1-1. LLM 모델 파라미터

  • 정의
    LLM이 학습을 통해 얻은 지식·패턴·사고 방식이 숫자로 압축되어 들어 있는 덩어리이다.
    신경망의 가중치(weight) 전체를 통틀어 모델 파라미터라고 부른다.

  • 비유
    한 비서가 평생 책·논문·보고서를 읽고 머릿속에 쌓아 둔
    개인 도서관 + 사고 습관이라고 보면 된다.
    질문이 무엇이든, 매번 이 “두뇌(파라미터)”를 꺼내서 어떻게 생각하고 답할지 결정한다.

  • 메모리 측면
    모델이 고정돼 있으면 필요한 메모리 용량도 거의 고정이다.
    (정밀도·샤딩 방식에 따라 수십~수백 GB 수준으로 정해진다.)


1-2. 텍스트 컨텍스트(Context)

  • 정의

    한 번의 요청에서 LLM이 **“참고 대상으로 받는 모든 텍스트”**이다. 예를 들면:

    • 시스템 프롬프트(“너는 이렇게 답해라”라는 역할·규칙)

    • 지금까지의 대화 내용

    • 이번에 새로 들어온 질문

    • 추가 문서·코드·표 등

  • 비유

    비서 책상 위에 펼쳐져 있는 전체 회의록 묶음이다.
    회의록이 길수록, 즉 텍스트 토큰 수가 많을수록 컨텍스트 길이가 길어진다.

  • 메모리 측면

    컨텍스트 길이가 길어질수록, 이 컨텍스트를 “기억”하기 위한 KV 캐시와 중간 표현이 선형적으로 증가한다.


1-3. KV 캐시(Key–Value Cache)

  • 정의

    컨텍스트 안의 각 토큰(단어 조각)에 대해 Transformer가 만들어 둔
    Key 벡터와 Value 벡터를 레이어·토큰별로 GPU 메모리(HBM)에 저장해 둔 것이다.

    • Key(K): 이 토큰이 “어떤 질문과 연관될지”를 나타내는 태그 벡터

    • Value(V): 이 토큰이 실제로 담고 있는 정보 요약 벡터

  • 비유

    회의록 각 문장 옆에 붙여 둔 포스트잇 메모이다.
    “이 문장은 리스크”, “이건 예산 숫자 핵심” 같은 메모를
    문장마다 붙여둔 것의 벡터 버전이 KV 캐시이다.
    이 포스트잇 묶음 전체가 HBM 위에 깔려 있는 상태라고 보면 된다.

  • 메모리 측면

    KV 캐시는 대략
    레이어 수 × (시퀀스 길이 × 배치 크기) × 벡터 크기
    에 비례해 커진다.
    시퀀스·배치가 커질수록 가중치 메모리보다 더 빨리 불어나는 축이다.


1-4. 프리필(prefill) 단계

  • 정의

    텍스트 컨텍스트(회의록 전체)를 처음부터 끝까지 한 번 쭉 읽으면서,
    각 토큰에 대한 은닉표현 + K/V를 계산해 KV 캐시를 세팅하는 단계이다.

  • 연산적 특징

    모델 파라미터(두뇌) × 입력 토큰(회의록)에 대해
    거대한 **행렬곱(matmul)**이 일어나는 구간이다.
    프롬프트·문서가 길어질수록 이 비용은 선형적으로 증가한다.

  • 비유

    비서가 긴 회의록을 처음부터 끝까지 읽으면서 문장마다
    “예산”, “일정”, “리스크”, “결론 후보” 같은 포스트잇을 붙여 나가는 시간이다.
    이 단계가 끝나면 **포스트잇이 빽빽하게 붙은 회의록 세트(KV 캐시)**가 책상 위에 준비된다.


1-5. 디코드(decode) 단계

  • 정의

    프리필에서 만든 KV 캐시를 바탕으로 답변 토큰을 한 개씩 생성하는 단계이다.

    토큰 하나를 만들 때마다:

    1. 그 위치에 대한 **Query(질문 벡터)**를 만들고

    2. 과거 모든 K/V(포스트잇이 붙은 회의록)를 다시 읽어
      “어떤 토큰을 얼마나 참고할지” 가중치를 계산하고

    3. 그 비율로 여러 Value를 섞어 다음 토큰을 만든다.

    4. 새 토큰에 대한 K/V도 계산해 KV 캐시에 덧붙인다.

  • 비유

    회의록과 포스트잇은 이미 다 붙어 있다.
    이제 비서는 보고서를 쓸 때, 문장 하나를 쓸 때마다
    회의록 전체를 쓱 훑어보며
    “이번 문장은 예산 위주니까 예산 포스트잇 쪽을 많이 참고해야겠다”
    식으로 참고 비중을 정하고, 그 내용을 조합해 한 줄씩 써 내려가는 과정이 디코드 단계이다.

  • 병목

    매 토큰마다 KV 캐시 전체를 레이어마다 반복해서 읽기 때문에
    연산량보다 **HBM 대역폭(읽기 속도)**이 성능과 전력 효율을 결정하는 핵심 병목이 된다.


2. LLM이 새 질문을 처리할 때 벌어지는 3단계

위 개념들을 실제 타임라인에 맞춰 다시 정리하면, 새 질문 하나가 들어올 때 내부에서는 대략 다음 세 단계가 반복된다.




  1. 텍스트 컨텍스트 구성

    시스템 프롬프트 + 지금까지의 대화 + 새 질문 + 추가 문서 등을 한 줄짜리 긴 텍스트로 이어 붙인다.
    이것이 이번 요청의 컨텍스트, 즉 책상 위 전체 회의록이다.

  2. 프리필 – 컨텍스트 전체를 읽으며 KV 캐시 만들기

    이 컨텍스트를 토큰 단위로 처음부터 끝까지 한 번 쭉 통과시키면서,
    각 토큰에 대해 Key/Value를 계산하고, 이를 레이어·토큰별로 모아 HBM 위에 KV 캐시로 저장한다.
    이때 모델 파라미터 × 입력 토큰에 대한 대규모 matmul이 집중된다.

  3. 디코드 – KV 캐시를 반복해서 읽으며 답변 토큰 생성

    프리필이 끝나면, 이제 답변을 토큰 단위로 만든다.
    각 토큰마다 Query를 만들고, KV 전체를 다시 읽어 가중치를 계산하고,
    그 결과로 다음 토큰을 정한 뒤 새 K/V를 KV 캐시에 추가한다.
    이 과정에서 **KV를 읽는 대역폭(토큰당 읽기량)**이 성능·지연·전력의 주된 병목이 된다.

이 구조 자체가 이미 “메모리 바운드”이다.
여기에 모델 파라미터·컨텍스트·내부 토큰이 동시에 커지면, 가장 먼저 메모리 계층이 비명을 지르기 시작한다.


3. 세 축이 왜 동시에 커질 수밖에 없는가

3-1. 모델 파라미터: 다루는 세계와 역할이 커진다

과거의 LLM은 텍스트·코드 중심 Q&A 도구에 가까웠다.
그러나 앞으로의 AGI·Physical AI는 다음을 동시에 다루려 한다.

  • 텍스트 + 코드

  • 이미지·동영상·음성

  • 자율주행 로그(FSD)·로봇 센서(LiDAR, IMU, 힘·토크)

  • 경제·법·정치·사회 시스템 데이터

또한 역할 면에서도,

  • 문제 분해·시나리오 설계

  • 계획 수립·스케줄링

  • 검색·코드·툴·로봇 제어

  • 장기 목표 관리, 리스크·규제 고려

  • 사람·다른 에이전트와 협업

까지 수행하는 복합적인 시스템이 되어야 한다.

이는 한 시스템 안에

  • 월드 모델(세계가 어떻게 변하는지 시뮬레이터),

  • 정책(policy)(지금 이 상태에서 무엇을 해야 하는지),

  • 규칙·안전·제약 조건

을 같이 담겠다는 의미이다.
자연스럽게 표현해야 할 상태공간이 기하급수적으로 커지고,
모델 파라미터(두뇌)의 용량도 더 커질 수밖에 없다.

MoE·모듈러 구조로 “필요할 때만 큰 부분을 쓰는” 방향으로 최적화되겠지만,
방향 자체는 **“지금보다 훨씬 큰(또는 효과적으로 더 큰) 두뇌”**이다.


3-2. 컨텍스트·KV 캐시: 사용량·개인화 선순환

컨텍스트 길이는 대략

컨텍스트 길이 ≈ 세션당 턴 수 × 턴당 평균 토큰 수

라고 볼 수 있다.
**사용자 수↑, 1인당 사용 시간↑, 질의 횟수↑**가 동시에 늘어나면서
한 세션 안에 쌓이는 과거 대화 토큰 수가 구조적으로 증가한다.

초기에는:

  • 한두 번 묻고 끝내는 단발성 Q&A 도구였지만,

이후에는:

  • 리서치 → 요약 → 초안 → 수정 → 재작성 같은 복합 작업 플로우,

  • 여러 날·주에 걸친 장기 프로젝트(리포트, 투자, 코드베이스, 학습 계획),

  • 사용자의 취향·제약조건·사고 스타일을 기억하는 개인 비서·에이전트

로 진화하고 있다.

과거 문맥을 길게 유지할수록:

  • 사용자 입장에서는 “얘는 나를 잘 안다”, “내 맥락을 이해한다”는 느낌이 커지고,

  • 유용성이 올라가면 사용 시간·질문 수·입력 정보량이 증가하며,

  • 그러면 다시 더 긴 컨텍스트 지원에 대한 요구가 생긴다.

결국

컨텍스트 길이↑ → 개인화 유용성↑ → 사용↑ → 다시 컨텍스트 길이↑

라는 선순환 구조가 만들어진다.
이 선순환의 직접적인 결과가 바로 KV 캐시 메모리 폭증이다.


3-3. 출력·내부 토큰: 체인오브소트·자기검증·에이전트

ChatGPT5 세대에서는 겉으로 보이는 출력 토큰뿐 아니라,
내부적으로 생성·평가·폐기되는 토큰 수가 크게 늘었다.

  • 체인오브소트(생각의 사슬),

  • 자기검증·반성 루프,

  • 여러 도구·에이전트 호출,

  • 여러 후보 답변을 만들어 비교·선택하는 과정

등이 늘어나면서,

  • 사용자는 예전과 비슷한 길이의 답변을 보더라도,

  • 내부적으로는 여러 배의 토큰이 생성·읽기·버리기를 반복한다.

디코드 단계에서 토큰 하나를 만들 때마다:

  • 모든 과거 토큰의 KV를 다시 읽기 때문에,

  • 내부 토큰이 늘어날수록 **KV 읽기 횟수(메모리 트래픽)**가 기하급수적으로 증가한다.

즉, 모델이 더 “생각을 많이 할수록” KV와 HBM은 더 많이 갈려 나간다.


4. 연구 결과가 보여주는 “임계점 돌파”

위 논의를 실제 측정 데이터로 찍어주는 연구들이 있다.
대표적으로 DistServeInfiniGen 계열 실험이다.


DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving


DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving

4-1. DistServe: 프리필·디코드 혼합 구조의 지연 폭발

기존 LLM 서비스는 한 GPU 위에서

  • 긴 프롬프트를 처리하는 **프리필(prefill)**과

  • 비교적 짧은 응답을 찍어 내는 **디코드(decode)**를

서로 섞어서 동시에 처리하는 경우가 많았다.

DistServe는 다음을 보여준다.

  • 요청률(QPS)이 증가할수록,

  • 긴 프리필 요청이 짧은 디코드 요청들 사이에 몇 개만 섞여도,

  • 디코드 배치의 P90 TTFT·TPOT 지연이 계단식으로 폭증한다.

  • 반대로 프리필 전용 GPU와 디코드 전용 GPU를 **분리(disaggregate)**하면,
    같은 하드웨어에서도 지연이 크게 억제된다.

이 실험이 말하는 바는 단순하다.

  • 모델·컨텍스트·내부 토큰이 커진 ChatGPT5 세대에서는,

  • 프리필과 디코드를 한 GPU 위에 마구 섞어 돌리는 구조

  • 토큰/초, 토큰/MW, 사용자 체감 지연을 동시에 망가뜨리는 임계점에 도달했다는 것이다.

즉, 예전에는 “그럭저럭 되던” 구조가
이번 세대부터는 더 이상 TCO·지연 면에서 버티지 못하는 구간으로 들어선 셈이다.


4-2. InfiniGen: KV 메모리가 가중치 메모리를 추월하는 지점


InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management


InfiniGen 계열 실험은 메모리 구성의 임계점을 보여준다.

  • x축: 시퀀스 길이 또는 배치 크기

  • y축: 총 메모리 사용량

  • 수평 점선: OPT-30B 모델 **가중치(파라미터)**를 올려 두는 데 필요한 메모리

  • 막대: 같은 조건에서 가중치 + KV 캐시까지 포함한 전체 메모리

실험 결과는 다음과 같다.

  • 시퀀스 길이나 배치 크기가 작을 때는
    → 막대가 점선 아래에 있어 모델 파라미터가 메모리의 주인공이다.

  • 시퀀스·배치가 커질수록
    → 막대가 급격히 커져서 점선을 훌쩍 넘어서는 구간이 나타난다.
    이 시점부터는 KV 캐시가 모델 파라미터보다 더 많은 메모리를 먹기 시작한다.

또 다른 실험에서는:


InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management


InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management


  • 32K~1M 같은 긴 컨텍스트에서도
    실제로 자주 참조되는 Key 비율이 전체의 1% 미만이라는 점을 보여준다.

  • 그럼에도 불구하고 최적화가 없으면
    이 모든 KV를 HBM·DRAM에 다 올려 두어야 하니 극도로 비효율적이 된다.


결국 이 데이터는 다음을 의미한다.

  • 예전에는 “HBM 용량 ≒ 모델 크기(가중치)”가 설계 기준이었다면,

  • 긴 컨텍스트·큰 배치(동시 세션↑) 구간에서는
    **HBM/DRAM 용량을 결정하는 주인공이 모델이 아니라 KV 캐시(컨텍스트 상태)**로 바뀌고 있다.

즉, ChatGPT5 세대에서 체감하는 “메모리 폭증”은
모델이 커져서가 아니라, KV가 모델을 추월하는 구간에 들어섰기 때문이라고 보는 편이 더 정확하다.


5. 인간의 학습곡선 vs Physical AI의 반복학습

여기서 하나를 더 얹어야 한다.
바로 “인간의 학습곡선”과 Physical AI의 관계이다.

5-1. 인간의 학습곡선


인간은 같은 동작·경험·사고·노동을 반복할수록:

  • 신경 회로(가중치) 자체가 바뀌고,

  • 점점 더 빠르고, 정확하고, 에너지 효율적인 방식으로 일을 하게 된다.

운전, 수술, 악기 연주, 스포츠, 글쓰기, 분석 작업 등
모두 반복 경험 → 숙련도↑ → 효율↑ 형태의 곡선을 그린다.

즉, 경험 데이터 = 파라미터를 갱신하는 재학습 재료이다.

5-2. Physical AI도 같은 방향으로 간다


지금의 LLM은:

  • “대화 세션 안의 문맥 활용”은 잘하지만,

  • 매 세션의 경험이 실시간으로 파라미터를 바꾸지는 않는다.
    (대부분은 별도의 재학습 파이프라인에서 업데이트한다.)

그러나 Physical AI가 본격화되면:

  • 자율주행차, 로봇, 드론, 제조설비, 물류 시스템 등이
    실제 세계를 움직이며,

  • 반복해서:

    • 센서 데이터(카메라·LiDAR·IMU·힘·온도),

    • 행동 로그(가속·제동·경로·조작),

    • 결과(성공/실패, 안전 여부)를 축적하고,

  • 이를 기반으로 정책·월드 모델을 계속 업데이트하게 된다.

즉, 인간처럼

반복된 경험 → Physical AI의 학습곡선 →
실생활에서의 유용성과 효율성(성공률·안전성·에너지 효율) 향상

이라는 경로를 밟게 된다는 것이다.

5-3. 왜 전 계층 메모리 확장이 필수인가


인간의 뇌는:

  • 경험을 장기 기억으로 저장하고,

  • 필요할 때 꺼내 쓰면서

  • 신경 연결을 재구성한다.

Physical AI가 유사한 학습곡선을 가지려면:

  • **엄청난 양의 경험 로그(비정형 데이터)**를
    값싸게 오래 저장해야 한다. (자율주행 로그, 로봇 작업 로그, 센서 스트림, 실패 사례 등)

  • 필요할 때 이 데이터를 다시 꺼내
    재학습·미세조정·월드모델 업데이트에 써야 한다.

  • 일부는 거의 실시간에 가까운 온라인 학습으로 정책이나 내부 상태를 계속 수정할 수도 있다.

이 모든 과정은 곧:

  • COLD 스토리지(HDD·eSSD·HBF)의 용량↑

  • Warm DRAM/CXL 메모리의 용량↑

  • 프리필·온라인 학습 처리용 GDDR/LPDDR/SOCAMM의 용량·대역폭↑

  • 실시간 디코드·제어 루프를 위한 HBM의 용량·대역폭·전력 효율↑

을 함께 요구한다는 뜻이다.

즉,

인간이 경험을 반복하며 신경망 가중치를 바꾸듯,
Physical AI도 센서·행동·결과 로그를 반복 학습에 써서
자체 파라미터(정책·월드모델)를 업데이트한다.  

그 과정속에서 경험을 저장·재활용·실시간 처리할 수 있는 전 계층 메모리 인프라 확장이 필수이다.


라는 결론이 자연스럽게 따라온다.


6. 모델↑ + 컨텍스트↑ + 유용성↑ + 반복학습↑ → 토큰·데이터·메모리 폭증


지금까지의 논의를 하나로 묶으면 다음과 같다.

  1. 모델 파라미터 증가

    • 더 많은 세계(언어·시각·센서·행동)를 표현·추론하기 위해
      두뇌 용량 자체가 커진다.

  2. 컨텍스트 길이 증가

    • 사용자 수·세션 길이·개인화 수요가 늘면서
      한 세션 안에 다뤄야 할 회의록(텍스트 컨텍스트)이 길어진다.

    • KV 캐시 메모리가 모델 가중치를 추월하는 구간이 나타난다.

  3. 서비스 유용성·복잡도 증가

    • 체인오브소트, 자기검증, 다단계 플로우, 리포트·코드·전략안 출력 등
      입력·출력·내부 추론 토큰이 모두 증가한다.

    • 디코드 단계에서의 KV 읽기 횟수와 HBM 트래픽이 급증한다.

  4. Physical AI의 반복학습(학습곡선)

    • 자율주행·로봇·엣지 디바이스가
      실제 세계에서 경험 로그를 쌓고 재학습하면서
      장기적으로 더 큰 데이터·더 잦은 업데이트가 필요해진다.

이 네 축이 맞물리면:

토큰 수(입력·출력·내부) + 경험 데이터량 + 학습·추론 부하가
동시에 기하급수적으로 증가하고,
이를 지탱하기 위해
모든 메모리 계층(스토리지~HBM)의 용량·대역폭·전력 효율 수요가
함께 폭증하는 구조가 된다.

 


7. 메모리 계층별로 보면 어떤 그림이 되는가


간단히 계층별 키워드만 다시 정리하면 다음과 같다.

7-1. HDD·eSSD·HBF (스토리지)

  • 역할

    • 웹·코드·이미지·동영상

    • 자율주행·로봇 로그

    • 학습·재학습용 원천 데이터

  • 왜↑

    • Physical AI의 경험 데이터(비디오·센서)가 폭증하면서
      엑사바이트급 COLD 창고가 필요해진다.

7-2. DDR·CXL DRAM (시스템 메모리)

  • 역할

    • RAG 인덱스, 검색 캐시, 세션 상태

    • 에이전트 오케스트레이션 중간 결과

    • CXL 기반 대용량 DRAM 풀

  • 왜↑

    • 세션 수↑, 에이전트 복잡도↑로
      HBM에 다 올릴 수 없는 데이터·상태를 받쳐 주는 중간 계층 필요성이 커진다.

7-3. GDDR·LPDDR·SOCAMM (SoC 메모리)

  • 역할

    • 프리필 단계(긴 컨텍스트를 읽고 KV 생성) 대량 처리

    • 엣지/온디바이스 AI(차·로봇·모바일)의 로컬 메모리

  • 왜↑

    • 긴 프리필을 더 값싸게 처리해야 하고,

    • HBM이 없는 디바이스에서도 Physical AI를 돌려야 하기 때문이다.

7-4. HBM (초고대역 핫 메모리)

  • 역할

    • 디코드 단계(토큰 생성)의 KV 캐시·핵심 파라미터·멀티모달 피처 저장

    • 실시간 Physical 제어 루프의 핵심 모델 상주

  • 왜↑

    • 모델 파라미터↑, 컨텍스트·KV 길이↑, 토큰/초 요구↑, 지연↓ 요구,
      멀티모달·센서 피처 처리량↑로 인해
      토큰/초, 토큰/MW, 행동/초를 결정짓는 마지막 병목이 되기 때문이다.


8. 결론

핵심만 다시 묶으면 다음과 같다.

  1. LLM 구조 자체가 메모리 바운드이다.
    LLM은 고정된 두뇌(모델 파라미터)를 두고, 매 요청마다 긴 텍스트 컨텍스트를 읽어 프리필 단계에서 KV 캐시를 만들고, 디코드 단계에서 이 KV를 계속 읽으면서 토큰을 생성한다.
    연산량보다 KV를 읽고 옮기는 메모리·인터커넥트 트래픽이 지연과 에너지의 주된 병목이 되는 구조이다.

  2. ChatGPT5 세대에서 메모리가 “갑자기” 튄 이유는 세 축의 동시 임계점 돌파 때문이다.
    멀티모달·대형 모델로 인해 한 GPU/HBM에 “모델+KV”를 여유 있게 올리던 시대가 끝났고, 128k~1M급 긴 컨텍스트와 큰 배치가 실사용에 들어오면서 KV 캐시가 파라미터를 넘어서는 메모리 지배자가 되었다.
    동시에 체인오브소트·자기검증·에이전트 오케스트레이션으로 내부 토큰과 KV 접근 횟수가 폭증해, 기존의 완만한 증가가 인프라 입장에선 **“급등”**으로 보이는 구간에 들어간 것이다.

  3. 실측 데이터는 ‘HBM 기준 = 모델 크기’ 시대의 종말을 보여준다.
    시퀀스 길이·배치 크기가 커지면 동일 모델에서 KV 메모리 > 모델 가중치 메모리 구간이 빠르게 나타난다. 긴 컨텍스트에서도 실제로 참조되는 Key는 1% 미만이지만, 최적화가 없으면 이 전체 상태를 HBM·DRAM에 올려야 한다.
    설계 기준이 “파라미터 용량”에서 “KV 캐시(컨텍스트 상태)”로 이동하고 있음을 시사한다.

  4. Physical AI·반복학습은 전 계층 메모리 확장을 전제조건으로 요구한다.
    자율주행·로봇·엣지 디바이스가 현실 세계에서 쌓는 방대한 센서 로그와 행동 기록은, 인간의 경험처럼 장기 재학습·미세조정·온라인 업데이트의 재료가 된다.
    이 경로를 타려면 값싼 COLD 스토리지(HDD·eSSD·HBF), 대용량 DRAM/CXL, 프리필·학습용 GDDR/LPDDR/SOCAMM, 실시간 제어용 HBM까지 모든 메모리 계층에서 용량·대역폭·전력 효율이 동시에 커져야만 한다.

마지막으로, 데이터센터는 전력·부지·용수라는 물리적 상한을 가진다.
앞으로의 경쟁은 필연적으로

가용 전력 1MW당 얼마만큼의 유효 토큰·유효 행동을 뽑아내는가
(토큰/MW, 행동/MW, 토큰/TCO)

로 귀결될 것이며, 이 비율을 결정짓는 최종 병목이 바로
KV 중심으로 재편되는 메모리 계층 전체이다.

요약하면,
AI 보편화 + AGI·Physical AI 진화 + 인간식 반복학습이라는 세 흐름이 겹치면서,
모델 파라미터·컨텍스트·내부·외부 토큰·경험 데이터가 동시에 폭발적으로 증가하고 있다.
이는 곧 스토리지에서 HBM에 이르는 전 계층 메모리의 기하급수적 확장 수요로 곧장 연결되는 구조라고 볼 수 있다.

=끝

생각정리 123 (* LPDDR, 메모리 월)


주말에 메모리 병목 관련해 여러 좋은 글들이 올라와 관련 내용을 이전에 남겼던 글 내용들과 엮어서 정리해본다.


1. 연산에서 메모리로: AI 추론 품질을 가르는 새로운 병목

과거에는 AI 인프라 논의가 거의 FLOPS(연산 성능) 중심이었다.

  • 모델 학습이 중심이고,

  • GPU·TPU를 얼마나 많이, 싸게 들여올 수 있는지가 핵심 변수였다.

그런데 지금 AI의 무게중심은 분명히 **추론(inference)**으로 이동했다.
그리고 추론 워크로드의 성격 자체가 바뀌었다.

  1. 입력 중심 → 출력 중심

  • 예전: 긴 문서를 요약·정리하는 작업 비중이 높아 인풋 토큰이 많고 아웃풋은 짧은 구조였다.

  • 지금: LLM이 생각·평가·반성 과정을 거쳐 직접 문제를 해결한다.

    • 체인 오브 소트, 자기 검증, 다단계 계획 등

    • 그 결과 출력 토큰 수가 인풋보다 훨씬 많아지는 구조로 바뀌었다.

  1. 토큰 하나를 만들 때마다 벌어지는 일

  • 추론 단계에서 한 토큰을 생성할 때마다 20~50ms 내에

    • 수십억~수천억 개 파라미터,

    • 지금까지 쌓인 KV 캐시(과거 토큰 정보)
      를 다시 읽어와야 한다.

  • 이 과정이 레이어 수만큼 반복되므로,
    → **토큰 수가 늘어날수록 단위 시간당 메모리에서 읽어야 하는 데이터(GB/s)**가 폭증한다.

  1. 병목의 전환: 연산 바운드 → 메모리 바운드

  • GPU 연산 유닛 자체는 이미 매우 빠르다.

  • 하지만 HBM·메모리·NVLink 등의 대역폭이 충분히 받쳐주지 못하면,

    • GPU 코어는 연산 대신 **“데이터를 기다리면서 전력을 소비”**한다.

  • 이 상태가 곧 **메모리 바운드(memory-bound)**이며,
    → 최근 AI 반도체의 한계가 “연산력 부족”이 아니라 데이터 대역폭 부족이라는 진단이 나오는 이유이다.


    https://uiyeonassociation.blogspot.com/2025/10/106-hbf.html


결론적으로,
지금 AI 추론 서비스의 품질(속도·일관성·고차 추론 능력)을 가르는 1차 병목은 더 이상 FLOPS가 아니라 메모리이다.


2. 전력 캡과 “토큰/MW”라는 KPI, 그리고 메모리 전력

여기에 전력 병목이 겹친다.

  • 글로벌 데이터센터 전력 수요는 AI로 인해 빠르게 증가하고 있고,

  • 송전망, 변전 설비, 부지, 인허가, 냉각 등 인프라 확충 속도는 그만큼 따라오지 못하고 있다.

  • 이제 “전기 더 쓰면 되지”가 아니라,
    MW(메가와트) 자체가 고정된 희소 자원이 되어가고 있다.

이 환경에서 TCO·ROI는 자연스럽게 다음처럼 재정의된다.

핵심 KPI = 토큰/초/MW, 즉 “전력 1MW당 몇 개의 유효 토큰을 생산할 수 있느냐”

  • 토큰이 곧 매출이고,

  • 전력이 캡이면,
    → **칩 가격($/GPU)**보다 **토큰/MW(토큰/W)**가 의사결정을 지배한다.

여기서 중요한 지점:

  • 현대 LLM에서 에너지의 상당 부분은 연산이 아니라 메모리 접근·데이터 이동에 쓰인다는 것이 여러 연구·업계 분석에서 반복적으로 나오고 있다.

  • 다시 말해, “토큰/W” 싸움의 상당 부분은 곧 “비트당 에너지를 어디서, 어떻게 쓰느냐(메모리 전력)”의 싸움이라는 뜻이다.



따라서,
전력이 병목인 시대에 AI 추론 서비스의 전성비를 끌어올리는 가장 직접적인 레버 중 하나가 바로 메모리 전력 최적화이다.


3. HBM 단층 구조와 “메모리 월(memory wall)”의 한계

현재 고급 AI 가속기는 대부분 HBM을 중심으로 설계된다.

  • 장점:

    • 매우 높은 대역폭(TB/s급),

    • 낮은 지연,

    • GPU 코어와 거의 붙어 있음.

  • 단점:

    • GB당 비용이 매우 비싸고,

    • TSV·실리콘 인터포저(CoWoS), ABF 서브스트레이트 등

      • 첨단 패키징을 요구해 공정·수율·캐파가 병목

    • 전력·발열·냉각 난이도도 높다.

결과적으로 HBM은

“가장 빠르지만, 가장 비싸고 가장 전력을 많이 태우는 메모리 계층”

이 된다.

데이터센터 레벨에서 보면:

  • GPU·HBM을 늘릴수록

    • NVLink·스위치·전원·냉각·상면비가 비선형적으로 증가하고,

  • 일정 구간을 넘으면

    • GPU 2배 늘려도 성능·토큰/MW는 2배가 안 나오는 구간에 진입한다.

즉, “HBM 하나로 모든 워킹셋을 욱여넣는 구조”는
전력·냉각·상면·패키징·공급망(CoWoS 캐파) 모든 축에서 벽에 부딪히는 구조이며,
이 벽이 곧 **메모리 월(memory wall)**이다.

https://arxiv.org/html/2411.13055v1?utm_source=chatgpt.com

  • 노드 수가 늘수록 Tokens per Watt·MFU가 계속 떨어져서 GPU 효율이 하락한다.

  • Global Throughput는 이상적인 선형 스케일(점선)보다 훨씬 덜 증가해, 노드를 2배 늘려도 성능은 2배가 안 나온다.

  • CUDA 연산 시간은 줄지만 NCCL·Exposed Comms 시간이 급증해, 결국 통신이 전체 step time을 지배하는 병목이 된다.

https://arxiv.org/html/2411.13055v1?utm_source=chatgpt.com


  • 노드 수가 증가할수록 Tokens per GPU Watt와 MFU가 더 가파르게 악화되어, 같은 노드 수도 그림 1보다 에너지·연산 효율이 더 나쁘다.

  • Global Throughput 곡선이 이상적 선형 스케일에서 더 심하게 아래로 처져, 규모를 키울수록 성능 체감이 훨씬 크다.

  • Compute Time에서 통신(특히 Exposed Comms·NCCL)이 노드 수와 함께 거의 폭발적으로 늘어나 GPU는 놀고 통신만 기다리는 구조가 드러난다.



4. 메모리 계층화: 품질과 전성비를 동시에 맞추는 구조

이 벽을 넘기 위해 업계가 선택한 방향이 메모리 계층화이다.

핵심 아이디어는 단순하다.

“HBM을 무조건 많이 다는 게 아니라,
HBM이 하던 일을 역할별로 쪼개서 여러 메모리 계층으로 분산한다.”

대표적인 구조를 다시 정리하면 다음과 같다.

  1. HBM 계층 (핫, 가장 비싼 와트)

    • GPU와 패키지 수준에서 붙어 있는 최상위 계층.

    • 디코드 단계에서 꼭 필요한 핫 파라미터·핫 KV만 올려둔다.

    • 목표:

      • GPU 코어가 메모리를 기다리며 노는 시간을 최소화 → 토큰/초/MW 극대화.

  2. CPX + GDDR7 계층 (프리필 전용, 고대역폭 DRAM)

    • 장문 컨텍스트 인코딩, 대량 행렬 연산 등 프리필(pre-fill) 단계 전담.

    • 메인 GPU의 HBM이 떠안던 프리필용 트래픽과 용량 부담을 분리해,

      • HBM은 디코드에 집중.

    • 롱컨텍스트·대규모 배치에서 전체 시스템의 토큰/MW를 끌어올리는 역할을 한다.

  3. SoCAMM2 + LPDDR5X 계층 (웜, 용량·전력/GB 지향)

    • KV 캐시 본체,

    • RAG 임베딩 풀,

    • 프리페치 버퍼 등 용량 지배형 데이터를 담당.

    • HBM·GDDR보다 느리지만, W/GB와 $/GB가 훨씬 낮다.

    • 이를 통해 HBM에는 진짜 핫셋만 남기고,

      • “비싼 와트(HBM)”을 최소한으로만 쓰게 만들어 전체 토큰/MW를 높인다.

  4. HBF·플래시 계층 (콜드, 초대용량·최저 전력/GB)

    • 롱컨텍스트 아카이브, 초대형 벡터DB, 로그성 데이터 등

      • “자주 쓰이지 않지만 크고 무거운 데이터”를 담당.

    • 여기에서 필요한 일부만

      • 플래시 → SoCAMM2 → HBM/CPX로 승격시키는 구조로,

      • 상위 계층이 차가운 데이터를 위해 와트를 낭비하지 않도록 만든다.

이 계층화는 단순히 “용량을 더 확보하자”가 아니라,

“토큰 하나를 만들 때 소비되는 비싼 와트(HBM+NVLink) 비중을 줄이고,
더 싼 와트(LPDDR, 플래시)로 감당할 수 있는 비트는 아래로 내려보내자”

전력·TCO 최적화 전략이다.


5. NVIDIA의 서버용 LPDDR 전환이 의미하는 것

여기서 최근 NVIDIA의 결정, 즉
서버 메모리를 DDR5에서 LPDDR로 전환하기 시작했다는 Reuters 보도는 매우 상징적이다.

  • Reuters에 따르면, NVIDIA는 AI 서버의 전력 비용을 줄이기 위해
    기존 DDR5 서버 메모리 대신 스마트폰·태블릿에 쓰이던 LPDDR 계열 저전력 메모리로 전환하는 전략을 취하고 있다.

  • LPDDR은 Low-Power DDR, 이름 그대로

    • 일반 DDR 대비 전력 소모를 줄이도록 설계된 DRAM으로,

    • 원래 스마트폰·태블릿·노트북 등 전력 민감 기기용이었다.

이 결정의 의미는 크게 세 가지이다.

  1. “메모리 전력”이 이제 서버 설계의 1급 변수라는 공식 선언

  • 서버용 DDR5는 고성능·고대역폭을 위한 메모리이고,

  • LPDDR5는 모바일·저전력용 메모리이다.

  • 그럼에도 NVIDIA가 서버에서 DDR5 대신 LPDDR을 채택한다는 것은,
    메모리 전력 절감이 그만큼 절박한 과제가 되었다는 뜻이다.

  • 다시 말해,

    • GPU 코어는 이미 충분히 빠른데,

    • 메모리 전력·발열·전력 캡이 전체 TCO와 토큰/MW를 잠그고 있으니,
      “고성능 서버용 DDR”이 아니라 “저전력 모바일용 LPDDR”을 끌어다가 쓸 정도로 상황이 심각하다
      는 신호이다.


  1. LPDDR 도입 = 토큰/MW를 위한 직행 수단

  • LPDDR5는 DDR5보다

    • 더 낮은 동작 전압과 전력 최적화 기능을 통해

    • 비트당 전력 소모를 줄이는 것이 핵심 설계 목표이다.

  • AI 서버에서 메모리 전력이 차지하는 비중이 크기 때문에,

    • 동일한 메모리 용량·유효 대역폭을 LPDDR 기반으로 구현하면

    • 서버 전체 전력 중 메모리 몫을 의미 있게 줄일 수 있다.

  • 전력이 캡인 상황에서

    • 같은 1MW로 더 많은 토큰을 뽑을 수 있다면
      → 이는 곧 토큰/MW 개선 = 매출/MW 개선 = TCO 개선으로 직결된다.

  1. 공급망·가격 충격이 발생할 정도로 전략의 스케일이 크다

  • Counterpoint Research에 따르면,

    • NVIDIA의 LPDDR 채택은 서버 메모리 가격을 2026년 말까지 거의 두 배로 끌어올릴 수 있는 수준의 수요 쇼크를 만들 수 있다.

  • 이는 곧

    • “LPDDR을 서버에 쓰면 좋을 것 같다” 수준이 아니라,

    • **“메모리 전력/TCO 문제를 해결하려는 방향이 공급망 지형까지 바꿀 만큼 본격적인 스케일로 움직이고 있다”**는 의미이다.

  • 다시 말해,
    AI 인프라 경쟁의 한 축이 “어떤 메모리 체계를 얼마나 저전력·고효율로 쓰느냐”로 이동하고 있음을 숫자 자체가 보여준다.

이 모든 것을 합치면,
NVIDIA의 LPDDR 서버 전환은 이렇게 읽을 수 있다.

“이제 메모리의 전력 사용량이 AI 칩·서버 전체 전성비와 TCO를 결정하는 1급 요인이며,
이를 줄이기 위해서라면 서버 메모리 아키텍처 자체를 갈아엎을 준비가 되어 있다.”

 


6. 결론: 앞으로 AI 추론 서비스의 품질은 메모리, 그중에서도 “메모리 전력”에 달려 있다

지금까지 내용을 한 줄로 압축하면 다음과 같다.

  1. 품질을 올릴수록

    • 모델은 커지고(파라미터↑),

    • 컨텍스트는 길어지고(KV 캐시↑),

    • 출력 토큰 수는 늘어난다(추론·평가·반성 토큰↑).

  2. 사용자 경험을 지키려면

    • 여전히 20~50ms/토큰 수준의 응답 속도를 유지해야 하고,

    • 데이터센터는 전력·냉각·상면의 하드 캡에 묶여 있다.

  3. 이 두 조건을 동시에 만족시키려면,

    • FLOPS를 늘리는 것만으로는 부족하고,

    • 한 토큰을 생성할 때 필요한 데이터를
      얼마나 빠르고, 얼마나 적은 와트로,
      얼마나 효율적으로 계층화된 메모리 구조에서 가져올 수 있느냐
      가 결정적이다.


  4. 그래서 미래 AI 경쟁력은

    • 모델 아키텍처,

    • 메모리 아키텍처(계층·대역폭·전력),

    • 전력 인프라
      세 요소의 곱으로 결정된다.

그 중 지금 가장 빠르게 “병목이자 레버”로 부상한 축이 바로

메모리, 그 중에서도 메모리의 전력 사용량과 계층 구조이지 않을까 한다. 

 

NVIDIA의 서버용 LPDDR 전환은

  • **“메모리 전력 최적화가 전체 AI 추론 서비스의 전성비와 TCO를 지배하는 국면으로 들어섰다”**는 강력한 사례이며,

  • 앞으로 AI 추론 인프라 분석은

    • 단순히 HBM 용량/대역폭을 보는 수준을 넘어서,

    • HBM–CPX–LPDDR–플래시로 이어지는 메모리 계층별 W/GB, W/GB/s, $/GB가
      토큰/MW와 서비스 단가에 어떻게 반영되는지
      까지 보는 프레임으로 확장될 필요가 있다.

그 의미에서,
앞으로 AI 추론 서비스의 품질과 비용, 전성비는 “얼마나 좋은 메모리를 얼마나 잘, 얼마나 적은 전력으로 쓰느냐”에 점점 더 달려 있게 될 것이다.

=끝

2025년 11월 20일 목요일

생각정리 122 (* Lisa Cook, Dollar Repricing)



핵심 요약

  1. 단기적으로는 리사 쿠크의 자산가격 경고와 FOMC 이견이 나스닥 변동성을 키우고 있다.

  2. 중기적으로는 미국발 AI CAPEX와 트럼프 관세, 달러스왑 수요가 결합되며 달러 기축체제와 글로벌 저축–투자 구조를 다시 재편하고 있다.

  3. 장기적으로는 이 과정이 2% 물가목표, 실효이자율(r*), 자산 밸류에이션의 “새로운 균형”을 어디에 둘 것인지에 대한 논의를 촉발할 수 있다.


정리하면, 글의 핵심 논지는

  • 단기: 금리·정책 커뮤니케이션·옵션 포지션이 나스닥 변동성을 크게 키우는 구간

  • 중기: 미국발 AI CAPEX와 트럼프 관세, 달러스왑 수요가 결합된 ‘달러 중심 재균형’ 국면

  • 장기: 2% 물가목표·r·자산 밸류에이션의 새로운 균형을 둘러싼 레짐 전환 논의*

이 세 축이지 않을까 하며, 동시에 

  • 지금의 변동성은

    – 단순한 버블 붕괴 전조라기보다,
    “AI CAPEX–달러–재정”이 만들어내는 새로운 균형점이 어디인지를 찾아가는 과정이고,
    – 그 과정에서 분배·정치·규제 리스크가 r*와 밸류에이션에 어떤 방향으로 작용하느냐가 향후 5~10년을 가를 핵심 변수라는 점이지 않을까 한다. 



1. 단기 국면: 나스닥 변동성과 리사 쿠크 발언

지난밤 미국 시장에서 나스닥지수는 장전에는 +2% 중반까지 올랐다가, 장 마감에는 -2% 중반까지 밀리며 장중 변동성이 약 **5%**에 달했다.

엔비디아 실적 발표 이후 한동안은 AI bubble 논란이 다소 진정되는 듯했지만,
뒤이은 매크로 지표, 금리 레벨, 포지션 정리, 옵션 수급 등이 겹치면서 장 후반 리스크 오프가 크게 나타난 것으로 보인다.

이 과정에서 FOMC 이사 **리사 쿠크(Lisa Cook)**의 발언은 시장 심리에 부담을 더하는 요인으로 작용했을 가능성이 있다.

쿠크는 특정 종목이나 AI 섹터만 콕 집기보다는, 보다 넓게 다음과 같은 메시지를 반복해 왔다.

  • 자산가격 고평가
    주식·부동산 등 여러 자산의 밸류에이션이 역사적 평균을 상회하고 있으며, 일부 섹터는 특히 높은 수준에 올라와 있다고 본다. 이런 구간에서는 성장 둔화나 충격 이벤트 발생 시 급격한 가격 조정(sharp declines) 가능성이 커진다고 경고한다.

  • 헤지펀드의 국채 ‘만기 불일치’ 리스크
    단기 레포로 장기 미 국채 포지션을 레버리지하는 basis trade가 확대되면서, 만기 불일치와 레버리지 확대가 국채시장 유동성 스트레스와 결합할 경우 시스템 리스크가 커질 수 있다고 본다.

  • AI 기반 트레이딩의 양면성
    알고리즘·AI 트레이딩이 유동성과 가격발견에 기여하는 한편, 동일 모델·전략이 동시에 움직일 경우 과거 ‘플래시 크래시’와 유사한 급변동을 증폭시킬 수 있다고 경고한다. 특히 생성형 AI를 활용한 초고속 전략 개발 확산이 시장 참여자들의 동조화·변동성 확대를 키울 수 있다는 우려이다.

  • 통화정책 스탠스
    2024년 9월 이후 약 100bp 인하로 통화정책의 제약 정도는 줄었으나, **중립금리(neutral)**에 가까워질수록 인하 속도를 점진적으로 늦추는 것이 적절하다고 본다. 즉, 자산가격·헤지펀드·AI 트레이딩 등 금융불균형을 감안한 ‘점진적 추가 완화’ 쪽에 서 있는 인물이다.

쿠크는 바이든이 임명한 연준 이사이자, 동시에 트럼프가 해임을 시도했던 이사라는 정치적 맥락까지 갖고 있다.

단기적으로 보면, 이런 발언과 정치적 갈등은 자산시장에 **“정책 당국도 밸류에이션을 불편해한다”**는 신호를 주면서 변동성을 키우는 방향으로 작동하고 있다.

다만, 자산 밸류에이션을 볼 때 단순한 가격 수준만으로는 충분하지 않다.
그 배경에 깔린 달러 통화체제·재정·유동성 구조를 같이 봐야 현재 국면이 어디쯤 와 있는지 감이 잡힌다고 본다.


2. 중기 구조: AI CAPEX, 달러, 관세, 그리고 저축–투자 재조정

2-1. 미국 AI CAPEX와 달러 단일축


형식적으로는 복수 통화 체제가 존재하지만,
실제 글로벌 금융·무역·투자의 중심축은 여전히 달러에 강하게 편중된 단일축 체제에 가깝다.

지금은 특히,

  • 미국이 AI CAPEX로 글로벌 성장의 최전선에 서 있다.

  • 다른 주요 경제대국들도 AI 투자를 늘리고 있지만,
    규모·속도 면에서 미국 수준에 도달하지 못하고 있다.

이 말은 곧, 새로운 성장의 상당 부분이 달러 자산·달러 결제·달러 조달을 중심으로 형성되고 있다는 뜻이다.

이 흐름을 단순화하면 다음과 같다.

미국 AI CAPEX 확대
→ 미국 성장·생산성 기대 상승
→ 미국 자산·달러 자산 선호 강화
달러 기축지위 및 달러 수요 재확인

AI CAPEX가 실질 투자와 생산성 향상을 수반하는 성장 스토리인 만큼,
달러는 단순한 “옛 관성의 기축통화”를 넘어서
**“AI 경제의 중심 통화”**라는 성격까지 더해가고 있다고 볼 수도 있다.

2-2. 재정·부채·통화와 자산 밸류에이션

미국 재정은 이미 만성적인 재정적자·부채 증가 국면에 들어와 있다.

여기에 트럼프식 관세가 더해지면, 직접적인 충격은 오히려 무역상대국에 더 크게 전가된다.

미국의 일방적 관세 인상은
→ 대미 수출 의존국의 경기 둔화 우려를 키우고
→ 자국 통화가 달러 대비 약세로 밀리게 만들며
→ 그 결과 수입물가·에너지·원자재 가격을 끌어올리고
→ 실질소득 악화와 내수 성장률 둔화를 초래한다.

경기 둔화가 심화될수록 해당 국가는
→ 경기 부양·지원지출 확대 압력에 직면하고
→ 이를 감당하기 위한 자국통화 표시 국채 발행을 늘리게 되어
→ 재정적자와 국채발행 압력이 동시에 커지는 구조에 빠지기 쉽다.

문제는, 이렇게 무역상대국의 재정·부채 부담과 통화가치 불안이 커질수록
자국 통화·자국 국채에 대한 신뢰는 약해지고,
오히려 달러 유동성과 달러 안전자산에 대한 수요가 더 강해진다는 점이다.

변동성이 커질수록
각국 중앙은행·정부는 달러 스왑라인·달러 준비금을 더 원하게 되고,
민간 투자자 입장에서도 “결국 마지막에 기대는 기준 자산”은 여전히 미국 국채·달러라는 인식이 강화된다.

따라서 자산 밸류에이션은 단순히
“주가가 비싸냐, 싸냐”의 문제가 아니라,

트럼프 관세
→ 무역상대국 통화가치 하락·수입물가 상승·성장 둔화
→ 추가 재정지출·자국 국채발행 증가
→ 금리·환율 변동성 확대와 자국 자산 신뢰 약화
→ 각국의 달러 수요·달러스왑 의존 심화
→ 달러 기축체제 재확인, 달러 자산에 대한 구조적 수요 유지

라는 흐름 속에서 이해할 필요가 있지 않나 싶다. 

2-3. 구조적 침체, r*, 그리고 AI CAPEX의 역할

지난 수십 년간의 구조적 침체(secular stagnation) 논의와
실효이자율(r*) 장기 하락을 함께 보면, 여러 요인이 있었다.

  • 인구 고령화·수명 연장

  • 소득·부의 불평등 확대에 따른 저축 과잉

  • 안전자산 부족

  • 총요소생산성(TFP) 둔화

  • 실물투자 기회의 부족

이 중 “그럴듯하면서도 정책적으로 건드릴 수 있는 변수”가 바로 실물투자이다.

과거에는 마땅한 대규모 투자처가 부족해

  • 유동성이 부동산·기타 비생산적 자산으로 쏠리고,

  • 이는 자산 양극화·세대 격차를 심화시키며,

  • 다시 정치·재정 구조를 왜곡하는 악순환을 낳았다.

지금의 AI CAPEX는 이 그림을 일부 바꿔 놓을 수 있는 변수이다.

  • 데이터센터, 반도체·전력 인프라, 네트워크 설비

  • AI 모델·소프트웨어·클라우드·서비스

  • 관련 인력·교육·R&D

까지 합치면, 이는 단순한 금융자산 투자가 아니라 실질적인 생산성 향상을 수반하는 투자이다.

이 흐름을 정리하면 다음과 같다.

AI CAPEX 확대
→ 실물투자·생산성 기대 상승
→ 성장률·r*(실질 중립금리) 상방 요인
→ 장기명목금리 구조적 하방 압력 일부 완화
“저성장·저금리·저물가 트랩”에서 한 단계 벗어날 여지


AI CAPEX 하나로 모든 구조적 문제가 해결된다고 보기는 어렵지만,
r*와 장기금리를 보다 건전한 수준으로 끌어올릴 수 있는 핵심 축 중 하나로 볼 수 있다는 점은 중요하다.

2-4. 트럼프 관세, 환율 불안, 달러스왑, 그리고 자본 흐름

트럼프 관세정책은
표면적으로는 글로벌 교역 위축·비용 상승·성장 둔화 요인이다.
그러나 동시에 환율·국채·재정 신뢰를 흔들면서,
각국이 더욱 달러에 의존하도록 만드는 역설적인 효과를 낳고 있다.

간단히 정리하면,

관세 확대·환율 불안정
→ 각국 통화·국채에 대한 불안
→ 중앙은행·정부의 달러스왑·달러 보유 수요 증가
→ 위기 시 “마지막 안전판”으로서 달러 의존 심화
달러 기축지위의 단기·중기적 강화

 

한편,
유럽·아시아 일부 국가에서는 오랫동안 과잉저축·경상흑자가 지속되었고,
그 자금의 상당 부분이 부동산 등 비생산적 자산에 묶여 있었다.

이제

  • 트럼프 관세,

  • 공급망 재편(리쇼어링·프렌드쇼어링),

  • 미국발 AI CAPEX 붐
    이 겹치면서,

글로벌 과잉저축 일부
→ 미국·북미 AI 관련 설비투자·FDI·포트폴리오 자금으로 이동
→ 비생산적 자산에 묶여 있던 부의 일부가 생산적 실물투자로 전환
저축–투자 미스매치 완화에 일정 부분 기여

라는 시나리오를 상정해 볼 수 있다.

요약하면,

  • 단기 이벤트 레벨에서는 관세와 환율 불안이 분명 성장·무역에 부정적이다.

  • 그러나 구조 레벨에서는,
    **“달러를 중심으로 한 AI CAPEX 투자 사이클”**에
    글로벌 자금을 끌어들이는 힘으로 작용하고 있다는 점도 함께 보아야 한다고 생각한다.


3. 전략적 시사점: 2% 물가목표, 금리 경로, 그리고 AI CAPEX

3-1. 2% 물가목표에 대한 중장기 논의 여지

현재 연준은 공식적으로 2% 물가목표를 유지하고 있으며, 단기적으로 이 목표를 변경할 조짐은 없다.
다만 그 목표가 작동하는 경제의 구조 자체가 달라지고 있다는 점이 중요하다.

무엇보다도 전 세계적인 뚜렷한 공통분모이자 가장 크게 기저에서 작용하는 요인
바로 선진국의 고령화와 베이비붐 세대의 본격적인 은퇴이다.
이 조합은 이제 더 이상 중립적이거나 디스인플레이션 요인이라기보다는, 구조적인 인플레이션 압력으로 작용할 가능성이 크다.

고령화·베이비붐 은퇴가 만들어내는 구조는 대략 다음과 같다.

  • 노동공급 축소와 숙련 인력 부족
    → 서비스·돌봄·의료·공공부문 중심으로 임금 바닥이 계속 올라가며,
    → 임금·서비스 인플레이션이 쉽게 꺾이지 않는 구조가 형성된다.

  • 저축에서 소비·인출로의 전환
    → 은퇴세대가 순저축자에서 순인출자로 돌아서면서,
    → 글로벌 저축 풀은 줄어드는 반면, 복지·의료·돌봄 수요는 늘어나
    → 실질금리와 인플레이션에 대한 상방 압력이 커진다.

  • 연금·의료·돌봄 관련 재정지출의 구조적 확대
    → 정치적으로 줄이기 어려운 지출이기 때문에,
    → 재정적자와 부채비율은 경기를 막론하고 유지·확대되기 쉽고,
    → 결과적으로 “약간 더 높은 명목성장·인플레이션”에 기대고 싶어지는 유인이 커진다.

여기에

  • 미국과 주요 선진국의 고부채 구조,

  • 미국발 AI CAPEX 사이클(대규모 설비투자·전력·인프라 수요),

  • 달러 기축체제 재확인으로 인한 달러·미국채 수요 유지

까지 더해지면, 장기적으로는 **“2%라는 숫자가 앞으로도 최적의 기준인가”**라는 질문이 다시 제기될 수밖에 없다.

3-2. 2%라는 숫자가 앞으로도 최적의 기준인가?

이때 가능한 논리는 여전히 두 갈래가 존재한다.

  1. 디플레 함정 회피·부채 관리 관점

실질 r*가 과거처럼 낮게 유지되기 어렵고,
고령화·복지지출·부채부담이 커지는 상황에서
너무 낮은 물가목표·실질금리는 오히려 재정·정치 압력을 왜곡시킬 수 있다.

이 관점에서는,

  • 베이비붐 세대 은퇴로 인한 구조적 인플레이션 요인을 전제로 하되,

  • 약간 더 높은 인플레이션과 실질금리,

  • AI CAPEX를 통한 생산성·성장 제고를 결합해

재정·통화정책의 운신 폭을 넓히려는 유인이 커진다.
형식적으로는 2%를 유지하더라도, 실제 운용은 2~3% 구간을 용인하는 레짐에 가까워질 수 있다.

  1. AI 생산성 향상·디스인플레이션 관점

AI CAPEX가 실제로 단위 비용을 낮추고 생산성을 끌어올린다면,
중장기적으로는 상품·제조업 부문의 디스인플레이션 압력이 강화될 수 있다.

다만 이 경우에도,

  • 고령화·은퇴로 인한 서비스·의료·돌봄 인플레이션,

  • 복지·연금 재정지출 확대로 인한 구조적 재정 압력

이 함께 존재하기 때문에, 2% 타깃을 “절대 상한선”으로 유지하는 것은 점점 더 현실과 괴리가 커질 가능성이 있다.

결국 2%는 ‘정확한 점’이라기보다, 하단에 가까운 기준점으로 인식될 여지가 생긴다.


요약하면,

  • 고령화·베이비붐 은퇴,

  • 고부채·고재정의 시대,

  • AI CAPEX와 달러 기축체제의 재확인

이 겹치는 환경에서는, **“AI 경제·고령화·고부채 시대의 적절한 물가목표와 실질금리 수준은 어디인가”**라는 질문을 피하기 어렵다.

2% 물가목표는 형식적으로는 유지되겠지만,
실질적으로는 구조적으로 점차 구속력을 잃어가며,
2%를 중심으로 한 보다 넓은 인플레이션 밴드(예: 2~3%)가 사실상의 운용 레짐으로 자리 잡는 방향을 염두에 둘 필요가 있다고 생각한다.

3-3. 실무·투자 관점에서의 요약

마지막으로, 위 논의를 실무·투자 관점에서 한 번 더 요약하면 다음과 같다.

  1. 단기(이벤트·포지션 레벨)

  • 쿠크의 자산가격 경고, FOMC 이견, 관세·환율 뉴스 등은
    → 나스닥·빅테크·AI 관련 자산의 밸류에이션 조정·변동성 확대를 반복적으로 유발할 수 있다.

  • 이 국면에서는
    금리·달러·옵션 포지션의 기술적 요인을 함께 보면서,
    → “밸류에이션 디레이팅 vs 실적·CAPEX의 펀더멘털”을 구분해서 볼 필요가 있다.

  1. 중기(2~3년 horizon)

  • 미국발 AI CAPEX 사이클

  • 달러 기축체제 강화(달러스왑·안전자산 수요),

  • 트럼프 관세·공급망 재편을 통한 자본·투자 재배치를 합쳐 보면,

미국 AI CAPEX

  • 달러 중심의 자본배분
    = 미국 자산(특히 AI 가치사슬)에 대한 상대적 매력 유지

쪽에 무게가 실린다.

  1. 장기(5년+ horizon)

  • 구조적 침체·r* 하락,

  • 재정·부채 부담,

  • AI 생산성 효과,

  • 2% 물가목표 재논의 가능성까지 고려하면,

장기적으로는
– “영구 저금리–영구 저물가” 시나리오보다,
– “r*와 장기금리가 다소 높은 새로운 균형” + AI CAPEX 중심의 실물투자 사이클

쪽을 염두에 두는 편이 더 자연스러워 보인다.



정리하면,
지금의 금리발작과 매크로 이벤트는 단기 포지션 리스크를 키우는 요인인 동시에,
중장기적으로는
**“달러를 중심으로 한 AI CAPEX 시대의 새로운 균형”**이 어디에 자리 잡을지를 시험하는 과정이라고 볼 수 있다.

그 관점에서 보면,
현재의 변동성 구간은 단순한 버블 붕괴의 전조라기보다는
AI 투자와 달러 중심 체제가 얼마나 견고한지 검증하는 필수적인 통과 의례에 가깝다는 생각이 든다.


글을 마치며


최근 리처드 파인만의 생애를 다룬 책을 다시 읽었다.

파인만은 대화를 나누는 화자가 누구인지에는 큰 관심이 없었고, 오직 물리학과 그 내용 자체에만 집중했다고 한다.

그는 상대의 학력, 경력, 직위, 명예와 같은 권위의 외피에는 거의 신경을 쓰지 않았고, 논리와 증거만을 보았다.

그래서 오히려 당대의 유명한 물리학자들이 파인만의 의견을 더 구하려 했다는 이야기가 인상 깊다.

당대 유명한 물리학자들은 점점 높아지는 자신들의 위상과 명예에 짓눌려, 끝내는 그들의 생각에 반대할 생각은 못하고 “Yes”만 반복하는 주변환경에 지쳐 있었기 때문이다.

생각해 보면, FOMC 위원 중 한 명인 리사 쿠크의 발언을 보면서 나 역시 (내 주제에 감히라는 생각이 들면서도) “이 발언은 적절하지 못한 부분이 있다”는 판단을 비교적 단정적으로 내렸던 것 같다.

돌이켜 보면, 그 판단의 바닥에는 바이든 행정부와 민주당 정부 전반에 대한 강한 불신이 이미 깔려 있었던 것은 아닌가 하는 생각이 든다.

즉, 쿠크 개인의 발언 내용 그 자체만을 본 것이 아니라,
내가 가지고 있던 정치적·감정적 평가가 교묘하게 겹쳐지면서,
발언의 의도와 맥락을 더 부정적으로 해석하도록 나를 유도했을 가능성이 있다.

이러한 편향으로부터 자유롭긴 힘들다. 그렇기에 더욱 파인만이 그랬듯, 누구의 말이든 우선 내용 자체를 끝까지 밀어붙여 검증해 보는 태도를 흉내정도는 내보는게 일정부분 유용하긴 한 것 같다. 

=끝

2025년 11월 19일 수요일

생각정리 121 (* ABF)

최근 계속해서 반도체 기판을 공부하는 과정에서 ABF 기판에 흥미로운 지점을 발견해, 관련 내용을 정리해 두고자 한다.

특히 AI D/C용 CPU·GPU·ASIC 바로 아래에 위치하는 이 기판이 왜 이렇게 중요한지, 그리고 그 핵심 소재인 ABF 필름을 일본 아지노모토가 사실상 독점하고 있다는 구조가 어떤 의미를 갖는지에 초점을 맞춘다.


1. ABF는 기판 이름이 아니라 필름 소재의 상표명이다


먼저 용어부터 정리할 필요가 있다. 우리가 흔히 말하는 ABF 기판에서 ABF는 기판 이름이 아니라 소재 이름, 더 정확히는 상표명이다.

ABF는 Ajinomoto Build-up Film의 약자로, 일본 아지노모토 파인테크노가 개발한 **빌드업 절연재(레진 필름)**의 브랜드이다. 이 필름을 여러 층으로 쌓아 올린 뒤 그 위에 구리 배선을 형성하면, 우리가 알고 있는 ABF 계열 FCBGA 기판이 된다.


https://www.ajinomoto.com/ko/innovation/our_innovation/buildupfilm


https://www.ajinomoto.com/ko/innovation/our_innovation/buildupfilm

구조를 단순하게 정리하면 다음과 같다.

  • 아지노모토: ABF라는 **소재(빌드업 필름)**를 공급하는 업체

  • 기판사들: 이 소재를 구매해 가공하여 **ABF 기판(FCBGA 등)**을 제조하는 업체

즉, 지금 우리가 보는 서버·AI용 CPU·GPU·ASIC 패키지의 베이스에는 거의 예외 없이 ABF 계열 FCBGA가 깔려 있고, 그 기저에는 늘 아지노모토의 필름이 놓여 있는 구조이다.


2. ABF 기판사 시장 구조: 과점이지만 소재는 사실상 단독 공급


기판사 시장부터 보면, 글로벌 ABF 서브스트레이트 시장은 상위 몇 개 업체에 강하게 집중된 과점 구조이다.

여러 시장조사 자료를 종합하면:

  • 상위 5개 업체(Ibiden, Unimicron, Nan Ya PCB, Shinko, AT&S)가 전체의 약 70~75%

  • 상위 8개(여기에 Samsung Electro-Mechanics, Kinsus, Kyocera 추가)까지 포함하면 80% 이상


그 중에서도 Unimicron은 단일로 **약 20% 초반(21~22% 수준)**을 점유하며 1위를 차지하고,
Ibiden, Nan Ya PCB(NYPCB), Shinko, AT&S가 각각 10% 안팎을 나눠 가지는 그림이 반복적으로 등장한다.

삼성전기, Kinsus, Kyocera 등은 나머지 약 20% 안팎을 분할하고, 그 외 중소 기판사들의 비중은 한 자릿수로 제한된다.

따라서 현실적으로는

Unimicron이 1위(20%대), 그다음 일본(이비덴·신코)과 대만(NYPCB, AT&S)이 2~5위권을 형성하고, 나머지를 한국·대만 업체가 나눠 갖는 고집중 시장”

정도로 이해하는 것이 적절하다.




흥미로운 점은, ABF 기판사는 과점인데 정작 그 기판의 기반이 되는 ABF 소재(빌드업 필름)는 아지노모토가 사실상 100% 독점하고 있다는 구조이다. 이 “위는 과점, 밑은 독점”이라는 구조가 매우 인상적이다.


3. 왜 ABF 소재는 사실상 아지노모토 독점인가?


핵심 요지는 세 가지로 요약할 수 있다.

  1. 원천 개발 + 특허/레진 포뮬레이션 기술

  2. 수십 년 누적된 공정·신뢰성 노하우

  3. CPU/GPU 생태계 전체에 박힌 Design-in 효과와 높은 전환비용

3-1. 아지노모토의 원천 기술과 특허


ABF는 이름에서 드러나듯이, 1990년대 아지노모토가 독자 개발한 전자용 에폭시/필러 조성 기반 빌드업 필름이다.

1999년 한 대형 반도체 업체의 CPU용 서브스트레이트에 처음 채택된 이후, **고성능 CPU용 빌드업 절연재의 사실상 업계 표준(de facto standard)**로 자리 잡았다.

초기 핵심 특허들은 시점상 상당 부분 만료되었을 가능성이 크지만,

  • 레진 조성

  • 필러 선택 및 분산 기술

  • 필름 제조 공정

  • 가공성(레이저 드릴링, 도금, 현상·에칭 공정 적합성)


등과 관련된 개량 특허와 공정 노하우는 여전히 축적되고 있다.

특히 “어떤 조성·비율·공정 조건에서 원하는 수율과 신뢰성이 나오는가”라는 레벨의 노하우는 문서(특허)만 보고 따라잡기 어렵다.

3-2. 거의 100%에 가까운 점유율과 누적 데이터

아지노모토는 자사 자료에서 **“주요 PC용 고성능 CPU에 쓰이는 절연 필름 시장에서 점유율 거의 100%”**라고 표현하고 있으며,
외부 자료에서도 ABF 필름의 시장점유율을 95~100% 수준으로 보는 경우가 많다.

이 정도 수준의 독점에 가까운 상태가 수십 년간 지속되다 보니,

  • 기판 제조 공정(레이저 가공, 도금, 현상·에칭 조건)

  • 설계 툴에 들어가는 유전율·손실(Dk, Df), CTE, 흡수율 등의 모델 파라미터

  • 인텔, AMD, 엔비디아 등 주요 고객사의 신뢰성/내환경 평가 데이터

가 전부 ABF를 전제로 쌓여 있다.

새로운 필름으로 바꾸려면 이 모든 것을 다시 검증해야 하며, 이는 곧

“공정 재설계 + 신뢰성 재검증 + 수율 리스크”


라는 큰 리스크와 비용으로 귀결된다. 이 때문에 기판사·반도체 회사 모두 쉽게 소재를 바꾸지 못하는 구조가 형성된다.


3-3. 경쟁사는 없는가?


경쟁 시도가 전혀 없는 것은 아니다.

  • 해외: Sekisui Chemical, WaferChem, Taiyo Ink 등이 ABF 유사 빌드업 필름에 도전

  • 한국: 동진쎄미켐(DJBF), LG화학 등이 국산 대체재 개발 진행


하지만 글로벌 시장 점유율 측면에서 보면, 아지노모토 외 경쟁사들의 합산 비중은 1~2% 수준으로 평가되는 경우도 있다.

국내 업체들의 경우 기술 개발은 상당히 진척된 것으로 보이나, 양산성·대형 고객사 퀄 통과가 여전히 관건이다.

정리하면, 단순히 “특허 때문에 아무도 못 만든다”기보다는

  • 아지노모토가 처음부터 CPU용에 최적화된 조성·공정을 구축했고

  • 그 위에서 수십 년간 고객사와 함께 공정·신뢰성 데이터를 축적하며 락인을 만들었고

  • 이제는 다른 소재로 교체하려면 공정 재설계, 신뢰성 재검증, 수율 리스크를 감수해야 하는 상황이 되어 버린 것

이라고 보는 편이 현실적이다.

 즉, ‘만들 수 있는 것’과 ‘대형 CPU/GPU에 실제 채택되는 것’ 사이의 갭이 크며, 아지노모토는 후자의 진입장벽을 쌓아 올린 것이다.


4. 식품회사 아지노모토가 IT H/W의 핵심으로 들어온 의미


아지노모토는 본업이 식품회사이며, 아미노산·조미료 등에서 출발한 기업이다. 동시에 소재 연구개발에 강점이 있었고, 이러한 역량이 ABF라는 신물질 개발로 이어지며 IT 하드웨어 쪽으로 새로운 시장을 개척하였다.

지금은 Tech Migration(선단 공정 미세화)의 물리적 한계가 점차 드러나고, 그 대안으로 첨단 패키징의 중요성이 급격히 부각되는 시점이다. EMIB, Foveros, CoWoS, SoIC 등 첨단 패키징이 변화할 때 가장 먼저 적용되는 영역이 서버/AI용 CPU·GPU·ASIC 패키지이고, 이 패키지의 베이스는 거의 항상 ABF 계열 FCBGA이다.

결국,

“이 중요한 패키징 변곡점의 한가운데, 그 핵심 소재를 사실상 독점하고 있는 회사가 일본의 식품회사 출신 아지노모토이다”

라는 사실 자체가 구조적으로 매우 흥미롭다.

https://www.ajinomoto.com/ko/innovation/our_innovation/buildupfilm
ABF 개발과정


Ajinimoto 전체사업 내에서도 변방에 있던 ABF가 기여하는 기대이익도 상당히 높아진 수준 



5. 진짜 강한 기술 해자는 어디서 나오는가: 장비보다 소재, 특허보다 노하우


일반적으로 기술장벽은 해자 중에서 그리 깊지 않은 편으로 평가되곤 한다.
그러나 실제 가장 강력한 기술 해자는 장비사보다는 『Apple In China』 에서 언급했듯 공정 그 자체 내 내재되어 있거나 혹은 소재사에서 나오는 경우가 많다고 생각한다.

예전에 『TSMC 세계 1위의 비밀』 관련 내용을 보며 인상 깊었던 부분이 하나 있다.
TSMC는 **“정말로 우리만 할 수 있는 기술”**에 대해서는 굳이 특허를 내지 않는 경우가 있다는 것이다.

  • 특허를 낸다는 것은 곧 기술의 핵심이 세상에 일정 부분 공개된다는 뜻이고

  • 이는 언젠가 누군가에게 따라잡힐 수 있다는 반증일 수 있다

반대로, 타사가 쉽게 모방할 수 없는 공정 노하우는 특허로 남기기보다는 회사 내부의 ‘금고’에 넣어두는 것이 더 안전한 자산이 될 수 있다.

이 관점에서 보면, 최선단 기술 변화를 따라가야 하는 소재 회사들, 특히 반도체·디스플레이·패키징 등에서 전방 고객사의 까다로운 spec 변화를 장기간 맞춰 온 업체들의 경쟁력은 결국

“수년~수십 년에 걸쳐 전방 최선단 Tech 업체와 함께 쌓아 올린 공정·신뢰성 데이터, 그 과정에서 쌓인 레시피, 제조 노하우

그 자체라고 볼 수 있다.

이는 단순한 레시피(조성비) 이상의 축적된 경험 데이터와 피드백 루프이며, TSMC의 “굳이 특허를 낼 필요가 없는 공정 노하우”와 비슷한 결의 자산이라고 느껴진다.

고객사 입장에서는 시간이 흐를수록

  • 새로운 공급사로 전환할 때의 스위칭 리스크와 비용이 커지고

  • 기존 공급사와 축적된 설계·검증 데이터, 생태계 락인 효과는 점점 더 두터운 해자로 굳어진다.

ABF 소재 시장에서의 아지노모토는 이런 구조를 전형적으로 보여 주는 사례라고 할 수 있다.


6. AI DC 고집적·고전성비화와 소재사의 프리미엄화


최근 국내 소재·기판사 NDR 등을 들으며 흥미로웠던 점은,
AI Data Center(AIDC)가 점점 고집적화·고전성비화되면서 소재·부품에 요구되는 환경이 갈수록 가혹해지고 있다는 대목이다.

  • AIDC 업체들의 SPEC 요구 조건이 점점 까다로워지고

  • 이를 맞추기 위해 소재·부품사들도 고객 맞춤형 커스터마이징을 강화하게 되며

  • 그 결과 일부 소재·부품은 ASP와 마진이 올라가는 프리미엄 영역으로 이동한다.

이러한 변화는 보통 시장을

  • 범용(Commodity) 영역

  • 프리미엄(High-end, 커스터마이즈드) 영역


으로 양분시키는 방향으로 작동한다.

여기서 범용 소재사는 부가가치가 낮고 대체 가능성이 높기 때문에 매년 CR 압박에 시달리는 반면,
전방 AIDC사의 까다로운 SPEC 요구를 만족시키며 살아남은 일부 프리미엄 소재사들은 시간이 지날수록 오히려 단가와 마진을 올려받을 유인이 생긴다.

더 나아가, 이러한 프리미엄 소재사는

  • 축적된 공정·신뢰성 데이터가 고객사 입장에서는 곧 스위칭 전환 비용으로 작동하고

  • 시간이 흐를수록 이 데이터가 생태계 락인 효과를 강화하며

  • 궁극적으로는 기술장벽이자 경제적 해자로 굳어진다.

ABF-아지노모토 사례는 이러한 메커니즘을 가장 극단적으로 보여주는 소재 해자의 전형적인 케이스라고 볼 수 있다.


7. 마무리: 왜 더 파볼 만한 주제인가


정리하면,

  • ABF 기판 시장은 상위 5개 업체(이비덴, 유니마이크론, NYPCB, 신코, AT&S)가 전체의 70~75%를 차지하는 고집중 과점 시장이며, 그 중 유니마이크론이 약 20%대 점유율로 1위이다.

  • 그러나 그 위에 올라가는 ABF 소재(빌드업 필름)는 아지노모토가 95~100% 수준으로 사실상 독점하고 있고,

  • 이는 단순 특허가 아니라 레진 조성·필러·필름 제조·가공성·신뢰성까지 이어지는 화학·공정 노하우와, 그 위에 쌓인 막대한 설계·검증 데이터와 생태계 락인이 만들어 낸 결과이다.


결국, 전방 Tech 변화에 따라 SPEC이 끊임없이 바뀌는 환경에서, 그 요구를 가장 잘 따라가며 신뢰성 데이터를 축적한 일부 소재사들이 어떻게 해자를 두텁게 만들어 가는가라는 관점은 앞으로도 충분히 더 파볼 만한 주제라고 생각한다.

ABF와 아지노모토 사례는 그 중에서도 가장 상징적인 예시이고, 향후 AI 패키징·기판·소재 구조를 볼 때 좋은 기준축이 되어 줄 수 있는 듯하다.

=끝