NVIDIA 2026 GTC를 보고 기존에 대충 보고 넘어갔던 Groq LPU에 대해 먼저 정리해보고
그 다음 들었던 기술발전 방향 뇌피셜 생각을 시간순으로 두서없이 정리해본다.
NVIDIA GTC 2026에서 Groq LPU가 의미하는 것
AI 추론 시대의 병목은 이제 “연산량”보다 “지연시간”이다
NVIDIA의 최근 행보에서 중요한 변화가 하나 보인다.
이제 AI 인프라는 GPU 하나로 모든 것을 처리하는 구조에서, 역할을 나누는 구조로 조금씩 이동하고 있다는 점이다.
공개자료를 기준으로 보면 NVIDIA는 자체적으로는 Rubin CPX로 massive-context inference를 밀고 있고, 별도로 Groq와는 비독점 추론 기술 라이선스 계약을 체결했다. 따라서 NVIDIA가 inference stack을 더 세분화된 역할 분업 구조로 바라보고 있을 가능성은 높다.
이 변화가 중요한 이유는 단순히 칩 하나가 추가됐기 때문이 아니다.
핵심은 AI 추론의 병목이 바뀌고 있기 때문이다.
예전에는 “얼마나 많은 연산을 하느냐”가 더 중요했다.
앞으로는 “얼마나 빨리, 얼마나 일정하게 답을 내놓느냐”가 점점 더 중요해진다.
특히 에이전트형 AI, 실시간 AI, 물리 AI로 갈수록 이 변화는 더 선명해진다. (investor.nvidia.com)
1. 먼저 Groq가 어떤 회사인지 이해할 필요가 있다
Groq는 2016년에 설립된 AI 반도체 회사다.
이 회사의 출발점은 분명하다.
처음부터 훈련(training) 보다 추론(inference) 에 집중했다.
이 점이 중요하다.
AI 시장이 커질수록 모델을 한 번 학습시키는 것보다,
이미 학습된 모델을 얼마나 빠르게, 얼마나 싸게, 얼마나 많이 서비스하느냐가 더 중요해질 가능성이 높기 때문이다.
Groq는 바로 이 지점에 집중해 왔다.
즉, “AI를 똑똑하게 만드는 칩”보다 “AI가 실제로 답하게 만드는 칩” 쪽에 초점을 맞춘 회사라고 보는 편이 이해하기 쉽다. (groq.com)
2. Groq 창업자 Jonathan Ross를 이해하면 회사가 보인다
Groq를 이해하려면 창업자 Jonathan Ross를 먼저 봐야 한다.
Groq 공식 소개에 따르면 그는 구글에서 TPU effort를 20% 프로젝트로 시작했고, 1세대 TPU의 핵심 요소를 설계·구현한 인물이다.
이후 Google X의 Rapid Eval Team에서도 일했다. (groq.com)
이 이력은 매우 상징적이다.
Groq는 단순히 “구글 출신 엔지니어가 만든 스타트업”이 아니다.
조금 더 정확히 말하면, 구글 TPU 1세대가 던졌던 문제의식을 바깥으로 가져온 회사에 가깝다.
그 문제의식은 단순하다.
AI 추론은 CPU나 GPU처럼 범용 칩으로만 처리하면 비효율적일 수 있다는 것이다.
특히 사용자가 체감하는 응답속도, 즉 지연시간이 중요해질수록 이 문제는 더 커진다.
구글 TPU 1세대 논문도 같은 방향을 보여준다.
이 논문은 TPU를 데이터센터 추론용 ASIC으로 설명하면서, 큰 소프트웨어 관리형 온칩 메모리와 결정론적 실행 모델을 핵심 요소로 제시한다. Jonathan Ross도 이 논문의 공저자다. (research.google)
즉, Groq는 갑자기 등장한 회사가 아니다.
이미 TPU 시대부터 축적된 “AI 추론 전용 하드웨어 철학” 이 Groq로 이어졌다고 보는 것이 맞다. (research.google)
3. Groq가 지향한 기술의 핵심은 “초저지연”이다
Groq의 핵심 철학은 생각보다 단순하다.
AI 추론은 빨라야 한다.
그것도 평균적으로 빠른 것이 아니라,
항상 빠르게 반응해야 한다.
이 차이는 매우 크다.
사용자는 AI가 평균적으로 빠르다는 것보다, 내가 쓸 때 바로 반응하는지를 더 크게 체감한다.
특히 앞으로 중요해질 AI는 단순 챗봇이 아니다.
코딩 에이전트는 즉시 반응해야 한다.
실시간 음성 AI는 답이 늦으면 어색해진다.
로봇과 물리 AI는 반응이 늦으면 위험해질 수도 있다.
그래서 앞으로의 추론은 “많이 처리하는 능력”만으로는 부족하다.
낮은 지연시간과 일정한 응답성이 같이 필요하다.
Groq는 바로 이 지점에 집중했다.
공식 설명에서 LPU 아키텍처의 차별점으로 static scheduling, deterministic execution, chip-to-chip scaling, SRAM 중심 구조를 내세운다. (groq.com)
쉽게 말하면 이렇다.
GPU는 매우 뛰어난 종합 공장이다.
반면 Groq LPU는 특정 작업을 초고속으로 처리하는 전용 생산라인에 가깝다.
모든 것을 잘하는 대신, 추론의 특정 단계에서 아주 빠르고 일정하게 반응하도록 설계된 것이다.
4. 왜 LPU가 필요한가: 추론은 두 단계로 나뉜다
AI 추론은 크게 두 단계로 나눠 생각하면 이해하기 쉽다.
첫 번째는 프리필(prefill) 이다.
사용자가 입력한 긴 문장을 한꺼번에 읽고, 의미를 파악하고, 내부 상태를 만드는 단계다.
두 번째는 디코드(decode) 다.
이제 답변을 한 토큰씩 실제로 생성하는 단계다.
이 둘은 비슷해 보이지만 요구 조건이 다르다.
프리필은 긴 입력을 한꺼번에 읽기 때문에 대규모 병렬처리가 중요하다.
그래서 GPU가 잘한다.
반면 디코드는 한 번에 왕창 처리하기보다, 다음 토큰을 얼마나 빨리 뽑아내느냐가 중요하다.
여기서는 처리량보다 지연시간이 더 중요해진다.
바로 이 때문에 앞으로는
프리필은 GPU 중심,
디코드는 LPU 같은 저지연 전용 엔진 보완
이라는 구조가 자연스럽게 떠오른다.
GTC 2026에서 Rubin과 Groq LPU가 같이 언급된 것도 이 맥락에서 읽는 것이 가장 자연스럽다. (marketwatch.com)
5. 기존 GPU 안에도 온칩 SRAM은 있다
그런데 왜 Groq LPU가 따로 필요한가
이 질문이 가장 중요하다.
겉으로 보면 기존 GPU도 온칩 SRAM을 갖고 있다.
그렇다면 “그냥 GPU 안 SRAM을 더 늘리면 되는 것 아닌가”라는 생각이 들 수 있다.
하지만 차이는 SRAM의 존재 여부에 있지 않다.
핵심은 칩 전체를 어떤 철학으로 설계했느냐에 있다.
기존 GPU의 온칩 SRAM은 보통 고속 캐시 역할을 한다.
즉, 자주 쓰는 데이터를 잠깐 가까이에 붙잡아 두는 보조 저장공간에 가깝다.
전체 시스템은 여전히 범용 연산기로 설계되어 있다.
훈련도 해야 하고, 프리필도 해야 하고, 다양한 커널과 워크로드를 유연하게 처리해야 한다.
그래서 GPU는 구조적으로
“무엇이 들어와도 어느 정도 잘 처리하는 칩”에 가깝다.
대신 그 대가로 실행 경로가 복잡해지고,
메모리도 여러 계층을 오가며,
실행 도중 하드웨어가 그때그때 자원 배분과 스케줄링을 조정하는 구조를 갖게 된다.
반면 Groq LPU는 접근 방식이 다르다.
Groq는 아예 추론, 그중에서도 저지연 디코드를 중심에 두고 칩을 설계했다.
즉 SRAM이 보조 역할이 아니라, 칩 전체 데이터 흐름의 출발점이자 중심 인프라가 된다. Groq는 공식적으로 LPU의 차별점으로 SRAM design, static scheduling, deterministic execution, direct chip-to-chip connection을 제시한다. (Groq)
이 말은 단순히
“SRAM 용량이 많다”는 뜻이 아니다.
더 중요한 것은 다음 세 가지다.
첫째, 데이터를 꺼내오는 방식이 다르다.
기존 GPU는 큰 외부 메모리(HBM)와 여러 캐시 계층을 활용해 데이터를 가져온다.
반면 Groq는 자주 쓰는 데이터와 연산 흐름을 가능한 한 온칩 SRAM 중심으로 고정하려 한다.
즉, 데이터를 “필요할 때 찾아오는 구조”보다, 미리 준비된 작업대 위에 올려놓는 구조에 가깝다. (Groq)
둘째, 실행 순서를 정하는 방식이 다르다.
기존 GPU는 유연성이 강한 대신, 실행 도중에도 스케줄링과 자원 배분이 계속 일어난다.
반면 Groq는 컴파일 단계에서 실행 순서와 데이터 이동을 최대한 미리 정한다.
즉, “실행하면서 판단하는 칩”보다 **“실행 전에 이미 길이 정해진 칩”**에 가깝다.
Groq는 이를 static scheduling과 deterministic execution으로 설명한다. (Groq)
셋째, 칩과 칩 사이 연결 철학도 다르다.
GPU는 보통 칩을 여러 개 묶을 때 스위치, 네트워크, 메모리 계층을 함께 고려해야 한다.
반면 Groq는 LPUs가 직접 연결되어 여러 칩이 하나의 큰 코어처럼 동작하도록 설계했다고 설명한다.
즉, 칩 하나만 빠른 것이 아니라 칩 여러 개를 붙였을 때도 지연시간이 흔들리지 않도록 처음부터 구조를 잡았다는 뜻이다. (Groq)
비유하면 이렇다.
GPU는 큰 물류창고가 붙은 종합 공장이다.
다양한 일을 할 수 있다.
하지만 작업자가 창고에서 자재를 가져오고, 공정 순서를 조정하고, 현장에서 유연하게 배치하는 비용이 든다.
LPU는 작업대 옆에 필요한 부품을 미리 다 붙여놓고,
작업 순서도 공장 가동 전에 다 정해 둔 초고속 조립라인에 가깝다.
유연성은 줄 수 있지만, 그 작업에서는 훨씬 빠르고 일정하다.
즉, Groq의 차별점은
“온칩 SRAM이 많다”가 아니라,
“SRAM을 중심으로 데이터 흐름, 실행 순서, 칩 간 연결까지 다시 설계한 추론 전용 기계”라는 데 있다. (Groq)
6. 물리적으로 왜 더 빠른가
이제 한 단계 더 들어가 보자.
AI 추론에서 병목은 생각보다 연산 자체보다 데이터 이동에서 자주 생긴다.
멀리 있는 메모리에서 데이터를 가져오고,
다시 계산하고,
다시 읽고 쓰는 과정에서 시간이 걸린다.
특히 디코드 단계는 토큰을 하나 만든 뒤, 그 결과를 반영해 또 다음 토큰을 만들어야 한다.
즉 짧은 연산과 짧은 메모리 접근이 계속 반복된다.
이럴 때는 “한 번에 많은 연산을 할 수 있느냐”보다
한 토큰을 만들 때 불필요한 대기 시간을 얼마나 줄였느냐가 더 중요하다.
Groq LPU가 빠른 이유는 바로 여기에 있다.
핵심은 계산기를 더 많이 넣은 것이 아니라, 기다리는 구간을 줄였다는 점이다.
조금 더 구체적으로 보면, Groq가 재설계한 부분은 크게 네 가지다.
1) 메모리의 위치를 바꿨다
가장 자주 쓰는 데이터를 가능한 한 칩 안, 즉 SRAM 가까이에 둔다.
이렇게 하면 외부 메모리까지 왕복하는 횟수가 줄어든다.
쉽게 말하면
멀리 있는 창고를 오가는 대신,
필요한 부품을 손 닿는 곳에 둔 것이다.
디코드 단계는 이런 “짧고 반복적인 참조”가 많기 때문에
이 차이가 지연시간에서 크게 벌어진다.
Groq는 LPU를 SRAM 중심 설계라고 설명하고, Google TPU 1세대 논문도 large software-managed on-chip memory를 추론용 ASIC의 핵심으로 제시했다. (Groq)
2) 캐시에 맡기지 않고, 데이터 흐름을 더 직접 통제한다
기존 GPU는 캐시 계층이 복잡하고, 어떤 데이터가 언제 캐시에 남을지 런타임 상황의 영향을 받는다.
이 구조는 범용성에는 좋지만, 특정 요청에서는 지연시간이 흔들릴 수 있다.
반면 Groq는 가능한 한 소프트웨어와 컴파일러가 데이터 이동을 더 직접 통제하는 방향을 택한다.
즉 “운 좋게 캐시에 있으면 빠른 구조”보다,
**“애초에 필요한 데이터가 어디에 있을지 알고 움직이는 구조”**에 가깝다. (Groq)
3) 실행 순서를 미리 고정한다
기존 범용 칩은 실행 도중에도
어떤 연산을 먼저 처리할지,
어느 자원을 비울지,
어떻게 병렬화할지를 계속 조정한다.
이건 유연성에는 좋지만,
짧은 작업을 반복하는 디코드에서는 오히려 부담이 된다.
Groq는 이를 줄이기 위해 컴파일 단계에서 실행 경로를 미리 짠다.
그래서 칩은 실행 중에 “다음에 뭘 할까”를 덜 고민하고,
정해진 순서대로 바로 움직일 수 있다.
이것이 deterministic execution의 핵심이다. (Groq)
4) 칩 간 연결도 조립라인처럼 만든다
칩 하나만 빠르면 끝나는 것이 아니다.
AI 추론은 여러 칩이 같이 일해야 하는 경우가 많다.
이때 GPU 계열 구조는 칩 간 통신과 메모리 일관성 관리가 중요해진다.
반면 Groq는 칩 사이에도 assembly line 같은 흐름을 만들고, 직접 연결 구조를 통해 여러 칩이 하나의 단일 코어처럼 동작할 수 있다고 설명한다.
즉, 칩이 늘어나도 가능한 한 데이터 흐름이 끊기지 않게 하려는 것이다. (Groq)
결국 요약하면 이렇다.
기존 GPU는
**“범용성을 위해 복잡성을 받아들인 구조”**다.
반면 Groq LPU는
**“저지연 추론을 위해 복잡성을 미리 컴파일 단계로 넘긴 구조”**다.
그래서 LPU는 “엄청나게 큰 계산기”라기보다,
“데이터를 기다리는 시간을 줄이고, 실행 중 판단 비용을 줄인 계산기”라고 이해하는 편이 더 정확하다. (Groq)
7. 왜 이런 초저지연이 AI 추론 시대에 더 중요해지는가
앞으로 AI는 더 넓게 퍼질 가능성이 높다.
토큰 단가는 내려가고,
모델 성능은 올라가고,
서비스 종류는 더 많아질 것이다.
그러면 사람들은 AI를 단순 검색처럼 쓰지 않는다.
더 길게 대화하고,
더 복잡한 일을 시키고,
반복적으로 호출하고,
에이전트처럼 계속 일을 맡기게 된다.
그 결과 두 가지 요구가 동시에 커진다.
하나는 긴 컨텍스트다.
AI가 앞의 대화를 오래 기억해야 한다.
다른 하나는 즉각 반응이다.
기억은 길어지는데, 반응은 더 빨라야 한다.
이 둘이 동시에 커지면 기존 GPU 중심 구조만으로는 최적화가 점점 어려워질 수 있다.
바로 이 지점에서 GPU와 LPU의 역할 분업이 설득력을 갖기 시작한다.
8. 앞으로는 프리필과 디코드가 더 분업될 가능성이 있다
내 생각에 기술의 진화 방향은 점점 더 분업 구조로 갈 가능성이 높다.
프리필 단계에서는 긴 문맥을 한꺼번에 읽고 계산해야 한다.
이 단계는 여전히 GPU + HBM 중심 구조가 가장 강하다.
하지만 긴 컨텍스트가 길어질수록 KV cache가 폭증한다.
그러면 HBM만으로는 용량과 경제성을 모두 맞추기 어려워진다.
그래서 앞으로는 KV cache를 중심으로
HBM -> DRAM -> 외부 저장공간(SSD/NAND)
같은 메모리 계층화가 더 중요해질 가능성이 높다.
실제로 NVIDIA는 KV cache 오프로딩을 CPU RAM, 로컬 SSD, 네트워크 저장소까지 확장하는 방향을 설명하고 있다. (investor.nvidia.com)
즉 프리필의 병목은 단순히 GPU 로직칩 내부에만 있지 않다.
이제는 GPU와 메모리 전 계층 전체가 함께 움직이는 문제가 된다.
여기서 중요한 것이 하나 더 있다.
메모리 계층이 길어질수록, 결국 병목은 메모리 칩 자체뿐 아니라 계층 사이를 연결하는 인터커넥터에서도 생긴다.
HBM과 GPU 사이, GPU와 CPU 메모리 사이, 랙 내부의 가속기 사이, 더 나아가 랙과 랙 사이까지 모두 연결 비용이 커진다.
이 연결이 느리거나 전력 소모가 크면, 아무리 좋은 연산칩과 메모리를 써도 전체 시스템 효율은 떨어진다.
그래서 앞으로는 메모리 계층화와 함께 인터커넥터의 진화도 중요해진다.
초기에는 여전히 고속 copper 기반 연결이 주력이겠지만, 데이터 처리량이 계속 폭증하면 더 긴 거리에서 더 낮은 손실과 더 나은 전력 효율을 위해 optics, 즉 광 인터커넥트의 비중이 점점 커질 가능성이 높다.
이것은 단순히 속도를 높이기 위한 변화가 아니라, 전력 소모를 줄이고 지연시간을 안정화하기 위한 변화이기도 하다.
반면 디코드 단계는 다르다.
여기서는 실질적으로 토큰을 생산한다.
따라서 중요한 것은 총 처리량보다 다음 토큰을 얼마나 빨리 내놓느냐다.
그래서 앞으로는
프리필은 GPU + 메모리 계층,
디코드는 GPU + LPU
이런 식의 역할 분업 구조가 점점 강화될 가능성이 있다.
이때도 인터커넥터는 중요하다.
프리필에서 만들어진 상태와 KV cache 일부를 디코드 엔진 쪽으로 빠르게 넘겨야 하기 때문이다.
즉, GPU와 LPU를 붙인다는 것은 칩 하나를 더 추가하는 문제가 아니라, 칩과 메모리, 칩과 칩, 랙과 랙 사이의 연결 구조까지 함께 재설계하는 문제다.
특히 실시간 반응이 중요한 Physical AI 환경에서는 이런 구조가 더 중요해질 수 있다.
즉, NVIDIA의 Groq LPU 도입은 GPU를 대체하려는 움직임이라기보다,
GPU만으로는 잡기 어려운 저지연 추론 수요를 보완하려는 방향으로 해석하는 것이 가장 자연스럽다. (groq.com)
9. 이 변화는 반도체만의 이야기가 아니다
기판 산업에도 직접 연결된다
이 아키텍처 변화는 칩 업체만의 문제가 아니다.
오히려 기판 산업에도 상당히 큰 영향을 줄 수 있다.
이유는 단순하다.
1) 신호 무결성 문제: 더 많은 칩, 더 빠른 링크, 더 긴 메모리 계층.
2) 전력/열 문제: 저지연 inference일수록 순간 전력·발열 관리 중요.
3) 패키지/보드 설계 문제: GPU-HBM뿐 아니라 CPU, SSD, NIC, 광모듈까지 포함한 시스템 레벨 최적화.
4) 소재 업그레이드 문제: 저손실 CCL, 고다층 MLB, advanced packaging substrate.**
그렇게 되면 기판은 더 많은 것을 동시에 만족해야 한다.
첫째, MLB 고다층화가 필요하다.
신호선과 전력선이 많아질수록 층수를 더 늘려야 한다.
둘째, 집적화가 필요하다.
더 많은 칩과 더 많은 메모리를 좁은 공간 안에 넣어야 한다.
셋째, 신호 무결성이 중요해진다.
속도가 빨라질수록 신호 손실과 간섭이 치명적이 된다.
넷째, CCL 고기능화가 필요하다.
더 낮은 손실, 더 높은 절연 특성, 더 나은 열 특성을 가진 소재가 중요해진다.
즉, 앞으로의 기판 수혜는 단순한 물량 증가만이 아니다.
더 높은 사양과 더 높은 기술 난도가 핵심이 된다.
이 점은 매우 중요하다.
AI 서버가 복잡해질수록 진짜 수혜를 보는 것은 단순히 칩을 많이 파는 쪽만이 아니라,
그 칩들이 제대로 동작하도록 받쳐주는 기판과 소재 체계일 수 있기 때문이다.
10. 결국 NVIDIA 아키텍처 변화가 뜻하는 것
이 변화의 본질은 생각보다 명확하다.
NVIDIA는 이제 단순히 더 큰 GPU를 만드는 방향만 보고 있지 않다.
오히려 데이터 이동 거리를 줄이고,
병목을 줄이고,
에너지 효율을 높이는 방향으로 시스템을 재구성하고 있다.
이 점은 이전에 정리했던
AI+HW 2035: Shaping the Next Decade의 문제의식과도 정확히 맞닿아 있다.
미래의 AI 인프라는
연산 유닛만 계속 키우는 구조로 가지 않는다.
대신,
데이터를 더 가까이 두고
필요한 작업만 전용 엔진으로 처리하고
메모리 계층을 더 정교하게 나누고
칩과 칩, 메모리와 메모리 사이 연결을 더 효율적으로 바꾸고
copper 기반 연결은 더 고속화하고, 필요한 구간은 optics로 옮겨가며
시스템 전체의 이동 비용과 전력 소모를 줄이는 방향
으로 진화할 가능성이 높다.
Groq LPU의 의미도 바로 여기에 있다.
이것은 단순히 새로운 칩 하나의 등장이 아니다.
AI 추론 시대의 병목이 어디에 있는지, 그리고 그 병목을 어떻게 풀 것인지를 보여주는 하나의 방향 제시다.
마무리
AI 인프라는 더 큰 단일 가속기를 향해 가는 것이 아니라, prefill/decode 분리, KV cache 계층화, latency-optimized execution, 그리고 시스템 차원의 데이터 이동 최소화를 중심으로 분화되고 있다.
Groq LPU는 그중 특히 decode/real-time inference 병목을 겨냥한 한 사례이며, NVIDIA 역시 Rubin CPX와 Dynamo를 통해 같은 문제를 다른 방식으로 풀고 있다.
결국 NVIDIA의 아키텍처 변화가 보여주는 방향은 분명하다.
AI 인프라는 이제 더 많이 계산하는 구조에서, 더 짧게 이동하고 더 효율적으로 연결되며 더 안정적으로 반응하는 구조로 진화하고 있다.
마지막으로 여러 기술발전 방향과 그 변화 속도에 대해 회의감을 드러내는 리포트 및 기사에 속지(?) 않기 위해 기초공부를 꼼꼼히 해둬야 겠다는 생각이 계속 든다.
=끝
댓글 없음:
댓글 쓰기