팔란티르 테크놀로지의 알렉스 카프가 현상에서 근원 원인으로 파고드는 방식에 영감을 받아, 나 역시 그의 시선을 빌려 SEC에 관해 그간의 생각 및 망상에 가까운 뇌피셜을 정리해 기록해본다.
마침 전자신문에 “삼성 ‘1c D램’ 수율 70% 도달…HBM4 양산 임박”이라는 보도가 있었다.
SEC는 과연 이번 HBM4 양산에 성공해 그간의 설욕을 씻을 수 있을까?
위 질문에 대한 내 대답은 '아직 모르겠다' or '아닐것 같다'에 가깝지 않나 싶다.
삼성 '1c D램' 수율 70% 도달…HBM4 양산 임박 - 전자신문 |
SEC는 왜 HBM에서 두각을 나타내지 못했고 DRAM 선단공정 경쟁에서도 뒤로 밀렸는가?
연초 엔비디아 젠슨 황은 그 이유를 단호하게 **‘엔지니어 역량 부족’**이라고 지적했다. 그는 SEC 공정을 신뢰할 수 없고 SEC 엔지니어를 믿기 어렵다는 취지의 공개 발언도 서슴지 않았다.
그렇다면 왜 SEC의 엔지니어 역량이 약화되었는가?
첫째로 ‘삼무원’ 문화를 들겠다. 이건희 회장 시절 SEC는 강력한 성과급으로 유명했지만, 시간이 흐르며 포괄임금제 도입 등으로 인센티브가 약화되었고 사내 안일주의가 퍼졌다. 그 결과 공정 내 장비 메인터넌스 문제가 발생했을 때, SEC 사내 엔지니어들은 자기 시간과 노력을 들여 해결하려는 의지는 줄어들고, **“비용 최소화”**라는 상부 기조에 따라 유지보수를 광범위하게 외주화했다. 장기간의 외주화는 사내 핵심 기술 축적을 가로막아 엔지니어 역량을 정체·후퇴시키는 방향으로 작용했을 것이다.
둘째는 기술탈취(리버스 엔지니어링) 문화이다. SEC 내부에는 리버스 엔지니어링을 전담하는 장비개발팀이 있다고 한다. 외산 시제품과 장비를 매입해 복제·자체 조달하는 관행이 만연했고, 근원적 기술 고민 없이 복제된 장비는 양산 라인에서 안정적으로 돌아가지 않았다.
더구나 자체 엔지니어링 역량이 약화되어 공정 문제가 터졌을 때 제대로 대처하지 못했고, 이는 수율 저하로 직결되었다. 리버스 엔지니어링 장비의 납품 대수만 늘어날수록 평균 품질은 하락했고, 문제 발생 시 즉각적·정확한 대응이 어려워 각 라인이 땜질식 임시대응에 의존하면서 라인 간 균일성이 무너져 선단공정 경쟁에서 뒤처짐이 심화되었다. HBM 이전 시대까지는 그럭저럭 버텼을지 모르나, 전성비가 핵심이 된 시점에 이 적체된 생산공정 내의 문제가 한꺼번에 수면 위로 떠오른 것이다.
셋째는 분절된 시스템 문화이다. 기술 경쟁에서 밀리고 부서 이익이 하락하자 이직이 잦아졌고, 핵심 인력 유출 시 핵심 기술의 외부 유출을 막겠다며 부서 간 의사소통 장벽을 높이는 방침이 내려졌을 가능성이 있다.
여기에 부서별 성과평가가 직접적으로 연동되면서 전체 수율 저하의 원인을 특정 부서에 전가하려는 책임 떠넘기기가 발생했고, 부서 이기주의가 만연하였다. 그 결과 누가 책임자인지부터 다투는 문화가 굳어졌고, 교차 검증과 공동 문제 해결을 위한 정보 공유는 축소되었으며, 사내 의사소통의 벽은 시간이 갈수록 더 높아졌다.
그러나 선단공정으로 갈수록 공정 간 협업은 필수이다. 반도체 8대 공정을 세부로 파고들면 공정당 수십~수백 단계가 나오고, 각 단계마다 수십 개 파라미터를 제어해야 한다. 예를 들어 이전 공정에서 변경한 셋팅값을 다음 공정부서가 정확히 인지하고 그에 맞게 파라미터를 보정해야 수율이 정상화된다. 의사소통 장벽을 높이는 결정은 반도체 공정에 대한 기초 이해가 부족한 의사결정에서 비롯되었을 가능성이 크다.
의사결정자는 누구인가?
나는 ‘삼무원’ 문화를 만든 지원부서라고 본다.
그렇다면 왜 지원 후선부서가 의사결정권을 장악했는가?
**COVID-19 이후 ‘원가절감 최우선’**이라는 최상부 지시로 지원부서의 권한이 비대해졌기 때문이다. 그 결과 NVIDIA가 HBM을 의뢰했을 때 SEC는 R&D 비용 증가, 웨이퍼 로스에 대한 부담, AI 시장에 대한 낮은 이해로 인해 전방 수요에 의구심을 품고 의뢰를 거절, 해당 개발부서를 아예 없애는 결정을 내렸다.
최상부에는 한때 기술 이해도가 낮아 초등학생도 알아들을 보고서를 요구하던 인물들까지 있었고, 그런 환경에서는 내부의 과장·허위성 개발 보고가 검증 없이 통과되었고, 그러다보니 사내 '구라보고'가 판을 치게된 것이였다는게 내 이해이다.
이 문제는 SEC 내부에서도 심각성이 인지되어 지금은 기술 이해도가 높은 의사결정자에게 전권이 주어졌다고 한다.
그러나 DRAM 설계를 주로 담당했던 그가, 공정에 대한 높은 이해만으로 적체된 공정 문제를 풀어낼 수 있을까?
이 질문에 대한 단서는 HBM의 ‘발열’ 이슈에서 찾을 수 있다. 왜냐하면 발열이 곧 성능·전성비 저하의 직접 원인으로 작동하고, 그 발열을 좌우하는 요인이 구조·공정·플랫폼 구현의 총합이기 때문이다.
먼저 기본 메커니즘을 짚는다. HBM은 얇은 칩의 다층 적층(3D) 구조로 TSV로 연결되고, 옆의 GPU/AI 칩과 밀착 패키징된다. 이때
-
스위칭 빈도·속도↑ → 동적전력↑ → 발열↑,
-
적층 구조·밀착 패키지 → 열 배출 경로 협소 → 체열↑,
-
인접 GPU 열 간섭 → 추가 발열
이 세 가지가 동시에 작동한다. 따라서 실제 현장에선 “저항이 커서 먼저 뜨거워진다”기보다는 많이·빨리 일하는 데서 생긴 발열이 먼저이고, 구조적으로 열이 빠지기 어려워 온도가 축적된다.
그다음 피드백 고리가 붙는다. 온도가 오르면 금속 저항↑ → (I²R) 손실↑ → 추가 발열이 발생하고, 동시에
– 리프레시 빈도↑ → 실효 대역폭↓,
– 보수적 타이밍·스로틀링 작동 → 성능↓,
– 누설·유지 전력↑ → 에너지/비트(pJ/bit) 악화가 연쇄적으로 일어난다.
즉, [스위칭·구조적 체열] → 온도↑ → [리프레시·누설·저항↑] → 스로틀링 → 성능·전성비 하락이라는 원인–결과 사슬이 명확하다.
이 관점에서 보면, SEC의 발열 이슈는 단일 원인 문제가 아니다. **HBM의 기본 구조(3D, TSV, 인터포저)**는 벤더 공통이므로, 차이는 그 위의 구현 디테일에서 갈린다. 구체적으로
– 스택 높이, 언더필/몰드재, I/O 전압 스윙, PHY 파라미터, 열경로 설계 같은 패키지·I/O 구현,
– 누설·동작전압 분포·리프레시 민감도 같은 단일 다이 공정·소자 특성,
– GPU와의 플랫폼 통합(시그널링 마진, 온도 센서 기반 제어, 리프레시 스케줄링)
이 합성적으로 발열·전력 특성을 결정한다. 그러므로 “기본구조 vs 공정”의 이분법이 아니라 구현·공정·플랫폼 공조 실패가 문제의 직접 원인이다.
사실관계 업데이트는 다음과 같다. 2024년 삼성 HBM3/HBM3E는 엔비디아 검증에서 열·전력 이슈로 난항을 겪었다는 보도가 있었고, 이로 인해 “경쟁사 대비 열관리 미흡” 인식이 형성되었다.
바로 여기서 조직·전략 차원의 인과가 이어진다. SEC는 여전히 **Time to Market(TTM)**을 우선시하여 근원 문제(구현·공정·플랫폼 공조)의 해소를 후순위로 두고, 고객사 퀄 테스트 통과를 목표로 검증 미완의 라인 준비를 서두르는 경향을 보인다. 결과적으로, 앞서 정리한 발열–성능–전성비 사슬이 반복되고, 검증 단계에서의 리스크가 커진다.
동시에 산업 수요 측 압력은 발열·전성비 요구를 더 가파르게 만든다. ‘생각하는·추론하는 모델’의 부상으로 추론 컴퓨팅이 새로운 스케일링 축이 되었고, 이에 따라 동일 비용 대비 토큰 산출량이 경쟁의 핵심 지표가 되었다. 이로 인해 H100–B200–B300으로 이어지는 세대 차이는 곧 추론 원가 격차로 직결되었고, 훈련 중심에서 추론 중심으로의 시장 전환 속에서 비용 우위가 승부를 가르는 결정 변수가 되고 있다. 동시에 AI 전용 데이터센터 부지·용수·전력 병목이 겹치며 한정된 리소스 내 교체수요 주기가 기존 3년에서 1년 이내로 단축되고 있다. 예컨대 B300이 같은 비용으로 10~30배 더 많은 토큰을 산출한다면 교체가 합리적 선택이 된다. 이러한 환경에서 발열 관리 실패는 즉시 전성비 악화로 이어져 원가·성능 경쟁에서의 탈락을 의미한다.
따라서 결론은 명확하다. SEC가 TTM을 앞세워 조직문화, 사내 체계 시스템, 그리고 공정 내 적체된 근본 과제(구현·공정·플랫폼 공조)를 뒤로 미루는 한, HBM에서 발열→전성비 악화→검증 리스크라는 인과 사슬은 끊기지 않는다. 그리고 인과 사슬이 끊기지 않는 한, 지속 가능한 경쟁력 확보는 요원하다.
그렇다면 문제가 많았던 HBM은 그동안 어떻게 팔렸는가?
AMD의 GPU 성능은 NVIDIA 대비 한참 뒤처졌지만, 최근 AMD가 OpenAI와 6GW 계약을 체결했다는 소식이 전해졌다. 이는 OpenAI의 250GW D/C 목표 대비 칩 부족으로 낙수효과가 발생했기 때문일 수 있다.
SEC도 마찬가지이다. HBM이 GPU 성능의 핵심임에도, AMD 쪽에서는 SEC HBM의 성능 한계를 이유로 자사의 GPU 성능이 잘 안 나온다는 후문을 낸 바 있다. 브로드컴으로 SEC HBM이 일부 판매된 것은 당시 요구 성능 수준이 높지 않았기 때문, 중국 판매도 유사한 맥락이었다. 이 모두 HBM이 부족했기에 발생한 낙수효과이다. NVIDIA를 제외한 고객사를 SEC가 ‘꽉 잡고 있다’는 평가는 설득력이 약하다. SEC HBM은 아직 경쟁사 대비 성능 열위이고, 근본 문제에 대한 해법도 불투명하다고 보는 것이 합리적이다.
보상 시스템을 자사주 인센티브로 전환하면 이 적체 문제가 풀릴까?
SEC 인사 재편을 보면 크게 바뀐 부분은 없다. 오히려 단기 실적 집착과 성과급 지향의 기존 문화가 강화될 위험이 있다. HBM 시장이 떠오르던 시점, 그들은 HBM로 인한 웨이퍼 쇼티지와 GDDR7 등 범용 DRAM 가격 상승을 이유로 굳이 HBM으로 빨리 넘어갈 필요가 없다는 판단을 내렸다. 앞으로 HBM은 더 많은 웨이퍼를 흡수하고, 단수가 높아질수록 로스가 증가해 웨이퍼 및 칩 가격이 상승할 가능성이 높다. 그들은 또다시 단기 이익과 성과급에 매몰되어 HBM 전환의 명분을 놓치고 방향을 잃을 위험이 있다.
지배구조 문제도 가볍지 않다.
SEC의 1대 주주는 현재 이사회에 등록되어 있지 않아 법적 책임이 없다. 장기적 안목을 책임질 자리의 부재이다. 더불어 이전 국정농단 사태로 수감 생활을 했던 인물이 현 정권에서 사법 리스크를 해소했기에, 그에게 SEC의 장기 발전에 100% 헌신할 유인·명분·능력이 충분한지 회의적이다.
Agentic AI로 인한 메모리 수요 폭증으로 단기 호황은 가능하겠지만, HBM 개발 이력과 진척도를 감안하면 HBM4에 대한 기대가 얼마나 유효한지는 불확실하다. 긍정적 뉴스가 잇따라도 전적으로 신뢰하기 어렵다. 혹여 내가 편향된 정보만 수용해 SEC를 과도하게 부정적으로 보고 있는지 스스로 점검할 필요도 있다. 그러나 7nm ‘장인’으로 놀림받으며 인텔이 장기적으로 쇠락했던 전철을 SEC도 밟을 수 있다는 기본적 의심은 여전하다.
결론적으로, SEC의 속살을 들여다볼수록 이 회사에서 장기적 경쟁우위를 찾기 어렵다.
엔지니어링 역량 약화(외주화·리버스 문화), 조직 간 분절과 커뮤니케이션 실패, 부서별 성과평가 연동이 낳은 책임 전가와 이기주의 심화, 원가절감 우선의 왜곡된 의사결정 구조, TTM 지상주의, 지배구조의 책임성 결여가 HBM 발열·전성비 문제와 선단공정 경쟁력 약화로 표출되었다. 구현·공정·패키지·플랫폼의 공조를 통한 근본적 체질 개선 없이는, 일시적 인증 통과나 호황이 구조적 약점을 가리기 어렵다. 따라서 HBM4의 단기 성과와 무관하게, SEC의 장기 경쟁우위 부재라는게 현시점의 내 개인적인 생각이다.
(물론 단기 주가 향방은 위의 내용과 별개이다.)
댓글 없음:
댓글 쓰기