지난 주말동안 각종 커뮤니티에 일리야 슈스케버의 최근 인터뷰 내용이 화제이다.
인터뷰 내용 중 AI의 새로운 발전방향 관련해 흥미로운 아이디어를 정리해볼까 한다.
| 나무위키 |
스케일링을 넘어서
기호주의 → 뇌 모방 → GPT-3, 그리고 “더 인간적인 가치함수”의 시대
이 글의 목표는 간단하다.
-
AI가 어디서부터 어떻게 여기까지 왔는지 큰 흐름을 정리하고,
-
왜 이제는 **“더 인간적인 가치함수(value function)”**가 중요한지,
-
그때 산업과 투자 방향이 어떻게 바뀔 수 있는지를 이야기하는 것이다.
I. 1차 전환: 기호주의에서 뇌 모방, 인공신경망으로
1. 기호주의(Symbolic AI)의 병목
초기 AI(1950~80년대)의 주류는 **기호주의(Symbolic AI)**였다.
구조를 간단히 정리하면 다음과 같다.
-
사람 연구자가
규칙, 논리식, 온톨로지(개념 간 관계), 지식 그래프를 직접 설계하고 -
**기계(컴퓨터)**는
그 규칙에 따라 추론만 수행하는 방식이다.
한마디로 요약하면,
“규칙은 사람이 다 짜 넣고,
컴퓨터는 그 규칙대로만 움직이는 구조”
이다.
문제는 현실 세계가 너무 지저분하다는 점이다.
-
예외가 많고
-
잡음(노이즈)와 애매한 상황이 많고
-
언어·지각·상식은
규칙 몇 줄로 다 표현하기 어렵다.
그래서 기호주의 AI는
-
이미지 인식
-
자연어 이해
-
일상적 상식 추론
같은 영역에서 근본적 한계를 드러내게 된다.
“사람이 규칙을 다 써 넣는 방식으로는
현실 세계 전체를 커버할 수 없다”는 사실이 드러난 것이다.
2. 뇌 모방 → 인공신경망(ANN)의 등장
이 병목을 넘기 위해 연구자들이 떠올린 생각은 단순했다.
“차라리 뇌를 흉내 내자.”
뇌에서 가져온 기본 요소는 대략 다음과 같다.
-
수많은 뉴런
-
뉴런 간의 시냅스 연결(가중치)
-
경험에 따라 달라지는 연결 강도(학습)
핵심 아이디어는 이렇다.
사람이 규칙을 모두 써 넣지 말고,
데이터를 많이 보여주면서 스스로 패턴을 배우게 하자.
이 구조의 특징은 다음과 같다.
-
언어·이미지·음성·추론을
**같은 구조(신경망)**로 처리할 수 있다. -
규칙이 아니라,
뉴런 사이의 연결 강도(가중치) 자체가 지식을 품는다.
이 아이디어를 수학적으로 구현한 것이
**인공신경망(ANN, Artificial Neural Network)**이다.
또한 1980년대에는
-
**역전파(Backpropagation)**라는 학습 알고리즘이 정식화되면서
“어떻게 가중치를 바꿔야 하는가”에 대한 이론이 완성되었다.
그 후
-
GPU 발전
-
대규모 데이터 축적
-
인터넷 텍스트·코드 폭발
이 세 가지가 겹치면서, 오늘날 우리가 아는
대규모 프리트레이닝 + 스케일링 중심 딥러닝 패러다임
이 만들어지게 된다.
정리하면,
기호주의(규칙 기반) → 뇌 모방(신경망) →
대규모 프리트레이닝 + 스케일링
이라는 1차 패러다임 전환이 이미 한 번 일어난 것이다.
II. 2차 점프: GPT-3, RLHF, 스케일링 법칙
이 1차 전환 위에서, GPT-3를 중심으로 하는 2차 점프가 나왔다.
1. GPT-3: 초거대 프리트레이닝
-
인터넷 텍스트·코드를 대규모로 긁어 모은 뒤
“다음 단어 맞히기” 같은 단순 과제를 통해 학습시켰다. -
그런데 이 단순한 훈련만으로
-
번역
-
요약
-
질문 응답
-
코딩
까지 하나의 모델이 해내기 시작했다.
-
2. RLHF: 인간 피드백 강화학습
이후에는 RLHF가 등장했다.
-
사람이 AI가 만든 답을 보고
-
“이게 더 낫다, 이건 별로다”라고 평가해 주고
-
-
모델은 그 피드백을 바탕으로
사람 선호에 맞게 출력을 조정한다.
즉, RLHF는
“거친 모델을 제품처럼 쓸 수 있는 수준으로 다듬는
인간 피드백 기반 강화학습”
이라 볼 수 있다.
3. 스케일링 법칙
여기에 하나가 더 얹혔다. 바로 스케일링 법칙이다.
-
데이터 양을 늘리고
-
모델 크기(파라미터 수)를 늘리고
-
연산량(GPU 시간)을 늘리면
-
손실(loss)이 일정한 규칙으로 줄어드는 패턴이 확인되었다.
이 말은 곧 이렇게 읽힌다.
“데이터 더, 파라미터 더, GPU 더.
그러면 성능은 대체로 좋아진다.”
이 단순한 문장이
-
연구 전략
-
기업의 투자 전략
을 동시에 정당화해 주었다.
실제로 어느 지점까지는 이 전략이 매우 잘 통했다.
하지만, 이제부터가 문제이다.
III. 지금 드러난 한계: 벤치마크는 초인간인데, 현실 효용은 평이하다
일리야 수츠케버가 최근 인터뷰에서 강조한 지점은 다음과 같다.
1. 데이터는 유한하다
-
인터넷 텍스트·코드를 “한 번씩 다 빨아들이는” 구간에
이미 들어가기 시작했다. -
더 이상 “그냥 긁어오면 되는” 양질의 데이터가
예전만큼 늘어나지 않는다.
2. Eval vs 경제적 효용의 괴리
-
각종 시험(evaluation)에서는
모델이 인간보다 잘하는 경우가 많아졌다. -
하지만 기업의 생산성·수익 곡선은
그만큼 가파르게 바뀌지 않고 있다.
즉,
“시험 성적은 초인간인데,
실제 일 잘하는지 보면 애매하다”
는 상황이 벌어진 것이다.
3. 일반화·샘플 효율성의 부족
-
새로운 코드베이스, 새로운 조직의 업무 흐름,
새로운 물리 환경에 모델을 던져놓으면
여전히 허술한 구석이 많이 드러난다. -
인간처럼
“조금 보고도 구조를 잡는 능력”
과는 거리가 있다.
그래서 수츠케버는 말한다.
GPT-3 + RLHF + 스케일링 법칙이 만들어낸
1차 점프는 분명 대단했지만,
지금은 수익 체감 구간에 들어선 것 같다고.
IV. 왜 다음 단계는 “더 인간적인 value function”인가
이제 핵심 질문으로 들어간다.
“왜 다음 단계가 **더 인간적인 가치함수(value function)**인가?”
1. 감정 = 고차원 세계를 요약하는 저차원 가치 좌표
먼저 감정을 다시 보자.
실제 뇌는
-
심장박동, 호르몬, 에너지 상태(피곤, 허기),
-
사회적 맥락(사람들이 나를 어떻게 보는지),
-
과거 기억과 경험
등 아주 복잡한 고차원 상태를 계속 처리한다.
그런데 우리의 주관적 경험은 어떠한가.
-
행복, 불안, 두려움, 분노, 혐오, 애착, 호기심…
생각해보면 그리 많지 않은 축으로
감정이 정리되어 있다.
즉, 감정은
복잡한 신체·환경 상태 →
몇 개의 정서 축으로 압축한 결과
라고 볼 수 있다.
그리고 이 감정(정서 좌표)이 하는 핵심 기능은 단순하다.
-
지금 상황이 좋은 방향인지 / 나쁜 방향인지
-
이 행동을 계속할지 / 멈출지
-
여러 선택지 중 어느 쪽이 “더 끌리는지”
를 빠르고, 싸게, 대충 맞게 알려주는 것이다.
머리로 완전한 계산을 하기 전에
몸이 먼저 “느낌”으로 알려주는 일종의 **휴리스틱(value function)**이다.
2. vmPFC: 감정·가치 신호를 의사결정으로 통합하는 허브
여기서 수츠케버가 꺼내 든 뇌 과학 사례가 중요하다.
바로 복내측 전전두피질(vmPFC) 손상 환자들이다.
| https://kormedi.com/1189194/ |
이 환자들은:
-
지능검사, 언어, 논리 퍼즐은
거의 정상처럼 수행한다. -
그런데 현실에서는
-
오늘 무슨 양말을 신을지,
어떤 보험상품을 고를지 같은
사소한 선택조차 결정을 못 한다. -
금융·사회적 판단에서는
계속해서 나쁜 선택을 반복한다.
-
신경과학자 안토니오 다마지오 등이 정리한 결론은 명확하다.
“논리적 사고 능력만 멀쩡하다고
현실에서 제대로 결정할 수 있는 것은 아니다.
감정·신체 상태·가치 신호를 통합하는 vmPFC 축이 깨지면
인간은 일상적 결정을 거의 못 하게 된다.”
이를 기계학습 언어로 바꾸면 이렇게 볼 수 있다.
-
vmPFC = 장기 행동 궤적(trajectory)에 대한 value function 근사기
역할:
-
지금 이 방향이 대체로 괜찮은지 / 위험한지
-
사회적·장기적 관점에서 이득인지 / 손해인지를
-
딱 떨어지는 외부 보상이 없어도
몸의 상태·기억·맥락을 종합해 평가하는 모듈이다.
수츠케버가 이 사례를 집요하게 언급하는 이유는 분명하다.
인간의 효율적 학습·일반화에는
**논리 모듈(대뇌피질)**만이 아니라,
**감정/가치 모듈(vmPFC 계열)**이 필수적이다.
3. 수츠케버의 문제의식과 “더 인간적인 가치함수”의 방향
그가 공개적으로 여러 번 반복한 메시지를 정리하면 다음과 같다.
-
지금의 AI 모델은
외부에서 주는 정답·라벨·보상에 너무 의존한다. -
모델 내부에는
“지금 내가 잘 가고 있는지 / 잠깐 멈춰야 할지”
를 스스로 판단하는 견고한 가치함수가 없다. -
반면 인간은
-
데이터를 조금만 봐도 방향을 잡고
-
감정·직관을 통해
자신의 행동 궤적을 계속 재평가하면서
학습 방향을 조정한다.
-
그래서 그가 제시하는 방향은 자연스럽다.
이제는 프리트레이닝과 스케일링만으로는 부족하고,
인간식 가치함수 + continual learning을 도입해야 한다.
여기서 말하는 “더 인간적인 value function”은
-
위험, 호기심, 사회적 승인, 자기 일관성, 장기 목표 등
여러 저차원 휴리스틱 value를 조합해 -
고차원 세계 상태를 저차원 가치 공간으로 압축하고
-
그 좌표를 사용해
“현재 trajectory가 좋은 방향인지/나쁜 방향인지”를
항상 안내하는 내부 함수
를 뜻한다.
수츠케버는 구체적인 알고리즘을 공개하지 않는다.
하지만 그가 동시에 묶어 말하는 키워드를 보면:
-
vmPFC
-
감정·somatic marker(신체 신호와 감정의 연결)
-
value function
-
일반화·샘플 효율성
이는 자연스럽게 다음과 같은 해석으로 이어진다.
그는 프리트레이닝/스케일링 위에
인간식 가치함수와 continual learning을 얹는
새로운 학습 레시피를 찾고 있다.
라고 보는 것이 합리적이다.
V. 스케일링의 시대에서, “연구의 시대로 회귀”
GPT-3 이후 몇 년은 철저히 스케일링의 시대였다.
-
“데이터 더, 파라미터 더, GPU 더”
라는 간단한 슬로건이 있었고, -
실제로 많은 영역에서
그 전략만으로 인간 수준, 초인간 수준 성능까지 올라왔다.
하지만 지금은 이런 질문들이 함께 떠오른다.
-
왜 벤치마크 성능만큼
현실 경제 효율은 안 오르는가? -
왜 모델은 여전히
낯선 환경·업무·물리세계에서 허둥대는가? -
왜 인간처럼
조금 보고도 구조를 잡는 능력이 안 나오나?
수츠케버가 말하는 “연구의 시대로 회귀”는
이런 선언에 가깝다.
이제는 “얼마나 키우느냐”가 아니라
“어떻게 배우게 하느냐”를 다시 질문해야 한다.
특히 내부 가치함수와 인간식 일반화를
이해하고 모사하는 방향으로 가야 한다.
요약하면,
-
2010년대 후반~2020년대 초반:
스케일링의 시대 -
앞으로:
학습 레시피와 내부 가치 구조를 다시 설계하는 연구의 시대
로 넘어가야 한다는 주장이다.
VI. 새로운 레시피가 실제로 뚫렸을 때, 투자자는 어디에 서 있어야 하는가
이제 하나의 가정을 두고 생각해 보자.
인간에 가까운 일반화·샘플 효율성을 내는
새로운 학습 레시피가 어느 정도 성공했다.
즉,
-
제한된 외부 데이터로도
-
내부 가치함수를 활용해
-
스스로 자신의 행동 궤적을 평가·수정하며 배우는 AI
(continual learning형 에이전트, 로봇 등)
이 현실에 등장했다고 치자.
그때 산업·투자 관점에서 핵심만 짚어 보겠다.
1. 연산칩: 개별 효율은 좋아져도, 총량 수요는 줄지 않는다
2. 메모리/저장: “얼마나 빨리 계산하느냐”만큼 “얼마나 오래 기억하느냐”가 중요해진다
새로운 레시피의 핵심은 **“경험을 계속 쌓고, 다시 쓰는 것”**이다.
-
내부 가치함수
-
세계모형(world model)
-
개인·로봇별 경험(episodic memory)
-
장기 계획 정보
이 모두 **“기억의 질과 양”**에 의존한다.
그래서 구조는 이렇게 바뀐다.
“얼마나 빨리 계산하느냐” 못지않게
“얼마나 많이, 오래, 안정적으로 기억하느냐”가
경쟁력의 핵심이 된다.
-
데이터센터 입장에서는
-
수많은 에이전트의 경험·상태를 모아
다시 학습시키기 위해 -
서버 메모리·스토리지 총량 수요가 커질 수밖에 없다.
-
-
엣지·로봇 입장에서는
-
각 장비가 “자기만의 세계모형과 경험”을 들고 다니며
현장에서 계속 학습해야 하므로 -
온디바이스 메모리·저장 공간이 더 많이 필요해진다.
-
결론적으로,
새로운 레시피가 성공한다고 해서
“연산칩만 쓰이고, 메모리는 줄어든다”는 그림은 비현실적이다.
오히려 연산 + 메모리 수요가 함께 커지는 방향이 더 자연스럽다.
3. 그 위에 쌓일 레이어: 에이전트 운영·로봇 통합·도메인 OS
하드웨어 위에는 항상 소프트웨어·시스템 레이어가 쌓인다.
새 레시피가 현실화되면 특히 세 가지 축이 중요해질 것이다.
-
에이전트 오케스트레이션 계층
-
여러 AI 모델·에이전트를 묶어
실제 업무 플로우에 연결하는 “운영 플랫폼” -
예: 기업 내부에서
문서 작업, 코드 작업, 회계, 고객 응대 등
여러 업무를 서로 다른 에이전트들이 맡고,
이를 조율해 주는 계층.
-
-
로봇/물리 시스템 통합 업체
-
센서(카메라, LiDAR 등)
-
액추에이터(모터, 그리퍼 등)
-
AI 칩·통신 모듈
을 묶어
실제 공장·물류센터·병원·건설 현장에서 돌아가는
물리 AI 시스템을 만드는 플레이어.
-
-
도메인 특화 AI 운영체제(Vertical OS)
-
예: 병원용 AI 운영계층, 공장용 AI 운영계층,
물류센터용 AI 운영계층 등. -
인간식 가치함수·continual learning이 들어갈수록
각 도메인에 맞는 규칙·안전 기준·업무 흐름을
AI와 사람 사이에서 조율해 주는 운영 레이어의 중요성이 커진다.
-
중장기적으로 보면,
이러한 플랫폼·운영계층이
하드웨어 못지않게 높은 수익성과 진입장벽을 가질 가능성이 크다.
VII. 정리
마지막으로 핵심만 다시 한 번 정리하면 다음과 같다.
-
1차 전환
-
기호주의(규칙 기반) → 뇌 모방(신경망) →
대규모 프리트레이닝 + 스케일링. -
GPT-3, RLHF, 스케일링 법칙이
한 번의 거대한 점프를 만들었다.
-
-
현재의 병목
-
데이터는 유한해지고,
스케일링은 점점 수익 체감 구간으로 들어가고 있다. -
벤치마크 성능은 초인간인데,
현실 경제 효용은 그만큼 따라오지 못한다. -
인간처럼 적은 샘플로도 잘 일반화하는 능력은 아직 멀었다.
-
-
다음 단계의 방향
-
인간의 효율적 학습에는
**복내측 전전두피질(vmPFC)**을 중심으로 한
**감정·가치 시스템(value function)**이 핵심이다. -
수츠케버의 문제의식은
**“더 인간적인 가치함수 + continual learning”**을
새로운 학습 레시피의 중심에 두는 방향으로 읽힌다.
-
-
새로운 레시피가 뚫렸을 때의 산업·투자 함의
-
개별 모델 기준 연산 효율은 좋아질 수 있지만,
AI의 적용 범위가 현실 세계 전반으로 확산되며
연산칩·메모리 수요는 구조적으로 더 커질 가능성이 크다. -
특히
-
데이터센터용 AI 가속기(상시 추론·상시 학습 인프라)
-
엣지·로봇용 AI 칩(물리세계 침투)
-
메모리·저장(세계모형·경험·가치함수 상태 저장)
는 동시에 수혜를 볼 축이다.
-
-
그 위에
에이전트 운영계층, 로봇 통합, 도메인 특화 AI OS가
새로운 가치 집중 지대로 떠오를 수 있다.
-
결국 수츠케버가 말하는
“스케일링의 시대를 지나,
더 인간적인 value function을 향한 연구의 시대로 가야 한다”
는 메시지는
단순한 기술 논평이 아니라,
“앞으로 어떤 종류의 AI가 진짜 경제적 효용을 낼 것인지,
그리고 투자자는 어느 레이어에 서 있어야 하는지”
에 대한 방향 제시이기도 하다.
단기적인 벤치마크 점수,
일회성 초거대 훈련 스토리보다 중요한 질문은 결국 하나이다.
“현실 세계 곳곳에,
스스로 계속 배우는 에이전트를 꽂을 수 있는 구조와 자산을
지금부터 얼마나 확보해 두고 있는가.”
이 지점에서
기술의 다음 단계와 자본의 다음 위치가
서서히 겹쳐지기 시작할지도 모르겠다.
#글을 마치며
정말로 일리아 수스케버의 PJT가 성공한다면, 그리고 인간의 감정 영역까지 내부 가치함수로 embed된 AI가 등장한다면, 우리는 엘런 튜링이 제안했던 그 오래된 “이미테이션 게임”의 실사판을 마주하게 될지도 모른다.
상대가 인간인지 기계인지 구분하기 어려운 수준을 넘어, 대화의 맥락과 정서, 미묘한 망설임과 주저함까지 그럴듯하게 따라 하는 존재와 일상을 공유하게 되는 것이다.
조금 더 공상과학적인 상상을 허용하면, 영화 「HER」에 가까운 현실이 전혀 허황된 이야기만은 아닐 수 있다.
화면 속에 있던 존재가, 나의 일정과 업무를 관리하고, 대화를 나누고, 나의 습관과 취약함을 이해하며, 나보다 먼저 나의 반응을 예측하는 어떤 “정서적 파트너”로 다가오는 장면을 떠올리게 된다.
그 가능성은 분명 매혹적이지만, 동시에 인간과 기계, 진짜 감정과 모사된 감정, 주체와 도구의 경계가 흐려지는 지점에서 섬뜩한 불편함과 무서움도 함께 고개를 든다.
그런데, 인간 감정 영역의 근원인 '죽음'이라는 개념을 AI에게 어떻게 이해시킬 수 있을까?라는 의문이 여전히 남긴 하다.
=끝
댓글 없음:
댓글 쓰기