나만의 투자이야기: 생각정리 132 (* AlphaFold)

이번글의 핵심 메시지는 아래와 같다.

“우리는 이제 단백질의 문법을 이해하기 시작했고,
그걸 가지고 생명체의 부품을 직접 설계할 수 있는 시대에 들어서고 있다.”

0. 왜 하필 지금, 그리고 왜 바이오·제약인가

일리야 수츠케버는 최근 인터뷰에서,
지금의 거대 언어모델(LLM) 하나가 모든 걸 다 하는 시대보다는,

위에 강력한 기반 AI가 있고
그 위에 각 도메인에 특화된 수많은 니치 AI 서비스가 올라가는 구조를 예상했다.

즉, 그의 1차 목표는 “당장 초월적 슈퍼인공지능”이라기보다는,
현실 세계 거의 모든 문제에 쓸 수 있을 만큼 일반적이고 유용한 기반 AI를 만드는 쪽에 더 가깝다고 볼 수 있다.

그 위에서 금융용 AI, 법률용 AI, 설계용 AI, 바이오·제약 AI 같은 것들이 파생·진화하는 그림이다.

현재 산업 지형을 이 관점에서 보면,
가장 큰 추가 부가가치를 만들어낼 분야는 바이오·제약일 가능성이 높지 않을까 했다.
그 한가운데에, **단백질 구조 예측 패러다임을 바꿔버린 AlphaFold(알파폴드)**가 자리하고 있다.

이전에 읽은 『알파폴드: AI 신약개발 혁신』과 관련 논의들을 바탕으로,

이 글에서는

왜 단백질이 “언어”처럼 다뤄지기 시작했는지
AlphaFold와 그 이후의 단백질 디자인 기술이 무엇을 바꿔놓았는지
이것이 의약·바이오 산업에 어떤 의미를 갖는지

를 정리해 두고자 한다.

1. 단백질은 사실상 하나의 ‘언어’이다

우리가 아는 단백질은 모두 아미노산이라는 작은 조각들이 줄줄이 이어진 사슬이다.

아미노산 20종류 → 알파벳 20개
아미노산이 이어진 서열 → 문장
단백질 안의 기능 단위(도메인) → 문단 정도로 생각하면 이해가 쉽다.

https://openbooks.lib.msu.edu/isb202/chapter/protein-structure-and-function/

https://openbooks.lib.msu.edu/isb202/chapter/protein-structure-and-function/

요즘 인공지능이 사람 말을 배우는 방법과 매우 비슷하다.

챗GPT 같은 언어모델은
수많은 문장을 읽으면서
“어떤 단어 옆에는 어떤 단어가 자주 오는지”를 통계적으로 배운다.
단백질 언어모델은
수억 개의 단백질 서열을 학습하면서
“어떤 아미노산 옆에는 어떤 아미노산이 자주 오는지”를 배운다.

놀라운 점은, 이렇게 서열만 보고 학습한 모델 내부에

단백질의 입체 구조에 대한 정보,
기능에 중요한 위치에 대한 정보,
서로 붙어서 상호작용하는 부분에 대한 정보가

꽤 많이 숨어든다는 것이다.

물론 이것이
“한 번 학습하면 구조가 공짜로 자동 튀어나온다”는 뜻은 아니다.
구조 예측에는 여전히 별도의 모델과 학습이 필요하다.

다만, “단백질 서열 = 의미 없는 코드”가 아니라,
분명한 문법과 규칙을 가진 언어라는 인식은 거의 굳어졌다고 볼 수 있다.

2. 원래 단백질 구조 예측이 왜 그렇게 어려웠나

단백질이 몸 안에서 어떤 기능을 수행하는지는
결국 그 단백질의 **입체 모양(3차 구조)**에 의해 결정된다.

그리고 이 입체 모양은 다시 아미노산 서열에 의해 정해진다.

말만 들으면 단순하다.

“서열만 알면 구조도 알 수 있어야 하지 않나?”

하지만 현실은 이랬다.

2-1. 접히는 방법이 너무 많다

단백질이 어떻게 접힐 수 있느냐를 생각해 보자.

마치 종이 한 장을
가능한 모든 방식으로 접는 경우의 수를 상상하는 것과 비슷하다.
이론적으로 가능한 모든 접힘을 다 탐색해 보고
가장 안정적인 모양을 찾으려 한다면,
계산상 지구 나이보다 더 오랜 시간이 걸린다는 이야기가 나올 정도이다.

실제로 세포 안에서 단백질은 이렇게 비효율적으로 움직이지 않는다.

주변 물·이온·다른 분자들과 상호작용하면서
**“에너지가 점점 내려가는 방향”**으로
비교적 빠르게 안정된 구조를 찾아간다.

하지만 이 과정을 컴퓨터로 그대로 흉내 내서 계산하는 것은
지금도 매우 어렵고, 시간이 많이 든다.

2-2. 에너지 지형은 “깔때기 + 울퉁불퉁한 산악지대”

과학자들은 단백질 접힘을
에너지 지도 위에서 굴러다니는 공에 비유한다.

전체적으로 보면 **낮은 곳(안정된 구조)**를 향해 내려가는
깔때기(funnel) 모양이다.
그러나 표면이 매끈한 경사로가 아니라,
**수많은 작은 골짜기(국소 최소)**들이 중간중간 파여 있는
울퉁불퉁한 산악지대에 가깝다.

https://www.researchgate.net/figure/Folding-funnel-energy-landscape-Globular-proteins-organize-themselves-from-a-random-coil_fig1_24268017

그래서 단백질은

어떤 경우에는 잘 접혀서 “제대로 된 안정 구조”에 도달하지만,
어떤 경우에는 중간 골짜기에 갇혀
제대로 접히지 못하거나 엉겨 붙는(응집되는) 경우도 생긴다.

https://www.researchgate.net/figure/Schematic-of-a-a-funnel-shaped-energy-landscape-of-an-amino-acid-sequence-that-has_fig1_337614917

이처럼 경우의 수가 너무 많고 에너지 지형이 복잡하다 보니,
오랫동안 **“서열만 보고 구조를 맞추는 것”**은
이론적으로만 가능할 뿐, 현실에서는 거의 불가능한 문제로 여겨졌다.

3. 옛날 방식: 물리 계산과 “비슷한 것 따라 그리기”

이 난제를 풀기 위해, 과학자들은 크게 두 가지 길로 접근했다.

3-1. 물리적인 에너지 계산 + 조각 맞추기 (Rosetta 계열)

단백질을 작은 구조 조각으로 나누고,
이 조각들을 여러 방식으로 이어 붙여 보면서,
에너지가 낮아지는 방향으로 구조를 탐색한다.

짧은 단백질이나 비교적 단순한 경우에는
이 방식이 어느 정도 통했다.

하지만

단백질이 길어지고,
도메인이 여러 개이고,
복합체(여러 단백질이 합쳐진 덩어리)가 되면

가능한 조합 수와 계산량이 폭발하고,
로컬 최소에 갇혀 실패하는 경우가 많았다.

3-2. 비슷한 단백질 구조를 찾아서 따라 그리기 (상동모델링)

다른 한 축은 훨씬 실용적인, “비슷한 것 따라 그리기” 방식이다.

이미 X선 결정 구조 같은 걸로
입체 구조가 밝혀진 단백질들이 데이터베이스에 많이 쌓여 있다.
새로 구조를 알고 싶은 단백질 서열이 들어오면,
그 서열과 **비슷한 서열(상동 단백질)**을 데이터베이스에서 찾는다.
그리고 그 상동 단백질의 구조를 템플릿 삼아,
“모양을 입혀보는” 방식으로 구조를 예측한다.

서열 유사도가 높을 때는 이 방식이 꽤 잘 통한다.

하지만

비슷한 구조가 데이터베이스에 없거나,
서열이 너무 많이 달라져 있으면

예측 정확도가 급격히 떨어진다.

그래서 이 두 방법만으로는

“어떤 서열이 와도, 구조를 안정적으로 맞출 수 있는 일반적인 해법”

이라고 말하기 어려웠다.

4. AlphaFold 혁명: 진화 정보 + 딥러닝

상황을 바꾼 것은 **“진화 정보”와 “딥러닝”**의 결합이다.

요즘은 각종 생물의 유전체가 대량으로 해독되면서,
같은 계열 단백질에 대한 서열이 수없이 쌓여 있다.

이를 모아 정렬한 것을 **다중서열정렬(MSA)**이라고 부른다.

https://dromicslabs.com/multiple-sequence-alignment-technique/

이 MSA를 들여다보면 몇 가지 중요한 사실을 알 수 있다.

서열은 꽤 바뀌어도, 구조는 크게 안 바뀌는 경향이 있다.
특히 기능과 구조에 핵심적인 자리는
아미노산이 잘 바뀌지 않고 보존된다.
입체 구조상 서로 가까이 붙어 있는 아미노산들은
**함께 변하는 경향(공변이)**을 보이는 경우가 많다.

https://www.researchgate.net/figure/Multiple-sequence-alignment-of-conserved-regions-in-the-motor-domain-of-Eg5-from-five_fig1_325907668

AlphaFold는 이 진화 패턴을 딥러닝으로 읽어낸다.

4-1. AlphaFold 1: 거리·각도 분포를 예측한다

AlphaFold 1의 아이디어는 다음과 같다.

입력
- 단백질 서열
- 그 서열의 MSA
- (있다면) 비슷한 단백질의 템플릿 구조
합성곱 신경망(CNN)을 이용해,
아미노산 쌍마다 서로 얼마나 떨어져 있는지(거리),
**어떤 방향으로 배치되는지(각도)**의 확률 분포를 예측한다.
이 분포를 가장 잘 만족시키는 3차원 구조를
일종의 에너지 최소화 문제로 풀어낸다.

즉,

**“MSA에서 공변이 정보를 추출 → 잔기–잔기 거리/각도 분포 예측 →
그 제약을 만족하는 구조를 최적화로 찾는 방식”**이다.

4-2. AlphaFold 2: 한 단계 더 나아간 end-to-end 구조 예측

AlphaFold 2는 이 접근을 한 단계 더 밀어붙였다.
대략적인 과정은 다음과 같다.

MSA 만들기
- 알고 싶은 단백질 서열과 비슷한 서열들을
  전 세계 데이터베이스에서 끌어와 하나의 큰 정렬표를 만든다.
Evoformer라는 딥러닝 블록
- 이 MSA를,
  챗GPT 등에 쓰이는 것과 비슷한 트랜스포머 계열 신경망으로 여러 번 돌린다.
- 이 과정에서
  - “어떤 아미노산 쌍이 서로 관련 있는지”
  - “어떤 패턴이 진화적으로 보존되는지”
    같은 정보가 내부 표현에 농축된다.
Structure module
- 이렇게 정리된 정보를 입력 삼아
  **단백질의 3차원 좌표(원자 위치)**를 직접 예측한다.
- AlphaFold 1처럼
  “거리 분포 → 에너지 함수 → 최적화” 단계를 따로 두기보다,
  신경망이 곧장 좌표를 내놓는 함수를 학습한 셈이다.
재순환(recycling)
- 한 번 예측된 구조에서 거리·각도 정보를 다시 뽑아
  Evoformer 입력에 섞어 넣고,
- 이 과정을 여러 차례 반복하면서
  구조를 점점 더 정밀하게 다듬는다.

이 접근 덕분에, AlphaFold 2는
수많은 단백질에 대해,
실험 구조에 상당히 근접한 수준의 예측을 자동으로 내놓을 수 있게 되었다.

(물론 모든 단백질에 대해 완벽하다고 말할 수는 없지만,
“패러다임이 바뀌었다”고 부를 만한 수준의 도약이었다.)

알기 쉬운 그림설명은 아래의 블로그 참조

https://piip.co.kr/en/blog/AlphaFold-Breakthrough-AI-Challenges-Protein-Folding-Problem-1

5. “예측”에서 “디자인”으로: 단백질을 직접 설계하는 시대

구조를 잘 맞히게 된 것 자체도 엄청난 진전이지만,
궁극적으로 산업적 파급력이 더 큰 쪽은 **“디자인”**이다.

이제 질문은 이렇게 바뀌고 있다.

예전:

“이 서열은 어떤 구조를 만들까?”
지금:

“이런 구조를 만들고 싶은데,
그 구조를 만들어 줄 서열은 무엇일까?”

5-1. ProteinMPNN: 구조에서 서열로 (structure → sequence)

여기서 등장하는 대표 도구가 ProteinMPNN이다.

입력: 만들고 싶은 단백질의 입체 골격(뼈대 구조)
출력: 그 구조를 안정적으로 형성해 줄 수 있는 아미노산 서열

즉, **“구조에서 서열로 가는 신경망”**이다.

이제는 특정 모양을 가진 단백질을 상상해 두고,
그 모양을 주면 AI가

“이런 서열로 만들면 그 구조가 잘 나올 것 같다.”

라고 후보들을 쭉 뽑아주는 시대가 된 것이다.

5-2. RFdiffusion·Chroma: 구조 골격 자체를 AI가 만든다

그 다음 단계는 아예 골격 자체를 생성하는 것이다.

RFdiffusion, Chroma 같은 모델은
이미지 생성에 쓰이는 것과 비슷한 **확산모델(diffusion model)**을 이용해,

처음에는 엉망인 노이즈 구조에서 시작해,
점점 더 “단백질답게 보이는” 구조로 정제해 가면서,
결국 **새로운 단백질 골격(backbone)**을 만들어낸다.

이를 활용한 전형적인 설계 루프는 다음과 같다.

RFdiffusion/Chroma로
- 특정 표적 단백질에 잘 달라붙는다든지,
- 특정 대칭 구조를 가진다든지 하는
  원하는 조건을 만족하는 새로운 단백질 골격을 생성한다.
이 골격을 ProteinMPNN에 넣어
해당 골격을 안정화할 수 있는 서열을 여러 개 만든다.
이렇게 나온 서열들을 AlphaFold 등으로 다시 구조 예측해 본다.
- 예측된 구조가 처음 설계한 골격과 잘 겹치고,
  신뢰도도 높다면
  → “실제로 잘 접힐 가능성이 높은 후보”로 본다.
그중 상위 몇 개만 실제 실험실에서 만들어 보고,
구조와 기능을 검증한다.

https://2023.igem.wiki/anu-australia/contribution

이렇게 해서,
자연계에는 없던 완전히 새로운 단백질 부품을
설계해 보는 시대가 열리고 있다.

6. 이 기술은 어디에 쓰이나: 의약품·백신·합성생물학

이제 이 기술이 실제로 어디에 쓰이는지 살펴보자.

6-1. 단백질 의약품·백신·나노입자

바이러스의 특정 표면 부위만 골라서 잘 보여주는
단백질 나노입자를 설계해,
그 부분에 대한 면역 반응을 집중적으로 유도하는 백신
기존 항체 대신
더 작고 안정적이며,
대장균·효모 같은 값싼 숙주에서 대량 생산이 가능한 인공 결합 단백질을 이용해
치료제를 만드는 전략

6-2. 미끼 단백질(decoy protein)

예를 들어, 바이러스가 인체 세포에 달라붙을 때 사용하는 수용체(문 손잡이 역할)를
더 잘 붙도록 다시 설계한 단백질을 만들어서
공기 중 또는 특정 조직에 뿌리는 방식
바이러스가 진짜 세포 대신 이 “가짜 손잡이”에 달라붙도록 유도해
감염을 줄이는 개념이다.
코로나19 때 ACE2를 활용한 미끼 단백질 아이디어가 이와 유사하다.

6-3. 인공 사이토카인·면역 조절 단백질

IL-2 같은 강력한 면역 신호 분자는
항암 효과가 뛰어난 대신, 부작용도 매우 크다.
구조 기반·AI 기반 설계로
특정 면역세포에는 강하게, 다른 세포에는 약하게 작용하도록
결합 특성을 조정한 “인공 사이토카인”을 만들려는 시도가 많다.
면역세포가 특정 신호 조합에서만 켜지거나 꺼지게 하는
인공 수용체·신호 회로도 단백질 설계의 영역이다.

6-4. 합성생물학 회로

세포 안에
- “이 분자가 감지되면 A 단백질을 만들고,
  저 분자가 같이 감지되면 B 단백질을 만들지 않는다”
  같은 **논리 회로(logic)**를 단백질 조합으로 구현하는 연구들
이를 통해
종양 미세환경에서만 선택적으로 반응하는 세포,
특정 대사경로를 정밀하게 제어하는 미생물 등을 설계할 수 있다.

이 모든 흐름을 한 문장으로 요약하면 이렇다.

“삶을 구성하는 기본 부품인 단백질을,
이제는 필요에 맞게 설계해서 쓰는 시대가 열리고 있다.”

7. 그렇다고 만능은 아니다: 아직 남은 한계들

여기까지 들으면
“이제 단백질은 마음대로 설계하는 시대겠네?”
라는 생각이 들 수 있다.

하지만 아직은 거기까지 가지 않았다.

AI가 설계해 준 서열들 중,
실제 실험에서 의도한 대로 잘 접히고, 기능까지 제대로 하는 비율은 여전히 낮다.
구조 예측이 아무리 정확해도,
- 세포 안에서 얼마나 안정적인지,
- 얼마나 빨리 분해되는지,
- 인체 면역계가 어떻게 반응하는지,
- 독성은 없는지
  같은 것들은 반드시 별도의 실험으로 확인해야 한다.
실제 free energy, 결합 친화도, 동역학(시간에 따른 움직임)을
물리적으로 정확히 계산하는 작업은
지금도 많은 시간과 컴퓨팅 자원을 필요로 한다.

정리하면, 지금은

“단백질을 거의 랜덤에 가깝게 찍어보던 시대”에서
“그래도 꽤 그럴듯한 후보들을 골라서 찍어볼 수 있는 시대”로
점프한 단계라고 보는 것이 정확하다.

여전히 실험·검증·제조·규제가 병목이다.

다만 AI 덕분에 “어디를 찍어볼지”를 훨씬 잘 고를 수 있게 된 것이다.

8. 왜 “트랜지스터·집적회로” 비유가 나오는가

그럼에도 불구하고, 지금 상황을
**“트랜지스터 혹은 집적회로가 처음 등장하던 시점”**에 자주 비유하는 데에는 이유가 있다.

트랜지스터 이전의 전자공학은
- 커다란 부품과 진공관을
  사람이 일일이 설계하고 조립하는 세계였다.
트랜지스터와 집적회로(IC)가 등장하면서
- 회로 설계가 표준화된 부품과 디지털 논리 위에 쌓이는 산업이 되었고,
- 그 위에 컴퓨터, 스마트폰, 인터넷, 클라우드까지
  우리가 아는 현대 ICT 산업 전체가 만들어졌다.

단백질·합성생물학도 비슷한 전환점을 맞고 있다.

예전에는
- 자연이 만들어 놓은 단백질을
  발견하고, 약간 변형해서 쓰는 것이 대부분이었다.
이제는
- AI 기반 구조 예측·디자인 도구 덕분에
  **“목적을 먼저 정하고, 그에 맞는 단백질을 설계하는 것”**이
  점점 더 현실적인 선택지가 되고 있다.

완전히 성숙한 산업·기술로 자리잡기까지는 아직 시간이 필요하다.
그러나 방향성은 꽤 뚜렷하다.

“단백질을 이해하고 설계하는 능력”은
앞으로 의약, 바이오, 합성생물학에서
트랜지스터·집적회로에 해당하는 기반 인프라 기술이 될 가능성이 크다.

지금 우리가 보고 있는

단백질 언어모델,
AlphaFold,
ProteinMPNN,
RFdiffusion 같은 도구들은

바로 그 새로운 시대의 초창기 도구 세트라고 이해하면 된다.
수츠케버가 말한 “니치 AI”들이 여러 산업에서 분화·성장할 때,
바이오·제약 분야에서는 이 도구들을 중심으로 전혀 다른 지형의 혁신이 펼쳐질 가능성이 크다.

=끝

나만의 투자이야기

2025년 11월 30일 일요일

생각정리 132 (* AlphaFold)