2025년 11월 30일 일요일

생각정리 132 (* AlphaFold)

이번글의 핵심 메시지는 아래와 같다.

“우리는 이제 단백질의 문법을 이해하기 시작했고,
그걸 가지고 생명체의 부품을 직접 설계할 수 있는 시대에 들어서고 있다.”

 


0. 왜 하필 지금, 그리고 왜 바이오·제약인가


일리야 수츠케버는 최근 인터뷰에서,
지금의 거대 언어모델(LLM) 하나가 모든 걸 다 하는 시대보다는,

  • 위에 강력한 기반 AI가 있고

  • 그 위에 각 도메인에 특화된 수많은 니치 AI 서비스가 올라가는 구조를 예상했다.


즉, 그의 1차 목표는 “당장 초월적 슈퍼인공지능”이라기보다는,
현실 세계 거의 모든 문제에 쓸 수 있을 만큼 일반적이고 유용한 기반 AI를 만드는 쪽에 더 가깝다고 볼 수 있다.

 그 위에서 금융용 AI, 법률용 AI, 설계용 AI, 바이오·제약 AI 같은 것들이 파생·진화하는 그림이다.

현재 산업 지형을 이 관점에서 보면,
가장 큰 추가 부가가치를 만들어낼 분야는 바이오·제약일 가능성이 높지 않을까 했다.
그 한가운데에, **단백질 구조 예측 패러다임을 바꿔버린 AlphaFold(알파폴드)**가 자리하고 있다.


이전에 읽은 『알파폴드: AI 신약개발 혁신』과 관련 논의들을 바탕으로,

이 글에서는

  • 왜 단백질이 “언어”처럼 다뤄지기 시작했는지

  • AlphaFold와 그 이후의 단백질 디자인 기술이 무엇을 바꿔놓았는지

  • 이것이 의약·바이오 산업에 어떤 의미를 갖는지


를 정리해 두고자 한다.


1. 단백질은 사실상 하나의 ‘언어’이다


우리가 아는 단백질은 모두 아미노산이라는 작은 조각들이 줄줄이 이어진 사슬이다.

  • 아미노산 20종류 → 알파벳 20개

  • 아미노산이 이어진 서열 → 문장

  • 단백질 안의 기능 단위(도메인) → 문단 정도로 생각하면 이해가 쉽다.


    https://openbooks.lib.msu.edu/isb202/chapter/protein-structure-and-function/



    https://openbooks.lib.msu.edu/isb202/chapter/protein-structure-and-function/


요즘 인공지능이 사람 말을 배우는 방법과 매우 비슷하다.

  • 챗GPT 같은 언어모델
    수많은 문장을 읽으면서
    “어떤 단어 옆에는 어떤 단어가 자주 오는지”를 통계적으로 배운다.

  • 단백질 언어모델
    수억 개의 단백질 서열을 학습하면서
    “어떤 아미노산 옆에는 어떤 아미노산이 자주 오는지”를 배운다.

놀라운 점은, 이렇게 서열만 보고 학습한 모델 내부에

  • 단백질의 입체 구조에 대한 정보,

  • 기능에 중요한 위치에 대한 정보,

  • 서로 붙어서 상호작용하는 부분에 대한 정보가

꽤 많이 숨어든다는 것이다.

물론 이것이
“한 번 학습하면 구조가 공짜로 자동 튀어나온다”는 뜻은 아니다.
구조 예측에는 여전히 별도의 모델과 학습이 필요하다.

다만, “단백질 서열 = 의미 없는 코드”가 아니라,
분명한 문법과 규칙을 가진 언어
라는 인식은 거의 굳어졌다고 볼 수 있다.


2. 원래 단백질 구조 예측이 왜 그렇게 어려웠나


단백질이 몸 안에서 어떤 기능을 수행하는지는
결국 그 단백질의 **입체 모양(3차 구조)**에 의해 결정된다.

그리고 이 입체 모양은 다시 아미노산 서열에 의해 정해진다.

말만 들으면 단순하다.

“서열만 알면 구조도 알 수 있어야 하지 않나?”


하지만 현실은 이랬다.

2-1. 접히는 방법이 너무 많다

단백질이 어떻게 접힐 수 있느냐를 생각해 보자.

  • 마치 종이 한 장을
    가능한 모든 방식으로 접는 경우의 수를 상상하는 것과 비슷하다.

  • 이론적으로 가능한 모든 접힘을 다 탐색해 보고
    가장 안정적인 모양을 찾으려 한다면,
    계산상 지구 나이보다 더 오랜 시간이 걸린다는 이야기가 나올 정도이다.


실제로 세포 안에서 단백질은 이렇게 비효율적으로 움직이지 않는다.

  • 주변 물·이온·다른 분자들과 상호작용하면서
    **“에너지가 점점 내려가는 방향”**으로
    비교적 빠르게 안정된 구조를 찾아간다.

하지만 이 과정을 컴퓨터로 그대로 흉내 내서 계산하는 것은
지금도 매우 어렵고, 시간이 많이 든다.

2-2. 에너지 지형은 “깔때기 + 울퉁불퉁한 산악지대”


과학자들은 단백질 접힘을
에너지 지도 위에서 굴러다니는 공에 비유한다.

  • 전체적으로 보면 **낮은 곳(안정된 구조)**를 향해 내려가는
    깔때기(funnel) 모양이다.

  • 그러나 표면이 매끈한 경사로가 아니라,
    **수많은 작은 골짜기(국소 최소)**들이 중간중간 파여 있는
    울퉁불퉁한 산악지대에 가깝다.


https://www.researchgate.net/figure/Folding-funnel-energy-landscape-Globular-proteins-organize-themselves-from-a-random-coil_fig1_24268017


그래서 단백질은

  • 어떤 경우에는 잘 접혀서 “제대로 된 안정 구조”에 도달하지만,

  • 어떤 경우에는 중간 골짜기에 갇혀
    제대로 접히지 못하거나 엉겨 붙는(응집되는) 경우도 생긴다.



https://www.researchgate.net/figure/Schematic-of-a-a-funnel-shaped-energy-landscape-of-an-amino-acid-sequence-that-has_fig1_337614917



이처럼 경우의 수가 너무 많고 에너지 지형이 복잡하다 보니,
오랫동안 **“서열만 보고 구조를 맞추는 것”**은
이론적으로만 가능할 뿐, 현실에서는 거의 불가능한 문제로 여겨졌다.


3. 옛날 방식: 물리 계산과 “비슷한 것 따라 그리기”


이 난제를 풀기 위해, 과학자들은 크게 두 가지 길로 접근했다.

3-1. 물리적인 에너지 계산 + 조각 맞추기 (Rosetta 계열)

  • 단백질을 작은 구조 조각으로 나누고,

  • 이 조각들을 여러 방식으로 이어 붙여 보면서,

  • 에너지가 낮아지는 방향으로 구조를 탐색한다.

짧은 단백질이나 비교적 단순한 경우에는
이 방식이 어느 정도 통했다.

하지만

  • 단백질이 길어지고,

  • 도메인이 여러 개이고,

  • 복합체(여러 단백질이 합쳐진 덩어리)가 되면

가능한 조합 수와 계산량이 폭발하고,
로컬 최소에 갇혀 실패하는 경우가 많았다.

3-2. 비슷한 단백질 구조를 찾아서 따라 그리기 (상동모델링)


다른 한 축은 훨씬 실용적인, “비슷한 것 따라 그리기” 방식이다.

  • 이미 X선 결정 구조 같은 걸로
    입체 구조가 밝혀진 단백질들이 데이터베이스에 많이 쌓여 있다.

  • 새로 구조를 알고 싶은 단백질 서열이 들어오면,
    그 서열과 **비슷한 서열(상동 단백질)**을 데이터베이스에서 찾는다.

  • 그리고 그 상동 단백질의 구조를 템플릿 삼아,
    “모양을 입혀보는” 방식으로 구조를 예측한다.

서열 유사도가 높을 때는 이 방식이 꽤 잘 통한다.

하지만

  • 비슷한 구조가 데이터베이스에 없거나,

  • 서열이 너무 많이 달라져 있으면

예측 정확도가 급격히 떨어진다.

그래서 이 두 방법만으로는

“어떤 서열이 와도, 구조를 안정적으로 맞출 수 있는 일반적인 해법”

 

이라고 말하기 어려웠다.


4. AlphaFold 혁명: 진화 정보 + 딥러닝


상황을 바꾼 것은 **“진화 정보”와 “딥러닝”**의 결합이다.

요즘은 각종 생물의 유전체가 대량으로 해독되면서,
같은 계열 단백질에 대한 서열이 수없이 쌓여 있다.

이를 모아 정렬한 것을 **다중서열정렬(MSA)**이라고 부른다.

https://dromicslabs.com/multiple-sequence-alignment-technique/


이 MSA를 들여다보면 몇 가지 중요한 사실을 알 수 있다.

  • 서열은 꽤 바뀌어도, 구조는 크게 안 바뀌는 경향이 있다.

  • 특히 기능과 구조에 핵심적인 자리는
    아미노산이 잘 바뀌지 않고 보존된다.

  • 입체 구조상 서로 가까이 붙어 있는 아미노산들은
    **함께 변하는 경향(공변이)**을 보이는 경우가 많다.


    https://www.researchgate.net/figure/Multiple-sequence-alignment-of-conserved-regions-in-the-motor-domain-of-Eg5-from-five_fig1_325907668


AlphaFold는 이 진화 패턴을 딥러닝으로 읽어낸다.

4-1. AlphaFold 1: 거리·각도 분포를 예측한다


AlphaFold 1의 아이디어는 다음과 같다.

  • 입력

    • 단백질 서열

    • 그 서열의 MSA

    • (있다면) 비슷한 단백질의 템플릿 구조

  • 합성곱 신경망(CNN)을 이용해,
    아미노산 쌍마다 서로 얼마나 떨어져 있는지(거리),
    **어떤 방향으로 배치되는지(각도)**의 확률 분포를 예측한다.

  • 이 분포를 가장 잘 만족시키는 3차원 구조를
    일종의 에너지 최소화 문제로 풀어낸다.

즉,

**“MSA에서 공변이 정보를 추출 → 잔기–잔기 거리/각도 분포 예측 →
그 제약을 만족하는 구조를 최적화로 찾는 방식”**이다.

4-2. AlphaFold 2: 한 단계 더 나아간 end-to-end 구조 예측


AlphaFold 2는 이 접근을 한 단계 더 밀어붙였다.
대략적인 과정은 다음과 같다.

  1. MSA 만들기

    • 알고 싶은 단백질 서열과 비슷한 서열들을
      전 세계 데이터베이스에서 끌어와 하나의 큰 정렬표를 만든다.

  2. Evoformer라는 딥러닝 블록

    • 이 MSA를,
      챗GPT 등에 쓰이는 것과 비슷한 트랜스포머 계열 신경망으로 여러 번 돌린다.

    • 이 과정에서

      • “어떤 아미노산 쌍이 서로 관련 있는지”

      • “어떤 패턴이 진화적으로 보존되는지”
        같은 정보가 내부 표현에 농축된다.

  3. Structure module

    • 이렇게 정리된 정보를 입력 삼아
      **단백질의 3차원 좌표(원자 위치)**를 직접 예측한다.

    • AlphaFold 1처럼
      “거리 분포 → 에너지 함수 → 최적화” 단계를 따로 두기보다,
      신경망이 곧장 좌표를 내놓는 함수를 학습한 셈이다.

  4. 재순환(recycling)

    • 한 번 예측된 구조에서 거리·각도 정보를 다시 뽑아
      Evoformer 입력에 섞어 넣고,

    • 이 과정을 여러 차례 반복하면서
      구조를 점점 더 정밀하게 다듬는다.

이 접근 덕분에, AlphaFold 2는
수많은 단백질에 대해,
실험 구조에 상당히 근접한 수준의 예측을 자동으로 내놓을 수 있게 되었다.

 (물론 모든 단백질에 대해 완벽하다고 말할 수는 없지만,
“패러다임이 바뀌었다”고 부를 만한 수준의 도약이었다.)

알기 쉬운 그림설명은 아래의 블로그 참조

https://piip.co.kr/en/blog/AlphaFold-Breakthrough-AI-Challenges-Protein-Folding-Problem-1



5. “예측”에서 “디자인”으로: 단백질을 직접 설계하는 시대


구조를 잘 맞히게 된 것 자체도 엄청난 진전이지만,
궁극적으로 산업적 파급력이 더 큰 쪽은 **“디자인”**이다.

이제 질문은 이렇게 바뀌고 있다.

  • 예전:

    “이 서열은 어떤 구조를 만들까?”

     

  • 지금:

    “이런 구조를 만들고 싶은데,
    그 구조를 만들어 줄 서열은 무엇일까?”

     

5-1. ProteinMPNN: 구조에서 서열로 (structure → sequence)


여기서 등장하는 대표 도구가 ProteinMPNN이다.

  • 입력: 만들고 싶은 단백질의 입체 골격(뼈대 구조)

  • 출력: 그 구조를 안정적으로 형성해 줄 수 있는 아미노산 서열

즉, **“구조에서 서열로 가는 신경망”**이다.

이제는 특정 모양을 가진 단백질을 상상해 두고,
그 모양을 주면 AI가

“이런 서열로 만들면 그 구조가 잘 나올 것 같다.”


라고 후보들을 쭉 뽑아주는 시대가 된 것이다.

5-2. RFdiffusion·Chroma: 구조 골격 자체를 AI가 만든다


그 다음 단계는 아예 골격 자체를 생성하는 것이다.

RFdiffusion, Chroma 같은 모델은
이미지 생성에 쓰이는 것과 비슷한 **확산모델(diffusion model)**을 이용해,

  • 처음에는 엉망인 노이즈 구조에서 시작해,

  • 점점 더 “단백질답게 보이는” 구조로 정제해 가면서,

  • 결국 **새로운 단백질 골격(backbone)**을 만들어낸다.

이를 활용한 전형적인 설계 루프는 다음과 같다.

  1. RFdiffusion/Chroma

    • 특정 표적 단백질에 잘 달라붙는다든지,

    • 특정 대칭 구조를 가진다든지 하는
      원하는 조건을 만족하는 새로운 단백질 골격을 생성한다.

  2. 이 골격을 ProteinMPNN에 넣어
    해당 골격을 안정화할 수 있는 서열을 여러 개 만든다.

  3. 이렇게 나온 서열들을 AlphaFold 등으로 다시 구조 예측해 본다.

    • 예측된 구조가 처음 설계한 골격과 잘 겹치고,
      신뢰도도 높다면
      → “실제로 잘 접힐 가능성이 높은 후보”로 본다.

  4. 그중 상위 몇 개만 실제 실험실에서 만들어 보고,
    구조와 기능을 검증한다.


    https://2023.igem.wiki/anu-australia/contribution



이렇게 해서,
자연계에는 없던 완전히 새로운 단백질 부품
설계해 보는 시대가 열리고 있다.


6. 이 기술은 어디에 쓰이나: 의약품·백신·합성생물학


이제 이 기술이 실제로 어디에 쓰이는지 살펴보자.

6-1. 단백질 의약품·백신·나노입자

  • 바이러스의 특정 표면 부위만 골라서 잘 보여주는
    단백질 나노입자를 설계해,
    그 부분에 대한 면역 반응을 집중적으로 유도하는 백신

  • 기존 항체 대신
    더 작고 안정적이며,
    대장균·효모 같은 값싼 숙주에서 대량 생산이 가능한 인공 결합 단백질을 이용해
    치료제를 만드는 전략

6-2. 미끼 단백질(decoy protein)

  • 예를 들어, 바이러스가 인체 세포에 달라붙을 때 사용하는 수용체(문 손잡이 역할)를
    더 잘 붙도록 다시 설계한 단백질을 만들어서
    공기 중 또는 특정 조직에 뿌리는 방식

  • 바이러스가 진짜 세포 대신 이 “가짜 손잡이”에 달라붙도록 유도해
    감염을 줄이는 개념이다.
    코로나19 때 ACE2를 활용한 미끼 단백질 아이디어가 이와 유사하다.

6-3. 인공 사이토카인·면역 조절 단백질

  • IL-2 같은 강력한 면역 신호 분자는
    항암 효과가 뛰어난 대신, 부작용도 매우 크다.

  • 구조 기반·AI 기반 설계로
    특정 면역세포에는 강하게, 다른 세포에는 약하게 작용하도록
    결합 특성을 조정한 “인공 사이토카인”을 만들려는 시도가 많다.

  • 면역세포가 특정 신호 조합에서만 켜지거나 꺼지게 하는
    인공 수용체·신호 회로도 단백질 설계의 영역이다.

6-4. 합성생물학 회로

  • 세포 안에

    • “이 분자가 감지되면 A 단백질을 만들고,
      저 분자가 같이 감지되면 B 단백질을 만들지 않는다”
      같은 **논리 회로(logic)**를 단백질 조합으로 구현하는 연구들

  • 이를 통해
    종양 미세환경에서만 선택적으로 반응하는 세포,
    특정 대사경로를 정밀하게 제어하는 미생물 등을 설계할 수 있다.

이 모든 흐름을 한 문장으로 요약하면 이렇다.

“삶을 구성하는 기본 부품인 단백질을,
이제는 필요에 맞게 설계해서 쓰는 시대가 열리고 있다.”

 


7. 그렇다고 만능은 아니다: 아직 남은 한계들


여기까지 들으면
“이제 단백질은 마음대로 설계하는 시대겠네?”
라는 생각이 들 수 있다.

하지만 아직은 거기까지 가지 않았다.

  • AI가 설계해 준 서열들 중,
    실제 실험에서 의도한 대로 잘 접히고, 기능까지 제대로 하는 비율은 여전히 낮다.

  • 구조 예측이 아무리 정확해도,

    • 세포 안에서 얼마나 안정적인지,

    • 얼마나 빨리 분해되는지,

    • 인체 면역계가 어떻게 반응하는지,

    • 독성은 없는지
      같은 것들은 반드시 별도의 실험으로 확인해야 한다.

  • 실제 free energy, 결합 친화도, 동역학(시간에 따른 움직임)을
    물리적으로 정확히 계산하는 작업은
    지금도 많은 시간과 컴퓨팅 자원을 필요로 한다.

정리하면, 지금은

“단백질을 거의 랜덤에 가깝게 찍어보던 시대”에서
“그래도 꽤 그럴듯한 후보들을 골라서 찍어볼 수 있는 시대”로
점프한 단계
라고 보는 것이 정확하다.

 
여전히 실험·검증·제조·규제가 병목이다.

다만 AI 덕분에 “어디를 찍어볼지”를 훨씬 잘 고를 수 있게 된 것이다.


8. 왜 “트랜지스터·집적회로” 비유가 나오는가


그럼에도 불구하고, 지금 상황을
**“트랜지스터 혹은 집적회로가 처음 등장하던 시점”**에 자주 비유하는 데에는 이유가 있다.

  • 트랜지스터 이전의 전자공학은

    • 커다란 부품과 진공관을
      사람이 일일이 설계하고 조립하는 세계였다.

  • 트랜지스터와 집적회로(IC)가 등장하면서

    • 회로 설계가 표준화된 부품과 디지털 논리 위에 쌓이는 산업이 되었고,

    • 그 위에 컴퓨터, 스마트폰, 인터넷, 클라우드까지
      우리가 아는 현대 ICT 산업 전체가 만들어졌다.

단백질·합성생물학도 비슷한 전환점을 맞고 있다.

  • 예전에는

    • 자연이 만들어 놓은 단백질을
      발견하고, 약간 변형해서 쓰는 것이 대부분이었다.

  • 이제는

    • AI 기반 구조 예측·디자인 도구 덕분에
      **“목적을 먼저 정하고, 그에 맞는 단백질을 설계하는 것”**이
      점점 더 현실적인 선택지가 되고 있다.

완전히 성숙한 산업·기술로 자리잡기까지는 아직 시간이 필요하다.
그러나 방향성은 꽤 뚜렷하다.

“단백질을 이해하고 설계하는 능력”은
앞으로 의약, 바이오, 합성생물학에서
트랜지스터·집적회로에 해당하는 기반 인프라 기술이 될 가능성이 크다.

 

지금 우리가 보고 있는

  • 단백질 언어모델,

  • AlphaFold,

  • ProteinMPNN,

  • RFdiffusion 같은 도구들은

바로 그 새로운 시대의 초창기 도구 세트라고 이해하면 된다.
수츠케버가 말한 “니치 AI”들이 여러 산업에서 분화·성장할 때,
바이오·제약 분야에서는 이 도구들을 중심으로 전혀 다른 지형의 혁신이 펼쳐질 가능성이 크다.

=끝

댓글 없음:

댓글 쓰기