이번글의 핵심 메시지는 아래와 같다.
“우리는 이제 단백질의 문법을 이해하기 시작했고,
그걸 가지고 생명체의 부품을 직접 설계할 수 있는 시대에 들어서고 있다.”
0. 왜 하필 지금, 그리고 왜 바이오·제약인가
일리야 수츠케버는 최근 인터뷰에서,
지금의 거대 언어모델(LLM) 하나가 모든 걸 다 하는 시대보다는,
-
위에 강력한 기반 AI가 있고
-
그 위에 각 도메인에 특화된 수많은 니치 AI 서비스가 올라가는 구조를 예상했다.
즉, 그의 1차 목표는 “당장 초월적 슈퍼인공지능”이라기보다는,
현실 세계 거의 모든 문제에 쓸 수 있을 만큼 일반적이고 유용한 기반 AI를 만드는 쪽에 더 가깝다고 볼 수 있다.
그 위에서 금융용 AI, 법률용 AI, 설계용 AI, 바이오·제약 AI 같은 것들이 파생·진화하는 그림이다.
현재 산업 지형을 이 관점에서 보면,
가장 큰 추가 부가가치를 만들어낼 분야는 바이오·제약일 가능성이 높지 않을까 했다.
그 한가운데에, **단백질 구조 예측 패러다임을 바꿔버린 AlphaFold(알파폴드)**가 자리하고 있다.
이전에 읽은 『알파폴드: AI 신약개발 혁신』과 관련 논의들을 바탕으로,
이 글에서는
-
왜 단백질이 “언어”처럼 다뤄지기 시작했는지
-
AlphaFold와 그 이후의 단백질 디자인 기술이 무엇을 바꿔놓았는지
-
이것이 의약·바이오 산업에 어떤 의미를 갖는지
를 정리해 두고자 한다.
1. 단백질은 사실상 하나의 ‘언어’이다
우리가 아는 단백질은 모두 아미노산이라는 작은 조각들이 줄줄이 이어진 사슬이다.
-
아미노산 20종류 → 알파벳 20개
-
아미노산이 이어진 서열 → 문장
-
단백질 안의 기능 단위(도메인) → 문단 정도로 생각하면 이해가 쉽다.
https://openbooks.lib.msu.edu/isb202/chapter/protein-structure-and-function/ https://openbooks.lib.msu.edu/isb202/chapter/protein-structure-and-function/
요즘 인공지능이 사람 말을 배우는 방법과 매우 비슷하다.
-
챗GPT 같은 언어모델은
수많은 문장을 읽으면서
“어떤 단어 옆에는 어떤 단어가 자주 오는지”를 통계적으로 배운다. -
단백질 언어모델은
수억 개의 단백질 서열을 학습하면서
“어떤 아미노산 옆에는 어떤 아미노산이 자주 오는지”를 배운다.
놀라운 점은, 이렇게 서열만 보고 학습한 모델 내부에
-
단백질의 입체 구조에 대한 정보,
-
기능에 중요한 위치에 대한 정보,
-
서로 붙어서 상호작용하는 부분에 대한 정보가
꽤 많이 숨어든다는 것이다.
물론 이것이
“한 번 학습하면 구조가 공짜로 자동 튀어나온다”는 뜻은 아니다.
구조 예측에는 여전히 별도의 모델과 학습이 필요하다.
다만, “단백질 서열 = 의미 없는 코드”가 아니라,
분명한 문법과 규칙을 가진 언어라는 인식은 거의 굳어졌다고 볼 수 있다.
2. 원래 단백질 구조 예측이 왜 그렇게 어려웠나
단백질이 몸 안에서 어떤 기능을 수행하는지는
결국 그 단백질의 **입체 모양(3차 구조)**에 의해 결정된다.
그리고 이 입체 모양은 다시 아미노산 서열에 의해 정해진다.
말만 들으면 단순하다.
“서열만 알면 구조도 알 수 있어야 하지 않나?”
하지만 현실은 이랬다.
2-1. 접히는 방법이 너무 많다
단백질이 어떻게 접힐 수 있느냐를 생각해 보자.
-
마치 종이 한 장을
가능한 모든 방식으로 접는 경우의 수를 상상하는 것과 비슷하다. -
이론적으로 가능한 모든 접힘을 다 탐색해 보고
가장 안정적인 모양을 찾으려 한다면,
계산상 지구 나이보다 더 오랜 시간이 걸린다는 이야기가 나올 정도이다.
실제로 세포 안에서 단백질은 이렇게 비효율적으로 움직이지 않는다.
-
주변 물·이온·다른 분자들과 상호작용하면서
**“에너지가 점점 내려가는 방향”**으로
비교적 빠르게 안정된 구조를 찾아간다.
하지만 이 과정을 컴퓨터로 그대로 흉내 내서 계산하는 것은
지금도 매우 어렵고, 시간이 많이 든다.
2-2. 에너지 지형은 “깔때기 + 울퉁불퉁한 산악지대”
과학자들은 단백질 접힘을
에너지 지도 위에서 굴러다니는 공에 비유한다.
-
전체적으로 보면 **낮은 곳(안정된 구조)**를 향해 내려가는
깔때기(funnel) 모양이다. -
그러나 표면이 매끈한 경사로가 아니라,
**수많은 작은 골짜기(국소 최소)**들이 중간중간 파여 있는
울퉁불퉁한 산악지대에 가깝다.
| https://www.researchgate.net/figure/Folding-funnel-energy-landscape-Globular-proteins-organize-themselves-from-a-random-coil_fig1_24268017 |
그래서 단백질은
-
어떤 경우에는 잘 접혀서 “제대로 된 안정 구조”에 도달하지만,
-
어떤 경우에는 중간 골짜기에 갇혀
제대로 접히지 못하거나 엉겨 붙는(응집되는) 경우도 생긴다.
| https://www.researchgate.net/figure/Schematic-of-a-a-funnel-shaped-energy-landscape-of-an-amino-acid-sequence-that-has_fig1_337614917 |
이처럼 경우의 수가 너무 많고 에너지 지형이 복잡하다 보니,
오랫동안 **“서열만 보고 구조를 맞추는 것”**은
이론적으로만 가능할 뿐, 현실에서는 거의 불가능한 문제로 여겨졌다.
3. 옛날 방식: 물리 계산과 “비슷한 것 따라 그리기”
이 난제를 풀기 위해, 과학자들은 크게 두 가지 길로 접근했다.
3-1. 물리적인 에너지 계산 + 조각 맞추기 (Rosetta 계열)
-
단백질을 작은 구조 조각으로 나누고,
-
이 조각들을 여러 방식으로 이어 붙여 보면서,
-
에너지가 낮아지는 방향으로 구조를 탐색한다.
짧은 단백질이나 비교적 단순한 경우에는
이 방식이 어느 정도 통했다.
하지만
-
단백질이 길어지고,
-
도메인이 여러 개이고,
-
복합체(여러 단백질이 합쳐진 덩어리)가 되면
가능한 조합 수와 계산량이 폭발하고,
로컬 최소에 갇혀 실패하는 경우가 많았다.
3-2. 비슷한 단백질 구조를 찾아서 따라 그리기 (상동모델링)
다른 한 축은 훨씬 실용적인, “비슷한 것 따라 그리기” 방식이다.
-
이미 X선 결정 구조 같은 걸로
입체 구조가 밝혀진 단백질들이 데이터베이스에 많이 쌓여 있다. -
새로 구조를 알고 싶은 단백질 서열이 들어오면,
그 서열과 **비슷한 서열(상동 단백질)**을 데이터베이스에서 찾는다. -
그리고 그 상동 단백질의 구조를 템플릿 삼아,
“모양을 입혀보는” 방식으로 구조를 예측한다.
서열 유사도가 높을 때는 이 방식이 꽤 잘 통한다.
하지만
-
비슷한 구조가 데이터베이스에 없거나,
-
서열이 너무 많이 달라져 있으면
예측 정확도가 급격히 떨어진다.
그래서 이 두 방법만으로는
“어떤 서열이 와도, 구조를 안정적으로 맞출 수 있는 일반적인 해법”
이라고 말하기 어려웠다.
4. AlphaFold 혁명: 진화 정보 + 딥러닝
상황을 바꾼 것은 **“진화 정보”와 “딥러닝”**의 결합이다.
요즘은 각종 생물의 유전체가 대량으로 해독되면서,
같은 계열 단백질에 대한 서열이 수없이 쌓여 있다.
이를 모아 정렬한 것을 **다중서열정렬(MSA)**이라고 부른다.
| https://dromicslabs.com/multiple-sequence-alignment-technique/ |
이 MSA를 들여다보면 몇 가지 중요한 사실을 알 수 있다.
-
서열은 꽤 바뀌어도, 구조는 크게 안 바뀌는 경향이 있다.
-
특히 기능과 구조에 핵심적인 자리는
아미노산이 잘 바뀌지 않고 보존된다. -
입체 구조상 서로 가까이 붙어 있는 아미노산들은
**함께 변하는 경향(공변이)**을 보이는 경우가 많다.https://www.researchgate.net/figure/Multiple-sequence-alignment-of-conserved-regions-in-the-motor-domain-of-Eg5-from-five_fig1_325907668
AlphaFold는 이 진화 패턴을 딥러닝으로 읽어낸다.
4-1. AlphaFold 1: 거리·각도 분포를 예측한다
AlphaFold 1의 아이디어는 다음과 같다.
-
입력
-
단백질 서열
-
그 서열의 MSA
-
(있다면) 비슷한 단백질의 템플릿 구조
-
-
합성곱 신경망(CNN)을 이용해,
아미노산 쌍마다 서로 얼마나 떨어져 있는지(거리),
**어떤 방향으로 배치되는지(각도)**의 확률 분포를 예측한다. -
이 분포를 가장 잘 만족시키는 3차원 구조를
일종의 에너지 최소화 문제로 풀어낸다.
즉,
**“MSA에서 공변이 정보를 추출 → 잔기–잔기 거리/각도 분포 예측 →
그 제약을 만족하는 구조를 최적화로 찾는 방식”**이다.
4-2. AlphaFold 2: 한 단계 더 나아간 end-to-end 구조 예측
AlphaFold 2는 이 접근을 한 단계 더 밀어붙였다.
대략적인 과정은 다음과 같다.
-
MSA 만들기
-
알고 싶은 단백질 서열과 비슷한 서열들을
전 세계 데이터베이스에서 끌어와 하나의 큰 정렬표를 만든다.
-
-
Evoformer라는 딥러닝 블록
-
이 MSA를,
챗GPT 등에 쓰이는 것과 비슷한 트랜스포머 계열 신경망으로 여러 번 돌린다. -
이 과정에서
-
“어떤 아미노산 쌍이 서로 관련 있는지”
-
“어떤 패턴이 진화적으로 보존되는지”
같은 정보가 내부 표현에 농축된다.
-
-
-
Structure module
-
이렇게 정리된 정보를 입력 삼아
**단백질의 3차원 좌표(원자 위치)**를 직접 예측한다. -
AlphaFold 1처럼
“거리 분포 → 에너지 함수 → 최적화” 단계를 따로 두기보다,
신경망이 곧장 좌표를 내놓는 함수를 학습한 셈이다.
-
-
재순환(recycling)
-
한 번 예측된 구조에서 거리·각도 정보를 다시 뽑아
Evoformer 입력에 섞어 넣고, -
이 과정을 여러 차례 반복하면서
구조를 점점 더 정밀하게 다듬는다.
-
이 접근 덕분에, AlphaFold 2는
수많은 단백질에 대해,
실험 구조에 상당히 근접한 수준의 예측을 자동으로 내놓을 수 있게 되었다.
(물론 모든 단백질에 대해 완벽하다고 말할 수는 없지만,
“패러다임이 바뀌었다”고 부를 만한 수준의 도약이었다.)
알기 쉬운 그림설명은 아래의 블로그 참조
https://piip.co.kr/en/blog/AlphaFold-Breakthrough-AI-Challenges-Protein-Folding-Problem-1
5. “예측”에서 “디자인”으로: 단백질을 직접 설계하는 시대
구조를 잘 맞히게 된 것 자체도 엄청난 진전이지만,
궁극적으로 산업적 파급력이 더 큰 쪽은 **“디자인”**이다.
이제 질문은 이렇게 바뀌고 있다.
-
예전:
“이 서열은 어떤 구조를 만들까?”
-
지금:
“이런 구조를 만들고 싶은데,
그 구조를 만들어 줄 서열은 무엇일까?”
5-1. ProteinMPNN: 구조에서 서열로 (structure → sequence)
여기서 등장하는 대표 도구가 ProteinMPNN이다.
-
입력: 만들고 싶은 단백질의 입체 골격(뼈대 구조)
-
출력: 그 구조를 안정적으로 형성해 줄 수 있는 아미노산 서열
즉, **“구조에서 서열로 가는 신경망”**이다.
이제는 특정 모양을 가진 단백질을 상상해 두고,
그 모양을 주면 AI가
“이런 서열로 만들면 그 구조가 잘 나올 것 같다.”
라고 후보들을 쭉 뽑아주는 시대가 된 것이다.
5-2. RFdiffusion·Chroma: 구조 골격 자체를 AI가 만든다
그 다음 단계는 아예 골격 자체를 생성하는 것이다.
RFdiffusion, Chroma 같은 모델은
이미지 생성에 쓰이는 것과 비슷한 **확산모델(diffusion model)**을 이용해,
-
처음에는 엉망인 노이즈 구조에서 시작해,
-
점점 더 “단백질답게 보이는” 구조로 정제해 가면서,
-
결국 **새로운 단백질 골격(backbone)**을 만들어낸다.
이를 활용한 전형적인 설계 루프는 다음과 같다.
-
RFdiffusion/Chroma로
-
특정 표적 단백질에 잘 달라붙는다든지,
-
특정 대칭 구조를 가진다든지 하는
원하는 조건을 만족하는 새로운 단백질 골격을 생성한다.
-
-
이 골격을 ProteinMPNN에 넣어
해당 골격을 안정화할 수 있는 서열을 여러 개 만든다. -
이렇게 나온 서열들을 AlphaFold 등으로 다시 구조 예측해 본다.
-
예측된 구조가 처음 설계한 골격과 잘 겹치고,
신뢰도도 높다면
→ “실제로 잘 접힐 가능성이 높은 후보”로 본다.
-
-
그중 상위 몇 개만 실제 실험실에서 만들어 보고,
구조와 기능을 검증한다.https://2023.igem.wiki/anu-australia/contribution
이렇게 해서,
자연계에는 없던 완전히 새로운 단백질 부품을
설계해 보는 시대가 열리고 있다.
6. 이 기술은 어디에 쓰이나: 의약품·백신·합성생물학
이제 이 기술이 실제로 어디에 쓰이는지 살펴보자.
6-1. 단백질 의약품·백신·나노입자
-
바이러스의 특정 표면 부위만 골라서 잘 보여주는
단백질 나노입자를 설계해,
그 부분에 대한 면역 반응을 집중적으로 유도하는 백신 -
기존 항체 대신
더 작고 안정적이며,
대장균·효모 같은 값싼 숙주에서 대량 생산이 가능한 인공 결합 단백질을 이용해
치료제를 만드는 전략
6-2. 미끼 단백질(decoy protein)
-
예를 들어, 바이러스가 인체 세포에 달라붙을 때 사용하는 수용체(문 손잡이 역할)를
더 잘 붙도록 다시 설계한 단백질을 만들어서
공기 중 또는 특정 조직에 뿌리는 방식 -
바이러스가 진짜 세포 대신 이 “가짜 손잡이”에 달라붙도록 유도해
감염을 줄이는 개념이다.
코로나19 때 ACE2를 활용한 미끼 단백질 아이디어가 이와 유사하다.
6-3. 인공 사이토카인·면역 조절 단백질
-
IL-2 같은 강력한 면역 신호 분자는
항암 효과가 뛰어난 대신, 부작용도 매우 크다. -
구조 기반·AI 기반 설계로
특정 면역세포에는 강하게, 다른 세포에는 약하게 작용하도록
결합 특성을 조정한 “인공 사이토카인”을 만들려는 시도가 많다. -
면역세포가 특정 신호 조합에서만 켜지거나 꺼지게 하는
인공 수용체·신호 회로도 단백질 설계의 영역이다.
6-4. 합성생물학 회로
-
세포 안에
-
“이 분자가 감지되면 A 단백질을 만들고,
저 분자가 같이 감지되면 B 단백질을 만들지 않는다”
같은 **논리 회로(logic)**를 단백질 조합으로 구현하는 연구들
-
-
이를 통해
종양 미세환경에서만 선택적으로 반응하는 세포,
특정 대사경로를 정밀하게 제어하는 미생물 등을 설계할 수 있다.
이 모든 흐름을 한 문장으로 요약하면 이렇다.
“삶을 구성하는 기본 부품인 단백질을,
이제는 필요에 맞게 설계해서 쓰는 시대가 열리고 있다.”
7. 그렇다고 만능은 아니다: 아직 남은 한계들
여기까지 들으면
“이제 단백질은 마음대로 설계하는 시대겠네?”
라는 생각이 들 수 있다.
하지만 아직은 거기까지 가지 않았다.
-
AI가 설계해 준 서열들 중,
실제 실험에서 의도한 대로 잘 접히고, 기능까지 제대로 하는 비율은 여전히 낮다. -
구조 예측이 아무리 정확해도,
-
세포 안에서 얼마나 안정적인지,
-
얼마나 빨리 분해되는지,
-
인체 면역계가 어떻게 반응하는지,
-
독성은 없는지
같은 것들은 반드시 별도의 실험으로 확인해야 한다.
-
-
실제 free energy, 결합 친화도, 동역학(시간에 따른 움직임)을
물리적으로 정확히 계산하는 작업은
지금도 많은 시간과 컴퓨팅 자원을 필요로 한다.
정리하면, 지금은
“단백질을 거의 랜덤에 가깝게 찍어보던 시대”에서
“그래도 꽤 그럴듯한 후보들을 골라서 찍어볼 수 있는 시대”로
점프한 단계라고 보는 것이 정확하다.
여전히 실험·검증·제조·규제가 병목이다.
다만 AI 덕분에 “어디를 찍어볼지”를 훨씬 잘 고를 수 있게 된 것이다.
8. 왜 “트랜지스터·집적회로” 비유가 나오는가
그럼에도 불구하고, 지금 상황을
**“트랜지스터 혹은 집적회로가 처음 등장하던 시점”**에 자주 비유하는 데에는 이유가 있다.
-
트랜지스터 이전의 전자공학은
-
커다란 부품과 진공관을
사람이 일일이 설계하고 조립하는 세계였다.
-
-
트랜지스터와 집적회로(IC)가 등장하면서
-
회로 설계가 표준화된 부품과 디지털 논리 위에 쌓이는 산업이 되었고,
-
그 위에 컴퓨터, 스마트폰, 인터넷, 클라우드까지
우리가 아는 현대 ICT 산업 전체가 만들어졌다.
-
단백질·합성생물학도 비슷한 전환점을 맞고 있다.
-
예전에는
-
자연이 만들어 놓은 단백질을
발견하고, 약간 변형해서 쓰는 것이 대부분이었다.
-
-
이제는
-
AI 기반 구조 예측·디자인 도구 덕분에
**“목적을 먼저 정하고, 그에 맞는 단백질을 설계하는 것”**이
점점 더 현실적인 선택지가 되고 있다.
-
완전히 성숙한 산업·기술로 자리잡기까지는 아직 시간이 필요하다.
그러나 방향성은 꽤 뚜렷하다.
“단백질을 이해하고 설계하는 능력”은
앞으로 의약, 바이오, 합성생물학에서
트랜지스터·집적회로에 해당하는 기반 인프라 기술이 될 가능성이 크다.
지금 우리가 보고 있는
-
단백질 언어모델,
-
AlphaFold,
-
ProteinMPNN,
-
RFdiffusion 같은 도구들은
바로 그 새로운 시대의 초창기 도구 세트라고 이해하면 된다.
수츠케버가 말한 “니치 AI”들이 여러 산업에서 분화·성장할 때,
바이오·제약 분야에서는 이 도구들을 중심으로 전혀 다른 지형의 혁신이 펼쳐질 가능성이 크다.
=끝