by Enzymlogic https://www.flickr.com/photos/101755654@N08/


모든 생물학적 과정의 중심이 되는 단백질에 대해서, 각각의 단백질은 고유의 입체구조를 가지는 것까지는 규명되어 있는데, '각각의 단백질이 실제로 어떤 입체구조를 가지고 있는가?'에 관한 연구는 지난 50년 동안 큰 진전이 없습니다. 각각의 단백질이 가진 입체구조에 이르기까지의 '폴딩'이라는 과정을 조사하는 연구가 얼마나 어려운 것인지를, 실제로 폴딩 연구를 하고 있던 제이슨 크로포드 씨가 설명합니다.

What is 'protein folding'? A brief explanation
https://rootsofprogress.org/alphafold-protein-folding-explainer

What is the “protein folding problem”? A brief explanation

AlphaFold from Google DeepMind is said to solve the protein folding problem. What is that, and why is it hard?

rootsofprogress.org


단백질은 21종류의 아미노산이 다수 결합한 거대한 분자의 총칭으로, 각각의 단백질을 구성하는 아미노산의 수와 종류, 결합 순서는 DNA의 염기서열에 의해 결정됩니다. 모든 단백질은 쇄상이라는 직선적인 형태를 하고 있습니다만, 실제로는 각각의 단백질은 직선적인 형상이 아니라 입체적인 형상으로 뭉쳐 안정화합니다.

각각의 단백질을 쇄상으로 생각한다면 '일차구조'라고 부르고 입체적인 형상으로 생각한다면 '이차구조'라고 합니다. 단백질의 이차구조의 대표적인 예가 다음 β-sheet(왼쪽)와 α-helix(오른쪽)라는 구조로, β-sheet는 하나의 단백질이 평면으로 접혀 안정된 상태이고 α-helix는 나선형으로 안정된 상태를 말합니다.

By Thomas Shafee https://en.wikipedia.org/wiki/User:Evolution_and_evolvability


이차구조의 단백질이 모여 안정된 상태를 '삼차구조'라고 합니다. 아래의 이미지는 Colwellia psychrerythraea라는 박테리아의 효소의 삼차구조입니다.

by Argonne National Laboratory https://www.flickr.com/photos/35734278@N05/3762337272


삼차구조는 여러 단백질이 얽힌 임의의 구조로 보이지만 실제로는 각각의 단백질의 삼차구조는 1가지밖에 없습니다. 각각의 단백질은 삼차구조에 따른 특성을 가지고 있어서 삼차구조를 검토하는 것이 중요시되고 있지만, 현재 삼차구조의 조사방법은 고액이고 시간이 걸릴뿐만 아니라 일부 단백질에는 적용할 수 없고, 이미 1억 8000만 가지가 발견되었다는 단백질 모두를 조사하는 것은 불가능합니다. 따라서 각각의 단백질이 어떻게 폴딩을 할 것인가를 나타내는 '폴딩 문제'를 풀어 일차구조에서 삼차구조를 추정하는 방법이 요구되고 있습니다.

폴딩 문제를 해결하기 위해 사용되는 것이 컴퓨터 시뮬레이터입니다. 시뮬레이터에 각각의 단백질에 포함된 원자의 위치 · 전하 · 화학결합 등을 고려한 모델을 입력하고 각각의 가속도와 속도를 산정시킴으로써 삼차구조가 추정 가능합니다. 이러한 학문 분야는 'molecular dynamics'로 불리며 최근 활발해지고 있다고 합니다.

그러나 시뮬레이터로 삼차구조를 추정하는 방법은 '컴퓨터의 파워가 필요하다'는 문제가 있습니다. 대부분의 단백질은 수천 개의 원자로 구성되어 있는 데다 주변의 물분자와 상호작용을 합니다. 그러므로 일반적인 삼차구조 하나에 관련된 원자는 약 3만 개, 그 상호관계는 4억 5000만에 달하는 것. 모든 원자를 시뮬레이션하는 대신 가능한 구조 후보 중에서 가장 안정된 구조를 에너지 지형으로부터 산정하는 대체 방법도 고안되어 있다고 합니다만, 구조 후보는 10^300개에 달할 것으로 보이며, 모든 패턴을 계산하기 전에 우주의 수명이 다한다고 합니다.

이러한 계산에 도움이 되는 것이 슈퍼컴퓨터 및 분산컴퓨팅입니다. 전세계 가정에 있는 PC의 연산능력을 합산하여 폴딩 문제를 규명하는 프로젝트 'Folding@home'는 세계 TOP500 슈퍼컴퓨터를 모두 합산한 성능에 달해, 2020년 신종 코로나바이러스의 대유행 이후 신종 코로나바이러스의 내부에 있는 단백질의 분석도 실시하고 있습니다.


2020년 12월 1일, Google 산하의 인공지능 기업 DeepMind가 기계학습을 이용하여 단백질의 삼차구조를 비약적인 속도와 높은 정확도로 예측할 수 있는 'AlphaFold'라는 시스템을 발표했습니다.

AlphaFold는 복수의 신경망을 통해 각각의 단백질에 관련된 다양한 기능을 학습하여 삼차구조의 단백질에 포함된 아미노산의 최종 거리를 예측할 수 있는 함수를 도출한다고 합니다. AlphaFold를 통한 구조 예측은 다른 컴퓨터 프로그램을 웃돌고 있을뿐 아니라 기존의 기법 이상의 정확도를 달성하고 있는 것으로 확인되고 있습니다.


DeepMind는 발표에서 "폴딩 문제를 해결했다"고 주장하고 있는데, 크로포드 씨는 "DeepMind의 주장은 너무 단순하다고 생각합니다만, 어쨌든 획기적인 발전입니다"라고 평합니다.

Posted by 말총머리
,