컴퓨터과학 연구소인 Microsoft Research의 팀이 새로운 단백질을 배열을 기반으로 생성하는 AI 'EvoDiff'를 개발했습니다. 단백질의 입체구조에 기초한 종래의 접근법과는 달리 단백질의 아미노산 배열에 초점을 맞추면 단백질공학에 큰 진전을 일으킬 가능성이 있습니다.

Abstracts: September 13, 2023 - Microsoft Research
https://www.microsoft.com/en-us/research/podcast/abstracts-september-13-2023/

Abstracts: September 13, 2023

The new #MSRPodcast series “Abstracts” is your source for cutting-edge research in brief. In the first episode, join researchers Ava Amini and Kevin K. Yang to learn about their new paper on using evolutionary-scale protein data to improve protein desi

www.microsoft.com


Microsoft open sources EvoDiff, a novel protein-generating AI | TechCrunch
https://techcrunch.com/2023/09/14/microsoft-open-sources-evodiff-a-novel-protein-generating-ai/

Microsoft open sources EvoDiff, a novel protein-generating AI | TechCrunch

Microsoft has open sourced EvoDiff, an AI system and framework that can generate proteins without needing a protein sequence.

techcrunch.com


단백질은 체내의 다양한 세포의 과정에 관여하는 분자로, 예를 들어 헤모글로빈은 혈액에서 산소를 운반하고 인슐린은 혈당치를 조절합니다. 다양한 질병의 메커니즘에 단백질이 관여하고 있으며 치료에도 단백질이 사용되는 경우가 많아 유용한 단백질을 새롭게 만드는 것은 의료연구에서 중요합니다.

또한 단백질은 생물체 내에서의 활동뿐만 아니라 촉매로서의 작용이나 화학물질을 제조하기 위한 효소 등의 산업적인 용도에도 이용됩니다. 특정 기능을 가진 단백질을 생성하는 능력을 높여 플라스틱 쓰레기를 분해하는 효소, 광합성을 보다 효율적으로 하는 효소 등을 만들어 현대 사회가 안고 있는 다양한 문제에 대처할 수 있다고 합니다.

by by Oregon State University / https://www.flickr.com/photos/oregonstateuniversity/


그래서 Microsoft Research의 연구팀은 새로운 단백질을 생성하는 AI 'EvoDiff'를 개발했습니다. 이전부터 AI를 사용하여 단백질을 생성하는 접근법은 존재했지만, 우선 신체에서 특정 작업을 수행할 수 있는 단백질의 입체구조를 고려한 다음 그 입체구조로 접을 수 있는 단백질의 아미노산 배열을 찾는 전통적인 접근방식은 컴퓨팅과 인적자원 모두에서 비용이 많이 든다는 문제가 있었습니다.

Oregon State University의 연구팀은 단백질의 입체구조로 시작하여 새로운 단백질을 생성하는 것이 아니라 단백질의 아미노산 배열만을 기반으로 새로운 단백질을 생성하는 접근법을 개발했습니다. 단백질의 입체구조에 근거한 접근법에서는 데이터세트로서 사용할 수 있는 입체구조의 수에 한계가 있기 때문에 트레이닝 데이터의 범위가 크게 제한된다는 문제도 있었다고 합니다. 이에 연구팀은 아미노산 배열에 초점을 맞추어 대규모의 다양한 진화적 데이터세트를 얻고 AI를 훈련시킬 수 있었다고 합니다.

Microsoft Research의 연구자로 논문의 상급저자인 Kevin K. Yang 씨는 테크놀로지계 미디어인 TechCrunch와의 메일 인터뷰에서 "우리는 EvoDiff가 단백질공학의 능력을 구조-기능의 패러다임을 넘어 프로그램 가능한 배열을 우선시한 설계로 확대하기 위해 노력했습니다. EvoDiff를 통해 새로운 단백질을 제어 가능한 방식으로 설계하는 데 필요한 것은 입체구조가 아니라 단백질 배열이 전부일 가능성을 입증하고 있습니다”라고 설명했습니다.

Yang 씨는 단백질의 아미노산 배열로부터 입체구조를 재현하는 모습을 나타낸 GIF 동영상을 공개했습니다.

EvoDiff combines evolutionary-scale data with diffusion models for controllable protein sequence generation.
https://twitter.com/KevinKaichuang/status/1701953715312136302?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1701953715312136302%7Ctwgr%5E03c32fa5223f5b6b998ba0a645dbcdbceaedbd69%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fgigazine.net%2Fnews%2F20230915-microsoft-evodiff-novel-protein-generating-ai%2F

EvoDiff 프레임워크의 핵심이 되는 것은 단백질의 아미노산 배열과 기능정보로 구성된 방대한 데이터세트로 훈련된 6억 4000만 파라미터를 가지는 모델입니다. EvoDiff는 이미지생성 AI의 Stable Diffusion 등과 같은 확산모델을 채용하고 있으며 거의 노이즈로 구성된 시작시점의 단백질 배열로부터 노이즈를 서서히 줄여가면서 단계적으로 단백질 배열에 접근해 간다고 것.


기존의 입체구조에 근거한 접근법에서는 3차원 구조가 없는 천연 변성 단백질을 합성할 수 없다는 문제도 있었지만, 배열 기반인 EvoDiff에서는 천연 변성 단백질을 생성하는 것도 가능합니다. 이러한 천연 변성 단백질은 다른 단백질의 활성을 증강 또는 감소시키는 등의 생물학 및 질병의 기전에서 중요한 역할을 합니다.

또 단백질에 있어서 특정한 기능이나 구조를 가지는 구조 모티프를 유지해, 주위를 보완하는 형태로 새로운 단백질을 만들어낼 수도 있다고 합니다.


연구팀은 EvoDiff에 의해 생성된 단백질의 아미노산 배열은 자연계에 존재하는 단백질의 구조적·기능적·배열 공간적인 특징의 전체상을 커버하고 있다며 앞으로 EvoDiff가 생성한 단백질을 실험실에서 테스트하고 실제로 작동하는지 확인할 예정이라고 합니다.

EvoDiff의 코드는 GitHub에서 공개되어 있습니다.

GitHub - microsoft/evodiff: Generation of protein sequences and evolutionary alignments via discrete diffusion models
https://github.com/microsoft/evodiff

GitHub - microsoft/evodiff: Generation of protein sequences and evolutionary alignments via discrete diffusion models

Generation of protein sequences and evolutionary alignments via discrete diffusion models - GitHub - microsoft/evodiff: Generation of protein sequences and evolutionary alignments via discrete diff...

github.com

Posted by 말총머리
,