Drug/Computer-Aided Drug Discovery

인공지능 신약개발이란 무엇인가?

Novelism 2022. 6. 1. 22:08

 

 저는 인공지능 신약개발 업계에서 일하고 있지만,

 인공지능 신약개발이란 무엇인가 라는 질문은 참 대답하기 어려운 질문입니다. 

( 사실 이 질문을 할 때, 최종적으로 알고 싶은 것은, 그래서 인공지능으로 약을 어떻게 만드냐? 인 경우가 많습니다. 아직까지 이렇게 하면 약을 만들 수 있다. 같은 대답은 하기 어렵습니다. )

 

 사전적인 의미는 당연히 사전에 있을 것 같지 않으니 없고요. 

 대략적인 통념은 인공지능으로 신약개발을 하거나, 신약개발에 인공지능을 활용하는 것이지만 의미의 범위가 넓고 모호합니다. 왜냐하면 신약개발 과정에서 얼마나 인공지능을 사용하는지, 어느 단계에 사용하는지가 확실하지 않기 때문입니다. 전 과정 중에서 별로 중요하지 않은 부분에 살짝 사용한다면 그것을 가지고 인공지능으로 신약을 개발한다고 하긴 어렵겠죠.

 

 인공지능 신약개발의 현황, 현재 사람들이 많이 하고 있는 인공지능 신약개발이라는 의미로 생각하는 게 아마 가장 적절할 것 같습니다. 

 신약개발 주기에서 현재 인공지능이 활용되는 분야는 타깃 발굴, 유효 물질 탐색/설계 및 최적화 부분입니다. 

 타깃 발굴은 생물학적인 영역으로, 주로 유전체 데이터를 사용합니다. 저는 직접 이 영역에서 연구해본 적은 없어서 인공지능을 어떻게 사용하는지 자세히는 모릅니다. 대략, 유전체 발현량 데이터로부터 중요한 타깃 단백질을 찾는 과정도 있고, AI는 아닌 것 같지만, 단백질 변이를 분석하기도 합니다. 

 

 유효물질 탐색 방법은 크게 알려진 분자들 중에서 유효한 물질을 찾는 가상 스크리닝, 새로운 유효물질을 설계하는 분자 설계 (생성), 이미 알려진 약물을 다른 용도로 사용하는 리퍼포징이 있습니다. 

 리퍼포징은 보통 임상단계, 혹은 임상 승인 약물을 대상으로 합니다. 리퍼포징은 기술이나 방법론은 아니고 개념에 가깝습니다. 리퍼포징에 가상 스크리닝 기술을 사용할 수도 있습니다. 주로 실험 데이터로부터 시작하는데, 유전체 데이터를 이용하는 경우도 많습니다. 유전체 데이터를 사용할 때 인공지능 기술을 활용하기도 합니다. 

 

 가상 스크리닝에서 인공지능은 분자 특성 예측(유효성)과 DTI (drug-target interaction)로 나눌 수 있습니다. 

 둘의 차이는, 특성 예측은 기본적으로 단백질의 피처를 사용하지 않고, 대신 하나의 단백질에 대한 유효성 데이터만을 사용해서 모델을 학습시키고 스크리닝 라이브러리의 분자에 대해서 이 단백질에 대한 유효성 여부를 예측합니다. 동시에 여러 개 단백질에 대한 결과를 예측하는 멀티 테스크 러닝을 사용할 수도 있습니다. 멀티 테스크 러닝일지라도, 예측 레이블이 여럿이지, 단백질에 대한 피처는 들어가지 않습니다. 

 DTI는 멀티 테스트 러닝과는 다르게 단백질의 피처가 입력으로 들어갑니다. DTI모델은 입력한 피처에 해당하는 단백질에 대한 결과를 예측합니다. 이는 크게 단백질의 서열 정보를 피처로 사용하는 방식과, 구조 정보를 피처로 사용하는 방식으로 나눌 수 있습니다. 구조 정보를 피처로 사용하는 경우는 또 세부적으로 단백질-리간드의 docking 구조를 사용하는가, 단백질 구조와 리간드 구조를 따로 사용하는가로 나눌 수 있습니다. 

 

분자 특성 예측이나 DTI에서 분자의 데이터는 molecular fingerprint, SMILES, graph 등이 있습니다. 이런 데이터에 따라 Random Forest, SVM, ANN, RNN, graph CNN, 3D CNN, 3D GCN 등 다양한 머신러닝 모델들을 사용할 수 있습니다.

 

 분자 생성 모델은 새로운 분자를 생성해내는 인공지능 방법론입니다. 주로 분자 SMILES나 graph 형태의 데이터를 생성합니다. RNN, GAN이나 VAE 등 일반적으로 생성 모델에서 많이 사용되는 방식들을 사용합니다. 강화 학습을 사용하기도 합니다. 임의의 분자를 완전히 새로 만들기도 하지만, 코어를 제공하고 코어에 다른 부분을 붙여서 분자를 키워나가는 방법을 사용하기도 합니다. 후자는 주로 리드 옵티마이즈에 활용합니다. 실험적인 방법에서도 그렇기 하는 경우가 있으니까요. 

 

아쉽게도 전임상이나 임상 시험 단계에서 AI 활용하는 사례는 한국에서 별로 찾아보기 어렵습니다. 저는 이 부분이 훨씬 중요하다고 생각합니다.

 항상 인공지능 신약개발에 대해 이야기할 때, 신약개발은 시간과 비용이 많이 드는데, 성공률이 낮고 그걸 해결하려고 인공지능을 도입한다고 말하지만, 정작 이런 약물 디자인 영역은 신약개발에서도 앞부분이고 전체 비용과 시간이 많이 드는 부분이 아닙니다. 그리고, 머신을 학습시키기 위해선 실험 데이터가 필요한데, 데이터가 있다는 것은 이미 유효물질을 알고 있다는 것입니다. 그 물질이 나의 것이라면, 인공지능으로 새로 찾을 필요가 없을 것이고, 데이터베이스상의 것이라면, 이미 그 타깃에 대해선 많은 연구가 진행되어서 경쟁자가 많다는 의미입니다. 아무튼 경쟁이 치열하지만, 신약개발 전체에서 소모되는 비용과 시간을 생각하면... 10년 걸릴 일을 9년으로 줄여주고 3천억 소모될 일을 2990억으로 줄여준다면... 별로 안 끌립니다. 

 한국에 이미 임상을 목표로 하는 수백 개의 바이오 벤처가 있습니다. 하지만, 임상 성공사례는 매우 적습니다. 유효 물질 못 찾아서 이렇게 된 것은 아니라고 생각합니다. 정말로 인공지능이 시간과 비용을 줄여준다고 하기 위해선, 임상 시험 성공률을 올릴 수 있어야 합니다. 단지 약물을 잘 설계하는 것이 아닌, 더 확실한 검증을 해야 하고, 비용과 시간이 많이 소모되는 임상과정에서 비용과 시간을 줄일 수 있어야 합니다.