Drug/Computer-Aided Drug Discovery

인공지능 신약개발에서 데이터 생산의 중요성

Novelism 2022. 3. 19. 19:08

 

 기계학습은 당연히 데이터가 있어야 할 수 있습니다. 

 공공 데이터는 적은 것은 아니지만, 여러 문제가 있습니다.

 원하는 타겟에 대한 데이터는 많지 않고, ChEMBL처럼 active위주로 수집이 되어있거나, 

 

 저는 학계에서 인공지능 신약개발 연구를 하다가, 공공데이터에만 의존하고 자체적인 데이터가 없이는 어렵다는 생각이 들어서 인공지능 신약개발 회사로 이직했습니다. 회사는 돈 벌기 위해서 연구하는 곳이니까, 아무래도 돈을 들여서 데이터를 많이 만들 줄 알았죠. 

회사에서 돈 들여서 데이터를 만들거나, 파트너로부터 데이터를 얻어서, 그 데이터를 학습하고 분자를 선별하고 그것을 다시 학습에 활용하고, 이 과정을 반복해나가면서 신약개발을 할 거라 생각했지만, 전혀 그런 것 하지 않더군요. 

그냥 공공데이터 가지고 학습 한번 하고 끝입니다. 성공해도, 실패해도 피드백은 없습니다. 

 

 최근에 A Deep Learning Approach to Antibiotic Discovery, 

Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning

두 논문을 보고 느낀 점이 있습니다. 

전자는 항생제(small molecule drug), 후자는 항체입니다. 

 둘은 서로 다른 종류의 약물이고, 인공지능 기술도 다릅니다. 

 그런데 두 연구에는 공통점이 있습니다. 

 직접 실험을 해서 데이터를 확보하고, 그것을 이용해서 학습을 진행했고 학습된 머신을 이용해서 라이브러리로부터 적절한 약물을 탐색했습니다.  공공데이터는 비록 좋은 데이터이긴 하지만, 특정 목적에 의해 만들어지거나 수집되어있기에 다른 용도에 적절하지 않을 수 있습니다. 결국 내가 필요로 하는 용도에 맞게 데이터를 수집, 생산해야 하는 게 아닌가?라는 생각이 듭니다.


한두 사례 가지고 인공지능이 정말로 좋아서 성공했는지, 어쩌다 운 좋게 나온 것인지 판단하긴 어렵네요. 앞의 논문은 데이터를 분석하다 보니 그 물질이 왜 탐색되었는지는 알겠지만, 그게 좋은 예측이었는지 좀 의문이 드는 부분이 있긴 합니다. 분석을 좀 더 진행해보면 알 수 있을 텐데...

 

 데이터를 어떻게 확보할 것인가가 인공지능 사업에서 중요한 요소중 하나입니다. 

 그런데 데이터를 생산하는데 돈이 많이 듭니다. 앞의 논문만 해도 2천 개 이상의 분자에 대해 실험을 했는데, 분자를 준비하고 실험하는 비용이 하나당 싸게 잡아서 10만 원이라고 치면 2억이군요. 데이터 준비만을 위해서 그 정도로 돈을 쓰다니 너무나 부럽습니다. 

 

 제가 참여한 약물 가상 탐색 프로젝트의 실험 예산은 물질 구매와 실험 비용 1천만 원 정도로 추측합니다. 물질 11개 구매해서 실험했네요. 그래도 약효가 높진 않아도 5개는 유효하게 나오더군요. (인공지능 신약개발이라기보다는 그냥 CADD였고, 그중 하나는 제가 손으로 설계한 분자입니다. )