Drug 74

분자 가상합성: moleculer building block assembly

인공지능 신약개발을 처음 공부할 때, 정작 기존까지 신약개발에 사용되는 방법들을 제대로 몰랐습니다. 기존 방식이 무엇인지, 장점이 무엇이고 왜 그런 방법을 사용하고 있는지, 무슨 문제가 있는지... 이런것들을 전혀 모르고 시작하다보니 참 답답한 생각이 많이 들었습니다. 그중 하나가 실제로 합성하는 사람들은 분자를 어떻게 합성하는지 궁금했습니다. 유기합성하시는 분을 처음 만났을 때 그 의문이 풀렸습니다. 합성할 분자를 3~4조각 정도로 쪼개서, 그 조각들이 판매되는 building block 라이브러리에 있는지 확인하고, 있다면 그 조각들을 구매해서 합성하는 것이었습니다. 완성된 분자를 거꾸로 빌딩블록 단위로 쪼개서 합성 경로를 추정하는 것을 역합성 (retrosynthesis) 이라고 합니다. 당연히 합..

저해제 (inhibitor), 작용제 (agonist), 길항제 (antagonist)의 차이

약물에 대해서 저해제(inhibitor), 작용제(agonist), 길항제(antagonist)라는 용어를 들어보셨을 것입니다. 저해제와 길항제는 단백질을 저해한다는 의미에서 비슷하다고 생각될 수도 있으나, 각 용어에 해당되는 타깃 단백질의 종류가 다릅니다. 저해제는 효소 (enzyme)에 대해서 사용되는 표현이고, 길항제는 수용체 (receptor)에 대해서 사용되는 표현입니다. 효소는 기질 (substrate)의 화학반응에서 촉매작용을 하는 단백질입니다. 저해제는 효소의 작용을 방해하는 물질입니다. 저해제 중에는 기질과 동일한 부위에 경쟁적으로 결합하는 경쟁적 억제제도 있고, 기질과 다른 부위에 결합하지만, 단백질 구조에 영향을 주어 효소로 작용하기 어렵게 만드는 allostric 억제제도 있습니다...

Drug 2022.03.30

pybel: openbabel python interface, 수소 추가, protonation state

openbabel 은 콘솔에서 직접 명렁어로 실행할 수도 있지만 (obabel 등) python interface로 모듈을 불러올 수도 있습니다. rdkit과 비슷한 기능을 하긴 하는데, 사용법이 더 어렵고, 메뉴얼이 불편합니다. 그래도 나름 장점도 있어서 openbabel을 사용해야 하는 경우도 있습니다. openbabel 을 설치하기 위해선 일단 openbabel을 설치합니다. openbabel2와 openbabel3의 구조가 조금 다릅니다. 예를들면 pybel 모듈이나 openbabel module을 import하기 위해서 버전 3에선 다음과 같이 입력합니다. from openbabel import pybel from openbabel import openbabel 하지만 버전 2에선 import ..

신약개발에 활용되는 인공지능의 해석 가능성

머신러닝 결과를 해석하는 것은 쉬운 일은 아니지만, 불가능하진 않습니다. 기본적으로 머신러닝은 통계분석의 응용이기에 주어진 데이터를 학습하고, 새로운 데이터를 예측할 때, 학습 데이터 중에서 주어진 데이터와 유사한 것이 있다면 그 영향을 크게 받습니다. 하지만 유사성이라는 것은 그리 간단한 것이 아닙니다. 입력 공간상의 거리(distance)와 임베딩 된 공간상에서의 거리는 다릅니다. 적절한 공간 변환을 일으키고, 유사성을 최적화하는 것이 딥러닝의 핵심입니다. 즉, 입력 공간에서 별로 유사해 보이지 않는 데이터가 임베딩 된 공간에선 한 곳에 모을 수 있습니다. 이것이 왜 중요한지 생각해봅시다. 우리는 굳이 딥러닝을 사용하지 않더라도, 분자의 fingerprint를 만들고, Tanimoto 같은 simil..

인공지능 신약개발에서 데이터 생산의 중요성

기계학습은 당연히 데이터가 있어야 할 수 있습니다. 공공 데이터는 적은 것은 아니지만, 여러 문제가 있습니다. 원하는 타겟에 대한 데이터는 많지 않고, ChEMBL처럼 active위주로 수집이 되어있거나, 저는 학계에서 인공지능 신약개발 연구를 하다가, 공공데이터에만 의존하고 자체적인 데이터가 없이는 어렵다는 생각이 들어서 인공지능 신약개발 회사로 이직했습니다. 회사는 돈 벌기 위해서 연구하는 곳이니까, 아무래도 돈을 들여서 데이터를 많이 만들 줄 알았죠. 회사에서 돈 들여서 데이터를 만들거나, 파트너로부터 데이터를 얻어서, 그 데이터를 학습하고 분자를 선별하고 그것을 다시 학습에 활용하고, 이 과정을 반복해나가면서 신약개발을 할 거라 생각했지만, 전혀 그런 것 하지 않더군요. 그냥 공공데이터 가지고 학..

Enrichment Factor

Enrichment factor (EF)는 약물 가상 탐색에서 성능 평가를 할 때 사용하기 적절한 지표입니다. 약물의 유효성을 예측하여 스코어를 주는 메서드가 있을 때, Enrichment Factor는 다음과 같습니다. $$EF=\frac{\text{precision}}{\text{active rate}}$$ 이때, \(\text{precision}=\frac{\text{True Positive}}{\text{Positive}}\), \(\text{active rate}=\frac{\text{Active}}{\text{Total Number}}\) 입니다. 즉, Enrichment factor는 전체 분자 중에서 active의 비율에 비해서 선별된 분자들 중에서 active의 비율이 얼마나 증가하는가를..

머신러닝 기반 분자 활성 예측 정확도가 낮은 이유

딥러닝으로 분자의 다양한 특성을 예측하는 연구는 최근 수년 사이에 인기 있는 주제 중 하나입니다. 여러 특성들 중에서도 신약개발에서 가장 중요한 task는 분자의 bioactivity (단백질에 대한 결합, 혹은 효능)을 예측하는 것일 것입니다. 하지만, 다른 특성 예측과 비교하면 bioactivity 예측은 정확도가 낮습니다. 저는 그 이유가 단지 머신의 아키텍처나 학습 방식의 문제가 아니라고 생각합니다. 좀 더 근본적으로 데이터 자체가 가지는 문제를 생각해볼 수 있습니다. 호 머신러닝은 말 그대로 데이터로부터의 학습이고, 통계 이론의 적용을 받습니다. 통계에서 하는 일은, 표본 데이터로부터, 모집단의 확률분포를 유추하는 것이고, 머신러닝도 크게 다르지 않습니다. 그런데, 학습에 사용하는 데이터가 추정..

인공지능 신약개발 분야의 현재와 짧은 미래의 이슈

이직을 하기로 결정되어서 이 분야의 앞날이 어떻게 될까 대충 생각해보고 있습니다. 마침 이직한 곳은 연구개발보다는 정책이나 지원, 인력 양성 업무가 더 많아서 앞날을 내다보는 비전이 필요합니다. 먼 미래는 아니더라도, 2~3년간의 이슈들이라도 제대로 파악할 수 있으면 좋겠네요. 입사하면 여러 회사 사람들을 만나면서 좀 더 데이터를 모아야겠습니다. 지금은 그냥 혼자 추측한 것들입니다. 현재 국내에서 진행 중인 인공지능 신약개발 프로젝트들은 약물 재창출 (repurposing)과, 저분자 약물 (합성 약물) 개발 중에서 hits 탐색에 집중하고 있는 것으로 보입니다. 저는 조만간 이외의 문제가 중요하게 나타날 것이라 생각합니다. 일단 저분자 화합물부터 이야기하면, 인공지능으로 hits 탐색이 어려웠기 때문에..

fragment 기반 약물 가상탐색

이번 글에선 제가 사용하고 있는 fragment 기반 혹은 substructure 기반 약물 가상탐색에 대해 이야기하겠습니다. 최근 몇 년 동안, docking을 이용한 대규모 가상 스크리닝 (virtual-highthroughput screening, VHTS) 연구들이 상위 IF 저널인 nature 저널 및 그 자매지에 출판되고 있습니다. Ultra-large library docking for discovering new chemotypes | Nature An open-source drug discovery platform enables ultra-large virtual screens - PubMed (nih.gov) A practical guide to large-scale docking | ..