Drug/Computer-Aided Drug Discovery

pharmacophore model

Novelism 2021. 4. 21. 21:59

 

분자가 단백질에 결합하는가 여부를 예측하기 위한 여러 방법들이 있습니다.

 그들중 일부는 방법이라고 표현하고 싶지도 않을 정도로 허술하지만...

docking, Molecular Dynamics, docking 구조 기반 scoring method, 2D 혹은 3D rule , ligand based ML, 단백질 구조기반 ML... 등등 여러 방법이 있습니다.

 각각 장단점이 있습니다. 단독으로 사용할 수 없는 방법도 있고, 혹은 단독으로 사용할 때는 별로 좋지 않지만, 다른 방법과 결합했을 때 성능이 크게 향상되는 것도 있습니다.

예를 들자면 docking 구조 기반의 score나, Molecular dynamics 는 초기구조로 docking 구조를 필요로 합니다.

docking 자체는 결합 예측 성능이 그리 높지 않고, binding pose를 탐색하는 용도로 최적화되어있습니다.

 여러 방법들 중에서 제가 생각하기에 가장 좋은 방법은 pharmacophore model 입니다.

 이런 생각을 하게 된 이유를 설명하기 위해선, 일단 제가 단백질 구조 예측 연구하던 시기로 거슬러 올라가야 할 것 같습니다.

 저는 물리학 전공이다보니, 처음에는 단백질 구조 예측에 필요한 에너지 모델을 개발하는 일이나 탐색 알고리즘을 개선하는 쪽에 흥미가 있었습니다. 그런데 공부하면 할수록, 물리적인 방법으로 어렵고, 대신 인포메틱스적인 방법을 사용해야 한다는 것을 알게 되었습니다. 서로 유사한 서열을 가진 두 단백질은 서로의 3차원 구조도 거의 유사하다는 아이디어에서 출발한 것입니다. 어떤 단백질 서열에 대응하는 단백질 구조를 예측할 때는, 서열이 유사한 구조가 알려진 단백질의 구조를 참고할 수 있습니다. 이런 방법들을 Template based modeling (TBM) 이라 부릅니다. (후에는 굳이 구조가 없어도 서열 정렬만으로도 구조를 예측하는 방법도 개발되었습니다. coevolutionary information 을 사용하는 방법으로 contact based modeling 이라고도 합니다. )

 

신약개발 분야로 온 후에도, 구조예측분야 bioinformatics를 이용하는 것처럼, cheminformatics 를 이용해서 단백질-리간드 결합을 예측할 수 있지 않을까 고민을 많이 했습니다. 의약화학책도 찾아보고, 여러 논문들도 뒤져보고...

 그러다가 알게된 방법이 pharmacophore model 이었습니다.

재미있게도, 특정 단백질에 결합하는 분자들은 몇개의 구조적인 패턴을 형성합니다. (단백질마다 유일한 것은 아닙니다.)

의약화학자들은 단백질과 분자 사이의 상호작용에 대해 경험적인 모델을 사용합니다. 수소결합이나, +이온과 - 이온 사이의 상호작용이나, aromatic ring - aromatic ring 사이의 상호작용, hydrophobic 상호작용 같은 것들이 예시입니다.
그리고 이러한 상호작용에서 나타나는 피처들 (Hydrogen bond donor, hydrogen bond acceptor, aromatic ring 등)을 파악하여 상호작용을 설명하려 합니다. 
재미있게도 특정 단백질에 결합하는 분자들 중에는 이런 피처들의 3d 공간적인 위치가 유사하게 나타납니다.
결합에서 중요한 피처들의 3d 공간상의 분포를 간략화한 것이 pharmacophore model 입니다.
docking 이후에 pharmacophore model을 사용하여 필터링을 하면 False Positive가 상당히 감소합니다.
무엇보다도, 서로 유사한 pharmacophore model을 가지는 분자들이 scaffold 적으로는 차이가 있는 경우들도 있습니다.

 pharmacophore가 유사한 새로운 scaffold를 가지는 분자를 찾는다면 예측 정확도가 높을 뿐만 아니라, 특허를 피할 수도 있습니다.

 
하지만 pharmacophore model에도 단점이 많이 있습니다. 일단 한 단백질 포켓에 대해서 pharmacophore model은 유일하지 않습니다. 그래서 특정 pharmacophore model 만을 사용했을 때, 실제로는 단백질에 결합할 수 있지만, 사용한 model과 다른 pharmacophore를 가지는 분자를 제대로 선별할 수 없습니다.
또한 너무 세세한 조건은 경직성을 줄 수 있습니다. 이미 알려진 구조와 너무 유사한 것만이 그 조건을 만족할 수 있습니다. 즉, 과도한 룰은 룰을 통과하는 새로운 분자를 찾을 수 없게 만듭니다. 머신러닝에서 오버피팅되는 문제와 유사합니다. 


 일반적인 pharmacophore model 보다도 informatics가 더 강력한 효과를 발휘하는 경우가 있긴 한데, 금속이온을 포함한 단백질 (metalloprotein) 중에서도 ligand 와의 결합에서 금속이온이 중요한 역할을 하는 경우들이 여기에 속합니다.
금속이온과의 결합은 결합력 중에서 강한 편이라, 이런 결합을 하는 분자가 activity가 높을 가능성이 높습니다.
이런 문제에서 단백질에 결합하는 ligand를 탐색한다면, ligand에 금속이온과 결합할 수 있는 sub-structure가 있는가를 확인하고, docking을 진행했을 때, 실제로 그 sub-structure가 금속과 결합을 했는가를 확인한다면 예측 정확도를 상당히 높힐 수 있습니다.

저는 금속이온과 2개의 작용기가 상호작용을 하는 리간드가 주류인 단백질에 대해 분석해본 적이 있는데, 이때 리간드에 2개의 금속 이온 결합 부위가 있고, 2개의 결합부위 사이의 적절한 (graph상에서의) 거리를 룰로 만들어서 넣었더니 docking만 사용한 경우보다 Enrichment factor가 10배정도 상승했습니다. 또한 기존에 알려진 active 분자들 중 그 룰을 만족하지 않는 것은 5% 정도에 불과했습니다. 
타겟 받고 1주일만에 단백질과 active 분자들 특징 분석하고 룰 만들고, 도킹 프로그램 개조하고...
솔직히 뭐 어려운 일도 아니고 오래 걸릴 이유도 없습니다.