Drug/Computer-Aided Drug Discovery 62

단백질 구조예측과 약물 결합 예측

알파폴드가 공개된 이후에 신약개발 분야에서 사람들이 주로 관심 가지는 질문이 두 가지 있습니다. 하나는 알파폴드가 예측한 구조가 얼마나 정확한 것인가?이고, 다른 하나는 구조 예측한 결과를 신약개발에 사용할 수 있는가입니다. 이 질문을 따로 대답하기는 좀 어렵습니다. 왜냐하면 그 얼마 나라는 것이 수치적인 점수를 묻는 것이 아니기 때문입니다. 수치적인 점수라면 캐스프에서 보여준 대로 실험 구조와 상당히 유사합니다. 단백질 구조예측 분야에서 머신러닝 방법이건, 컴퓨터 시뮬레이션이건 메서드를 개발할 때, 특정 데이터에 대해서 파라미터 최적화 과정을 거칩니다. 성능 평가를 할 때는 학습에 사용하는 데이터 이외에 별개의 데이터셋을 준비해두고, 여기에 대해서 평가를 하는 것이 일반적입니다. 좀 더 엄밀하고 공정한..

AlphaFold Protein Structure Database

예전에 단백질 구조예측하던 시기에, 동료들 사이에서 CASP에 대해서 회의적인 의견들이 있었습니다. 참가 그룹들이 CASP에서 구조예측을 잘했지만, 정작 공개된 메서드 롤 돌려서 그 정도 결과가 나오지 않는다는 것, 기술 개발만 하는데, 정작 그 기술을 사용해서 정말로 다른 연구자들에게 도움이 되는가, 그리고 당시(co-evoluation 기반 예측이 나오면서 성능이 향상되기 전)에 기술 향상이 지지부진해서 대회를 지속하는 의미가 있는지 같은 이야기였습니다. 그때 나온 이야기 중 하나는, 실험 구조를 protein data bank에서 공유하는 것처럼, 차라리 구조 예측을 하는 사람들이 미리 인간 단백질이나 기타 주요 단백질들 대한 구조를 예측해서 data bank를 만든다면 도움이 많이 될 것이라는 이..

bioinformatics 적인 관점에서 신약개발

인간의 특정 단백질에 결합하여 단백질의 기능을 활성화하거나, 저해하는 약물로 한정해보겠습니다. uniprot에 등록된 인간의 단백질은 2만여개정도입니다. 단백질들은 기능에 따라서, 진화적인 이유로 서로 유사한 구조를 가지고 있는 경우가 많습니다. 구조가 유사한 단백질들을 패밀리로 묶으면 1000~2000 종류가 있다고 합니다. 같은 패밀리에 속한 단백질은 포켓 구조까지 유사하고, 따라서 약물에 대한 결합력도 유사한 경우도 많습니다. 여기서 거꾸로 생각해보면, 내가 어떠한 타겟 단백질의 어떤 포켓에 결합하는 약물을 찾고 싶다면, 기존에 신약으로서 개발되던 (적어도 임상 1상 이상까지 진행된), 약물중의 누군가 중에서 타겟 단백질의 포켓에 결합할 수 있는 약물이 있을 가능성이 높다고 생각할 수 있습니다. 특..

약물 최적화: 구조의 견고화

약물 설계, 표적과의 상호작용 최적화에서 표적 단백질과의 상호작용을 최적화할 때 사용하는 방법들이 여러가지가 있습니다. 가장 간단하게 생각하면 구조를 확장해서 새로운 작용기를 추가하는 것이 있습니다. 약물의 작용기가 상보적인 단백질의 작용기와 좀 더 적절한 위치에 오도록 사슬이나 고리를 확장, 축소할 수도 있습니다. 혹은 유사한 작용기로 치환할 수도 있습니다. 이중에는 구조의 견고화 라는 것도 있습니다. (의약화학책을 보면서 설명하지만, 제가 화학을 잘 아는게 아니라 잘못된 표현이 있을 수도 있습니다.) 회전 가능한 결합 줄이는 것인데, 예를들어 회전 가능한 결합을 ring에 포함되게 바꿔서 고정시켜버리거나, 단일 결합으로 이어진 C-C-C-C 같은 구조 사이에 삼중 결합을 집어넣거나, aromatic ..

집단 지성을 이용한 신약 설계 전략

딥마인드가 등장하기 전까지 단백질 구조예측 분야에서 누가 최고냐고 묻는다면, David Baker 라고 답할 수 있었습니다. 단백질 구조 예측 뿐만 아니라, 단백질 디자인 영역에서도 여전히 선도 그룹입니다. David Baker 그룹에서 만든 Foldit 이라는 게임이 있습니다. https://en.wikipedia.org/wiki/Foldit 이것은 사람이 단백질 접힘 문제를 푸는 게임입니다. 단백질은 구조에 따라 에너지 상태가 달라지는데, 자연계에 존재하는 단백질의 구조는, 프리 에너지가 미니멈인 상태일 것이라는 가설이 있습니다. 물론 퍼텐셜 에너지와 프리 에너지에 차이가 있긴 하지만... 단백질 구조를 예측하기 위해선, 정확한 에너지 모델도 필요하지만, 구조 탐색도 매우 공들여서 해야 합니다. 단백..

의약화학

인공지능/컴퓨터 기반 신약개발을 연구하려고 한다면, 무엇을 해야할까? 라고 질문한다면 저는 일단 의약화학 (0medicinal chemistry)을 공부 해야 한다고 대답하고 싶습니다. 전 직장에서 저에게 "약을 만든다면서 의약화학을 공부하지 않고서 어떻게 약을 만들 수 있겠습니까?" 라고 하셨던 분이 있습니다. 저는 그 말에 충격을 받고 의약화학책을 열심히 읽었는데, 거기엔 온갓 신약개발 사례들이 적혀 있었습니다. 제대로된 경험도 없는 벤처 회사 입장에선, 신약을 개발해본 경험이 있는 사람 한명이 있다면 얼마를 주고서라도 데려와야 할 것입니다. 그런데, 많은 신약개발 경험들이 담긴 책을 무려 저렴한 가격 10만원 이하에 살 수 있다면... 이것을 공부 안하는게 오히려 이상한 일일 것입니다. 제가 이분야..

pharmacophore model

분자가 단백질에 결합하는가 여부를 예측하기 위한 여러 방법들이 있습니다. 그들중 일부는 방법이라고 표현하고 싶지도 않을 정도로 허술하지만... docking, Molecular Dynamics, docking 구조 기반 scoring method, 2D 혹은 3D rule , ligand based ML, 단백질 구조기반 ML... 등등 여러 방법이 있습니다. 각각 장단점이 있습니다. 단독으로 사용할 수 없는 방법도 있고, 혹은 단독으로 사용할 때는 별로 좋지 않지만, 다른 방법과 결합했을 때 성능이 크게 향상되는 것도 있습니다. 예를 들자면 docking 구조 기반의 score나, Molecular dynamics 는 초기구조로 docking 구조를 필요로 합니다. docking 자체는 결합 예측 성능..

합성 가능한 분자 생성

저도 머신러닝 기반 분자생성 논문을 썼지만, 머신러닝 기반 분자생성 방법들 중 쓸만한게 거의 없습니다. 논문 저자들 중 자신이 만든 메소드를 계속 쓰는 사람이 있는지 궁금할 정도입니다. 여러가지 문제가 있지만, 일단 데이터를 통한 학습이라는 것이 데이터로부터 자유롭지 못하다는 것과, 합성가능성을 고려하기 어렵다는 점이 문제입니다. 학습한 데이터와 다른것이 생성되었다면, 그것이 머신의 창의력의 결과이기보다는 학습이 잘못되어서 나왔을 가능성이 높습니다. 그리고 사이드 체인에 뭔가 많이 붙었지만, 그게 정말 필요해서 붙었는지, 아니면 머신의 학습 오류인지 판단하기도 어렵습니다. AE 기반 분자 생성 모델에서 AE의 reconstruction조차 100%가 안되는데... 생성할 때 붙는 무언가도 노이즈에 의한 ..

단백질 구조예측과 단백질 구조 기반 약물 탐색

제가 단백질 구조 예측 분야를 연구하던 시절엔 구조 예측에 만에 집중했고, 단백질 하나 하나에 대한 연구를 별로 하지 않았습니다. 그러다보니 단백질 구조 예측을 해도 그것을 어디에 어떻게 사용할지에 대해서 깊히 생각해보지 않았습니다. 신약개발 분야로 넘어오면서 여러 단백질에 대해서 구조를 분석하다보니 여러 재미있는 점들을 알 수 있었습니다. 인간 단백질들 중에서 패밀리 단백질끼리는 서열이 매우 (50% 이상?) 유사합니다. 구조 또한 거의 유사합니다. 약물의 단백질에 대한 결합 여부를 실험해보면 패밀리에 속한 단백질 끼리는 상관성이 매우 높게 나올 것입니다. 슈퍼 패밀리라 할 수 있는 단백질들은 서열 유사성이 20% 정도로 떨어지지만, 전체적인 구조는 유사합니다. 그런데, 슈퍼 패밀리에 속하는 포켓 구조..