Drug/Computer-Aided Drug Discovery 60

머신러닝 기반 분자 활성 예측 정확도가 낮은 이유

딥러닝으로 분자의 다양한 특성을 예측하는 연구는 최근 수년 사이에 인기 있는 주제 중 하나입니다. 여러 특성들 중에서도 신약개발에서 가장 중요한 task는 분자의 bioactivity (단백질에 대한 결합, 혹은 효능)을 예측하는 것일 것입니다. 하지만, 다른 특성 예측과 비교하면 bioactivity 예측은 정확도가 낮습니다. 저는 그 이유가 단지 머신의 아키텍처나 학습 방식의 문제가 아니라고 생각합니다. 좀 더 근본적으로 데이터 자체가 가지는 문제를 생각해볼 수 있습니다. 호 머신러닝은 말 그대로 데이터로부터의 학습이고, 통계 이론의 적용을 받습니다. 통계에서 하는 일은, 표본 데이터로부터, 모집단의 확률분포를 유추하는 것이고, 머신러닝도 크게 다르지 않습니다. 그런데, 학습에 사용하는 데이터가 추정..

인공지능 신약개발 분야의 현재와 짧은 미래의 이슈

이직을 하기로 결정되어서 이 분야의 앞날이 어떻게 될까 대충 생각해보고 있습니다. 마침 이직한 곳은 연구개발보다는 정책이나 지원, 인력 양성 업무가 더 많아서 앞날을 내다보는 비전이 필요합니다. 먼 미래는 아니더라도, 2~3년간의 이슈들이라도 제대로 파악할 수 있으면 좋겠네요. 입사하면 여러 회사 사람들을 만나면서 좀 더 데이터를 모아야겠습니다. 지금은 그냥 혼자 추측한 것들입니다. 현재 국내에서 진행 중인 인공지능 신약개발 프로젝트들은 약물 재창출 (repurposing)과, 저분자 약물 (합성 약물) 개발 중에서 hits 탐색에 집중하고 있는 것으로 보입니다. 저는 조만간 이외의 문제가 중요하게 나타날 것이라 생각합니다. 일단 저분자 화합물부터 이야기하면, 인공지능으로 hits 탐색이 어려웠기 때문에..

fragment 기반 약물 가상탐색

이번 글에선 제가 사용하고 있는 fragment 기반 혹은 substructure 기반 약물 가상탐색에 대해 이야기하겠습니다. 최근 몇 년 동안, docking을 이용한 대규모 가상 스크리닝 (virtual-highthroughput screening, VHTS) 연구들이 상위 IF 저널인 nature 저널 및 그 자매지에 출판되고 있습니다. Ultra-large library docking for discovering new chemotypes | Nature An open-source drug discovery platform enables ultra-large virtual screens - PubMed (nih.gov) A practical guide to large-scale docking | ..

PDB 파싱: CONECT 채워넣기 예제

PDB 파일 포맷은 단백질과 그 외 분자들의 실험 구조를 기록하기 위해 사용됩니다. (주로 x-ray 결정 구조) 다른 분자 파일 포맷과 비교하면, 단백질 구조를 기록하는 것에 최적화되어있습니다. 3D 구조에 대한 섹션은 "ATOM ", "HETATM", "CONECT" 이 셋입니다. 단백질의 구조를 기록하는데 최적화되어있다는 의미는, 분자를 아미노산 단위로 인식한다는 것입니다. 20가지의 기본 아미노산들에서, 각 원자들마다 고유의 이름이 붙습니다. (4칸) main chain에 " N ", " C ", " CA ", " O " 이 있고, side chain은 " CB ", " CG " 순으로 기록됩니다. 그리고 원자마다 속한 아미노산의 3 코드가 함께 기록됩니다. 이 두가지 정보만 가지고 원자들 사이의..

pymol 사용법: 구조 정렬 후 출력

서로 다른 사람이 실험해서 얻은 pdb 파일은 좌표가 제각각이라 구조를 비교를 하기 전에 먼저 정렬을 먼저 해야 합니다. pymol은 RMSD가 최소가 되도록 구조 정렬을 해줍니다. RMSD보다는 TMscore가 더 장점이 있긴 하지만, TMscore와 TMalign으로 정렬을 하는 건 조금 불편합니다. 그래도 TMscore나 TMalign도 최근엔 구조 정렬 결과를 결과 파일로 출력해서 pymol에서 읽어올 수 있도록 하는 기능을 지원합니다. 먼저 pymol *.pdb 로 EGFR에 대한 구조들을 읽어오겠습니다. 제일 마지막에 읽어 들인 구조에 맞춰서 화면이 출력되었습니다. pymol에서 구조 정렬하는 옵션으로 align과 alignto 가 있습니다. align은 특정 구조를 reference구조에 대..

pymol 사용법: protein-ligand interaction 보기

pymol에 다양한 기능이 있지만, 그중 많이 사용하는 기능 중 하나가 단백질-리간드 상호작용 보기입니다. 예시 PDB 는 EGFR kinase domain (wild type)에 Iressa (gefitinib)가 붙은 구조입니다. pdb ID 는 2ITY이고, 리간드 ID는 IRE입니다. 다운로드하고 pymol을 실행합니다. $ wget https://files.rcsb.org/download/2ITY.pdb $ pymol 2ITY 아래 같은 화면이 출력됩니다. 여기서 2ITY 옆의 A 버튼 (Action)을 누릅니다. 그러면 preset 설정들이 나오는데, 이중 ligands를 선택합니다. 그럼 우측처럼 단백질 구조가 ribbon diagram으로 바뀌고, 리간드 중심으로 화면이 포커스 됩니다. l..

pymol 사용법: pymol open source 설치

pymol 은 단백질 및 분자의 3D 구조를 보고 분석하기 위한 프로그램입니다. 슈뢰딩거에서 만들었지만, open-source 버전도 있습니다. 둘 다 사용해봤지만, open-source 버전에서 별다른 단점은 발견하지 못했습니다. GUI와 python 인터페이스를 지원합니다. 단지 구조를 보기만하는것이 아니라, 기능을 숙지해두면 다양한 분석이 가능합니다. 외부 python 코드나 플러그인과 연계해서 더 많은 기능들을 사용할 수 있습니다. 좀 쓰기 불편하지만, pymol로 3D 기반으로 단백질과 상호작용하는 ligand 를 직접 설계하는 것도 가능합니다. 최근엔 버전 2 이상의 pymol open source 설치가 쉬워졌습니다. ubuntu 계열 apt 설치: sudo apt update sudo ap..

cheminformatics 툴킷: rd_filters

신약개발에서 루틴하게 사용하는 Medicinal Chemistry Filter (MCF) 들이 있습니다. 과도한 반응성을 가지는 분자나, 여러 단백질에 선택성 없이 결합하는 분자, 불안정한 분자, 약물들이 가지기 어려운 작용기 등의 패턴을 미리 정리해둔 것입니다. 복잡하지 않으면서 잘 알려진 독성 작용기 중에는 MCF로 걸리는 것들도 있습니다. 필터들 중에서 대표적으로 많이 사용되는 것으로 PAINS가 있습니다. rd_filters 는 BMS, Dundee, Glaxo, Inpharmatica, LINT, MLSMR, PAINS, SureChEMBL의 8종의 필터를 모아둔 것입니다. 코드 저자는 Patrick Walters 입니다. 블로그 주소: Practical Cheminformatics 하는 김에 ..

인공지능 신약개발 분야에서 가장 기대되는 회사가 탄생했습니다.

탄생은 이미 수년 전 예고된 회사입니다. 데미스 하사비스가 이끄는 알파벳의 새로운 자회사로, 인공지능 신약개발에 도전하는 회사입니다. 그냥 쉽게 말해 딥마인드가 신약개발에 도전한다.라고 할 수 있습니다. 저는 인공지능 신약개발 분야로 올 때 인공지능 신약개발 분야에서 최초의 성공사례는 딥마인드가 만들 것이라 생각했습니다. 분명히 인공지능 신약개발 분야에 진출할 것이라 기대하고 있었는데 드디어 그 회사가 탄생했네요. 회사 이름은 Isomorphic labs입니다. 자세한 설명은 아래 홈페이지에 있고, 블로그 페이지에 회사 이름의 의미가 있습니다. https://www.isomorphiclabs.com/ https://www.isomorphiclabs.com/blog 단백질 구조예측 분야를 연구했던 사람으로..