분류 전체보기 394

머신러닝 기반 분자 활성 예측 정확도가 낮은 이유

딥러닝으로 분자의 다양한 특성을 예측하는 연구는 최근 수년 사이에 인기 있는 주제 중 하나입니다. 여러 특성들 중에서도 신약개발에서 가장 중요한 task는 분자의 bioactivity (단백질에 대한 결합, 혹은 효능)을 예측하는 것일 것입니다. 하지만, 다른 특성 예측과 비교하면 bioactivity 예측은 정확도가 낮습니다. 저는 그 이유가 단지 머신의 아키텍처나 학습 방식의 문제가 아니라고 생각합니다. 좀 더 근본적으로 데이터 자체가 가지는 문제를 생각해볼 수 있습니다. 호 머신러닝은 말 그대로 데이터로부터의 학습이고, 통계 이론의 적용을 받습니다. 통계에서 하는 일은, 표본 데이터로부터, 모집단의 확률분포를 유추하는 것이고, 머신러닝도 크게 다르지 않습니다. 그런데, 학습에 사용하는 데이터가 추정..

VHTS와 병렬 컴퓨팅: 2. python multiprocessing 을 이용한 분자 처리

VHTS와 병렬 컴퓨팅: 1. 기초 개념, file split 에 이어 python multiprocessing을 이용한 분자 특성 계산방법을 설명하겠습니다. python에서 병렬 컴퓨팅을 지원하는 모듈은 여러 가지가 있습니다. 저는 multiprocessing을 선호합니다. concurrent.futures 도 사용해보긴 했는데, 구현 자체는 쉽지만 core수가 많아지면 병렬화 효율성이 크게 떨어집니다. 작업환경은 EPIC 64 cores*2 cpus입니다. 분자 데이터 처리, 혹은 특성 계산은 많음은 수의 독립적인 데이터에 대해서 동일한 함수로 처리할 경우에 해당됩니다. 이런 경우에 적합한 병렬구조는 master/workers로 이루어진 구조입니다. master가 잡을 관리 하면서 worker에게 잡..

Computer 2022.02.27

VHTS와 병렬 컴퓨팅: 1. 기초 개념, file split

저는 컴퓨터 전공자는 아니라 체계적으로 개념을 배운 것은 아니고, 연구에 필요해서 실용적으로 배우다 보니 용어에 오개념이 있을 수도 있음을 양해해주시기를 부탁드립니다. 작업 환경은 linux입니다. 신약개발에서 가상탐색 virture high throuput screening (VHTS)이 사용된 것은 아마도 CADD의 역사와 비슷할 것이지만, 최근에는 ultra large scale이라 불릴 정도의 규모... 수천만, 수억, 수십억 이상의 분자를 가상 탐색하는 것이 트렌드입니다. 여기에 필요한 기술 중 하나가 병렬 컴퓨팅입니다. 병렬 컴퓨팅의 필요성은 다음과 같습니다. 기본적으로 하나의 프로세스는(소프트웨어) 하나의 프로세서를(하드웨어) 사용합니다. 하지만 하나의 프로세서로 낼 수 있는 성능에는 한계가..

Computer 2022.02.27

리더에게 제일 필요한것

왜인지 모르겠지만, 리더에 대해 이야기할 때 삼국지가 생각났습니다. 전통적인 관념에서 인기 있는 군주인 유비는 대체 무엇을 가지고 있었을까요? 유비 세력에 유능한 사람이 많지만, 왜 유비가 군주인 것일까요? 단지 한 황실 종친이라는 이유로? 명확한 증거가 있는 것도 아니고, 당시에 황실 종친은 상당히 많은 상황인데 그리 유력자도 아닌 유비가...? 능력치 사기 캐릭터 조조 때문인지, 유비가 그렇게까지 유능한 군주로 보이진 않습니다. 도원결의 이후로 적벽대전 이전까지 제대로 기반을 닦지 못하고 끊임없이 떠돌기만 했습니다. 전투력으로는 당시 최강이라 할 의형제들과 불리할 때마다 이세력, 저 세력에 붙을 수 있을 만큼의 외교적 교섭력을 가진 부하들이 있었지만 말이죠. 유비가 가는 세력마다 망해버린다는 게 문제..

이야기 2022.02.16

인공지능 신약개발 회사가 느끼는 어려움

앞으로 인공지능 스타트업과 신약개발 회사를 지원하고 둘 사이를 중계하는 일을 할 예정입니다. 일단 저는 인공지능 스타트업에서 일한 경험이 있으니, 인공지능 스타트업이 겪는 어려움에 대해 정리해보겠습니다. 사업가가 느끼는 어려움도 있지만, 연구원이 느끼는 어려움도 있습니다. 저는 일단 연구원이었기에 연구원의 입장에서 글을 쓰겠습니다. 이미 사업 초창기라고 하기도 어려운 시점인데 여전히 문제는 해결된 것이 없다는 생각만 드는군요. 1. 전문 인력 부족, 소통의 어려움 신약개발은 어려운 일이고, 인공지능도 어려운 일입니다. 신약개발에 필요한 만큼 충분한 능력을 갖춘 인재를 구하기 어렵습니다. 설령 그만한 인재가 있는 경우에도, 그 인재를 제대로 활용하지 못하는 경우도 있습니다. 회사의 시스템적인 문제들은 둘째..

이야기 2022.02.11

물리학과 인공지능 겨울학교 온라인 강의 (2022)

한국 물리학회와 고등과학원 AI 기초과학센터 주관으로 물리학과 인공지능 겨울학교가 개최되는군요. 2022년 2월 21일 (월) - 25일 (금)까지 진행됩니다. 등록 3일째인데 400명 가까이 등록했습니다. 물리학과에서도 AI가 인기있다는게 느껴지네요. 다만 실전적이라기보다는 이론적, 기초적인 내용이 위주라서 얼마나 흥미를 끌지 모르겠습니다. 학부생이 배우는 수업과, 실제 대학원에서 연구하는 내용에는 차이가 많기도 하죠. 특히 물리학 분야에서 그런게 심하게 느껴집니다. 2022 물리학과 인공지능 겨울학교 (kias.re.kr) 2022 물리학과 인공지능 겨울학교 현대 물리학은 기계학습을 비롯한 다양한 인공지능 알고리즘을 활용하여 현재 강력한 시너지 효과를 경험하고 있으며, 이 두 가지 방법론이 점점 더 ..

인공지능 신약개발 분야의 현재와 짧은 미래의 이슈

이직을 하기로 결정되어서 이 분야의 앞날이 어떻게 될까 대충 생각해보고 있습니다. 마침 이직한 곳은 연구개발보다는 정책이나 지원, 인력 양성 업무가 더 많아서 앞날을 내다보는 비전이 필요합니다. 먼 미래는 아니더라도, 2~3년간의 이슈들이라도 제대로 파악할 수 있으면 좋겠네요. 입사하면 여러 회사 사람들을 만나면서 좀 더 데이터를 모아야겠습니다. 지금은 그냥 혼자 추측한 것들입니다. 현재 국내에서 진행 중인 인공지능 신약개발 프로젝트들은 약물 재창출 (repurposing)과, 저분자 약물 (합성 약물) 개발 중에서 hits 탐색에 집중하고 있는 것으로 보입니다. 저는 조만간 이외의 문제가 중요하게 나타날 것이라 생각합니다. 일단 저분자 화합물부터 이야기하면, 인공지능으로 hits 탐색이 어려웠기 때문에..

fragment 기반 약물 가상탐색

이번 글에선 제가 사용하고 있는 fragment 기반 혹은 substructure 기반 약물 가상탐색에 대해 이야기하겠습니다. 최근 몇 년 동안, docking을 이용한 대규모 가상 스크리닝 (virtual-highthroughput screening, VHTS) 연구들이 상위 IF 저널인 nature 저널 및 그 자매지에 출판되고 있습니다. Ultra-large library docking for discovering new chemotypes | Nature An open-source drug discovery platform enables ultra-large virtual screens - PubMed (nih.gov) A practical guide to large-scale docking | ..

PDB 파싱: CONECT 채워넣기 예제

PDB 파일 포맷은 단백질과 그 외 분자들의 실험 구조를 기록하기 위해 사용됩니다. (주로 x-ray 결정 구조) 다른 분자 파일 포맷과 비교하면, 단백질 구조를 기록하는 것에 최적화되어있습니다. 3D 구조에 대한 섹션은 "ATOM ", "HETATM", "CONECT" 이 셋입니다. 단백질의 구조를 기록하는데 최적화되어있다는 의미는, 분자를 아미노산 단위로 인식한다는 것입니다. 20가지의 기본 아미노산들에서, 각 원자들마다 고유의 이름이 붙습니다. (4칸) main chain에 " N ", " C ", " CA ", " O " 이 있고, side chain은 " CB ", " CG " 순으로 기록됩니다. 그리고 원자마다 속한 아미노산의 3 코드가 함께 기록됩니다. 이 두가지 정보만 가지고 원자들 사이의..