Physics and Informatics 26

아미노산 종류에 따른 residue-residue contact 비율

아래 그림은 2018년도에 모니터 화면을 찍은 것입니다. 생각해보면 좀 아쉬운데... 단백질 구조들을 모아서 아미노산 종류에 따른 contact 비율을 그려본 것입니다. (노말라이즈도 이미 했습니다.) x,y축은 각각 아미노산의 종류고 (20종) color는 contact 비율입니다. 아미노산마다 residue-residue contact 비율이 다름을 볼 수 있습니다. 당연히 그렇겠죠. 서로 같은 전하를 가진 아미노산이 접촉되기는 어렵고, 서로 다른 전하를 가진 아미노산들은 상대적으로 서로 접촉되기 쉬울 테니... 4번의 가장 밝은 노란색이 무슨 아미노산인지는 안봐도 추측할 수 있습니다. 시스테인입니다. 시스테인은 다른 시스테인과 disulfide 결합을 하는데, 다른 조합에 비해서 contact 비율..

논문 리뷰 Condo: 공진화 정보를 이용한 단백질 도메인 경계 예측

저에게 가장 의미 있는 두 편의 논문중 하나입니다. 저는 좋은 연구를 하고 싶은 분들께 이 연구를 추천해드리고 싶습니다. 당시에 좋은 연구란 무엇인가에 대해 고민을 많이 했습니다. 그리고 이 논문이 제 결론이었습니다. 좋은 아이디어는 그것만으로도 연구로서의 가치를 가지고 있습니다. 다만 논문은 개판으로 못썼고, 논문의 구성도 형편없습니다. 논문을 작성하는 분들에게는 구성이 안 좋은 논문의 예시로서 보여드릴 수 있겠습니다. 이 논문에서 단백질 도메인 경계 예측문제를 예측하기 위한 당시로선 획기적인 방법을 제시하였습니다. 제목은 Condo: protein domain boundary prediction using coevolutionary information 입니다. 2018년도에 나온 논문이고, 에디터는..

데이터 분석: 유사성과 정렬

복잡한 데이터들을 분석하는 과정에서 하는 일중 하나는 데이터의 유사성을 찾는 것입니다. 유사성을 비교하기 위해선 데이터를 정렬해야 합니다. DNA나 단백질 염기 서열에 대해 연구하는 bioinformatics 분야에서 많이 하는 일중 homology 탐색이 있습니다. 유사한 서열을 탐색하는 것입니다. 서로 다른 서열의 유사성을 비교하기 위해선 정렬을 해야 합니다. 서로 무관한 것들을 정렬하는 것은 의미가 없습니다. 약물 탐색도 마찬가지입니다. 특정 타깃 단백질에 대해서 결합하는 약물들을 그냥 뿌려두면, 분석하기 매우 어렵습니다. 이럴 때 2D, 3D 구조 정렬, Maximum common subgraph 같은 다양한 정렬 방법을 활용하면 약물들 사이의 유사성을 확인할 수 있습니다. 그리고 유사한 약물들끼..

인공지능은 물리학를 학습할 수 있을까?

과학은 현실을 다루는 학문입니다. 여기서 말하는 현실이란, 우리가 살고 있는, 즉, 관찰자인 우리 자신이 있고, 관찰자에게 측정된 사실들로 이루어진 세계입니다. 과학은 논리의 학문이지만, 논리만으로 성립하지 않습니다. 실험 혹은 측정은 과학에서 가장 중요한 요소입니다. 다른 말로 과학이란 관측한 현상들을 논리적으로 설명하는 학문이라고 할 수 있습니다. 과학에선 기본적으로 우리가 살고 있는 세상이 논리적이라고 가정합니다. 어떠한 가정이 현실 세계에서 참이라면, 그 가정으로부터 논리적으로 전개되는 결과도 현실세계에서 참이어야 한다는 것입니다. 예를 들면, 아인슈타인의 특수 상대성 이론은 진공에서의 광속이 일정하다는 것과, 상대성 원리라는 두 가지 가정으로부터 논리적으로 유도됩니다. 만약 우리가 살고 있는 세..

연구자로서 미래를 보는 것에 대해서

저는 대학원생 시절 매우 무능한 연구자였습니다. 학업 성적은 나쁘지 않았지만, 알고 있는 지식을 연구에 거의 활용하지 못했습니다. 연구 결과에 대한 판단은 전적으로 교수님께 의지할 뿐이었습니다. 그러던 어느 날, 다른 학생의 발표를 보고 그동안 제가 무엇을 잘못하고 있었는지 알게 되었습니다. 그 학생분은 자신의 연구를 자신의 연구라고 생각하고 연구를 하고 있었습니다. 스스로 정보를 찾고, 생각하고 판단하는 것을 보고, "아... 저것이 자신의 연구이구나..."라고 알게 되었습니다. 결국 어떤 연구에 대해서 가장 잘 아는 사람은, 연구자 본인이어야 합니다. 내가 한 일을 내가 가장 잘 알아야지 나보다 더 잘 아는 사람이 있으면 이상하지 않습니까?... 아무튼 저는 그때까지 몰랐습니다. 그게 제가 연구자로서..

과학 연구에서 중요한것

흔히들 과학 연구에서 넘치는 창의력과 틀에 매이지 않는 아이디어가 중요하다고 생각합니다. 하지만, 새로운 가설을 제시하는 것보다는, 가설을 어떻게 검증할 것인가가 과학의 본질이라고 볼 수 있습니다. 과학은 크게 실험/경험/측정과 이론으로 나뉩니다. 우리가 측정을 통해서 알 수 있는 사실들이 있습니다. 측정에 오류가 있지 않았다면, 그것이 사실입니다. 이론은 그 측정 결과의 원인이나, 측정 결과들 사이의 관계를 설명하는 것입니다. 아마도 창의력을 이야기하는 것은 실험보다는 이론의 영역에 대한 것 같습니다. 유명한 과학자들은 보통 실험보다는 이론분야의 종사자들이 많기 때문입니다. 실험은 보통 절차와 방법론이 정해져 있습니다. 예를 들면 특정 신물질을 만들었다면, 기존 물질에서 측정하던 물성들을 그 물질에 대..

물리학과 인공지능 겨울학교 온라인 강의 (2022)

한국 물리학회와 고등과학원 AI 기초과학센터 주관으로 물리학과 인공지능 겨울학교가 개최되는군요. 2022년 2월 21일 (월) - 25일 (금)까지 진행됩니다. 등록 3일째인데 400명 가까이 등록했습니다. 물리학과에서도 AI가 인기있다는게 느껴지네요. 다만 실전적이라기보다는 이론적, 기초적인 내용이 위주라서 얼마나 흥미를 끌지 모르겠습니다. 학부생이 배우는 수업과, 실제 대학원에서 연구하는 내용에는 차이가 많기도 하죠. 특히 물리학 분야에서 그런게 심하게 느껴집니다. 2022 물리학과 인공지능 겨울학교 (kias.re.kr) 2022 물리학과 인공지능 겨울학교 현대 물리학은 기계학습을 비롯한 다양한 인공지능 알고리즘을 활용하여 현재 강력한 시너지 효과를 경험하고 있으며, 이 두 가지 방법론이 점점 더 ..

단백질과 머신러닝: 2차구조 예측

단백질 구조 예측 연구를 시작하고, 머신러닝을 배워야겠다고 결심한 계기가 된 논문이 있습니다. David T. Jones의 단백질 2차 구조 예측 논문 PSIPRED입니다. Protein secondary structure prediction based on position-specific scoring matrices - ScienceDirect Protein secondary structure prediction based on position-specific scoring matrices A two-stage neural network has been used to predict protein secondary structure based on the position specific scoring ..

AlphaFold CASP14 논문이 나왔네요.

https://www.nature.com/articles/s41586-021-03819-2?fbclid=IwAR2-w88mv6s0fUQzsBWQ3JIF2L2ztOElJj8n64bbhpZ4oxoozdXpNeHd_9I 제목 참 심플하네요. Highly accurate protein structure prediction with AlphaFold 하는 김에 깃허브 공개까지 되었습니다. https://github.com/deepmind/alphafold?fbclid=IwAR2gEAd6akjuDwiVUlMsQ8ORSpiw43SchfQ4ztjqk7MHnNNUdn46RmVliu0 나오는 김에 David Baker 그룹 논문도 나왔네요. https://science.sciencemag.org/content/early/..