Physics and Informatics 24

데이터 분석: 유사성과 정렬

복잡한 데이터들을 분석하는 과정에서 하는 일중 하나는 데이터의 유사성을 찾는 것입니다. 유사성을 비교하기 위해선 데이터를 정렬해야 합니다. DNA나 단백질 염기 서열에 대해 연구하는 bioinformatics 분야에서 많이 하는 일중 homology 탐색이 있습니다. 유사한 서열을 탐색하는 것입니다. 서로 다른 서열의 유사성을 비교하기 위해선 정렬을 해야 합니다. 서로 무관한 것들을 정렬하는 것은 의미가 없습니다. 약물 탐색도 마찬가지입니다. 특정 타깃 단백질에 대해서 결합하는 약물들을 그냥 뿌려두면, 분석하기 매우 어렵습니다. 이럴 때 2D, 3D 구조 정렬, Maximum common subgraph 같은 다양한 정렬 방법을 활용하면 약물들 사이의 유사성을 확인할 수 있습니다. 그리고 유사한 약물들끼..

인공지능은 물리학를 학습할 수 있을까?

과학은 현실을 다루는 학문입니다. 여기서 말하는 현실이란, 우리가 살고 있는, 즉, 관찰자인 우리 자신이 있고, 관찰자에게 측정된 사실들로 이루어진 세계입니다. 과학은 논리의 학문이지만, 논리만으로 성립하지 않습니다. 실험 혹은 측정은 과학에서 가장 중요한 요소입니다. 다른 말로 과학이란 관측한 현상들을 논리적으로 설명하는 학문이라고 할 수 있습니다. 과학에선 기본적으로 우리가 살고 있는 세상이 논리적이라고 가정합니다. 어떠한 가정이 현실 세계에서 참이라면, 그 가정으로부터 논리적으로 전개되는 결과도 현실세계에서 참이어야 한다는 것입니다. 예를 들면, 아인슈타인의 특수 상대성 이론은 진공에서의 광속이 일정하다는 것과, 상대성 원리라는 두 가지 가정으로부터 논리적으로 유도됩니다. 만약 우리가 살고 있는 세..

연구자로서 미래를 보는 것에 대해서

저는 대학원생 시절 매우 무능한 연구자였습니다. 학업 성적은 나쁘지 않았지만, 알고 있는 지식을 연구에 거의 활용하지 못했습니다. 연구 결과에 대한 판단은 전적으로 교수님께 의지할 뿐이었습니다. 그러던 어느 날, 다른 학생의 발표를 보고 그동안 제가 무엇을 잘못하고 있었는지 알게 되었습니다. 그 학생분은 자신의 연구를 자신의 연구라고 생각하고 연구를 하고 있었습니다. 스스로 정보를 찾고, 생각하고 판단하는 것을 보고, "아... 저것이 자신의 연구이구나..."라고 알게 되었습니다. 결국 어떤 연구에 대해서 가장 잘 아는 사람은, 연구자 본인이어야 합니다. 내가 한 일을 내가 가장 잘 알아야지 나보다 더 잘 아는 사람이 있으면 이상하지 않습니까?... 아무튼 저는 그때까지 몰랐습니다. 그게 제가 연구자로서..

과학 연구에서 중요한것

흔히들 과학 연구에서 넘치는 창의력과 틀에 매이지 않는 아이디어가 중요하다고 생각합니다. 하지만, 새로운 가설을 제시하는 것보다는, 가설을 어떻게 검증할 것인가가 과학의 본질이라고 볼 수 있습니다. 과학은 크게 실험/경험/측정과 이론으로 나뉩니다. 우리가 측정을 통해서 알 수 있는 사실들이 있습니다. 측정에 오류가 있지 않았다면, 그것이 사실입니다. 이론은 그 측정 결과의 원인이나, 측정 결과들 사이의 관계를 설명하는 것입니다. 아마도 창의력을 이야기하는 것은 실험보다는 이론의 영역에 대한 것 같습니다. 유명한 과학자들은 보통 실험보다는 이론분야의 종사자들이 많기 때문입니다. 실험은 보통 절차와 방법론이 정해져 있습니다. 예를 들면 특정 신물질을 만들었다면, 기존 물질에서 측정하던 물성들을 그 물질에 대..

물리학과 인공지능 겨울학교 온라인 강의 (2022)

한국 물리학회와 고등과학원 AI 기초과학센터 주관으로 물리학과 인공지능 겨울학교가 개최되는군요. 2022년 2월 21일 (월) - 25일 (금)까지 진행됩니다. 등록 3일째인데 400명 가까이 등록했습니다. 물리학과에서도 AI가 인기있다는게 느껴지네요. 다만 실전적이라기보다는 이론적, 기초적인 내용이 위주라서 얼마나 흥미를 끌지 모르겠습니다. 학부생이 배우는 수업과, 실제 대학원에서 연구하는 내용에는 차이가 많기도 하죠. 특히 물리학 분야에서 그런게 심하게 느껴집니다. 2022 물리학과 인공지능 겨울학교 (kias.re.kr) 2022 물리학과 인공지능 겨울학교 현대 물리학은 기계학습을 비롯한 다양한 인공지능 알고리즘을 활용하여 현재 강력한 시너지 효과를 경험하고 있으며, 이 두 가지 방법론이 점점 더 ..

단백질과 머신러닝: 2차구조 예측

단백질 구조 예측 연구를 시작하고, 머신러닝을 배워야겠다고 결심한 계기가 된 논문이 있습니다. David T. Jones의 단백질 2차 구조 예측 논문 PSIPRED입니다. Protein secondary structure prediction based on position-specific scoring matrices - ScienceDirect Protein secondary structure prediction based on position-specific scoring matrices A two-stage neural network has been used to predict protein secondary structure based on the position specific scoring ..

AlphaFold CASP14 논문이 나왔네요.

https://www.nature.com/articles/s41586-021-03819-2?fbclid=IwAR2-w88mv6s0fUQzsBWQ3JIF2L2ztOElJj8n64bbhpZ4oxoozdXpNeHd_9I 제목 참 심플하네요. Highly accurate protein structure prediction with AlphaFold 하는 김에 깃허브 공개까지 되었습니다. https://github.com/deepmind/alphafold?fbclid=IwAR2gEAd6akjuDwiVUlMsQ8ORSpiw43SchfQ4ztjqk7MHnNNUdn46RmVliu0 나오는 김에 David Baker 그룹 논문도 나왔네요. https://science.sciencemag.org/content/early/..

protein bioinformatics: 4. UniProt

어떤 단백질에 대한 정보를 알고 싶다면, 위키피디아와 UniProt 에서 찾아볼 수 있습니다. 위키피디아는 굳이 설명할 필요가 없으니 uniprot 에 대해서만 이야기하면 되겠네요. https://www.uniprot.org/ UniProt The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information. UniProtKBUniProt KnowledgebaseSwiss-Prot (565,254)Manually annotated and reviewe www.un..

protein bioinformatics: 3. 단백질 삼차원 구조 예측 개요

단백질은 아미노산들의 1차원 사슬로 이루어져 있고 (1차 구조), 지역적으로 helix, strand, coil 의 2차 구조를 형성하고 이들이 모여서 고유의 3차원 접힘 구조 (3차 구조)를 이룹니다. 혹은 3차 구조들이 여러개 모여 4차구조를 이루기도 합니다. 단백질 3D 구조 예측은 단백질의 서열로부터 고유의 3차원 접힘 구조를 예측하는 문제입니다. 단백질 구조 예측 문제를 어떻게 풀어야 하는가를 설명하기 위해서 일단 제 전공에 대한 이야기부터 해야겠는데요. 저는 원래 대학교, 대학원에서 물리학을 전공했습니다. 그러다가 졸업 후에 국내에서 단백질 구조 예측 연구를 전문적으로 한다는 연구실로 박사 후 연구원으로 취직을 했습니다. 저는 물리학을 전공한 사람이다보니, 처음엔 단백질도 물리적인 대상이니까 ..