Physics and Informatics 26

소재 개발에 AI를 활용하면 효율적일까?

인공지능 신약개발 사업이 한창 떠오르던 시기도 이미 6년 정도 지난 것 같습니다. 신약개발은 오래 걸리는 일입니다. 그중에서 다른 부분들도 시간이 오래 걸리지만, 약물 설계 과정도 수년 정도의 시간을 소모합니다. 그래서 AI로 분자를 설계해서 시간을 단축하겠다는 시도들이 많이 있었습니다. 하지만 정작 실제로 신약개발 프로젝트를 시작해 보면, 생각과는 전혀 다른 이유 때문에 시간이 소모되고, 그것은 AI로 해결되지 않는다는 것을 알게 됩니다. 설계한 분자를 합성하는 것은 어려운 일이고 비용도 비싸고 시간이 많이 걸립니다. 그런데 그런 문제보다도, 그 프로젝트 내에는 빠르게 그 과정을 진행할 계획이 잘 갖추어져있지 않습니다. AI나 컴퓨터로 분자를 설계하는 과정은 대체로 빠르면 1일로도 가능합니다. 메서드..

태풍을 수확할 수 없을까...

뇌절을 할 거면 확실하게 하라고 해서 허튼소리를 해보겠습니다. 우리는 자연에서부터 에너지를 뽑아서 사용하고 있습니다. 분자에 저장된 화학 에너지나, 태양광 에너지나, 물 등의 위치 에너지나, 핵 에너지나 다양한 에너지원들이 있습니다. 밀도가 높은 (?) 에너지 원이 대체로 효율이나 출력이 높습니다. 그런데 세상에는 에너지의 밀도는 낮지만 총량은 매우 큰 에너지들도 있습니다. 물은 기화될 때 에너지를 흡수하고, 그것이 다시 액체로 변할 때 에너지를 방출합니다.태풍의 주된 에너지원은 이렇게 저장된 잠열입니다. 넓은 바다위의 대기의 수증기들에 저장된 에너지는 단위 부피당으로는 별로 높지 않을 것입니다만... 그런데 어느순간 그것이 태풍이라는 매우 밀집된 강력한 에너지로 변환됩니다. 만약 이런 현상을..

기초과학과 응용과학, 기술

저는 대학원생 때 전공 분야가 응집물질물리이론이었습니다. 주로 고온 초전도체에 대해 연구하였습니다.고온 초전도체의 초전도 매커니즘이 무엇인지 어떻게 초전도현상이 일어나는지 그 기원을 찾는 연구였습니다. 뭐 저는 허접한 사람입니다. 그래서 딱히 연구 결과에 대해서 이야기하진 않겠습니다. 그냥 제 뿌리는 완전히 기초과학에 해당되었다는 것을 이야기하고 싶습니다. 저는 학생때 내가 하는 연구가 세상에 어떤 도움이 되는 것인가에 대해 많은 고민을 했습니다. 별로 생활에 충분한 돈은 아니지만,(제 인건비 월 40만원 정도였습니다.) 정부에서 지원하는 연구비에서 나오는 돈이었고, 그 재원은 국민 세금일 것입니다. 얼마를 받던 국민의 돈인 이상, 그것이 국민에게 이로워야 하는 것이라고 저는 생각합니다. 그럼 내 연..

세포들은 서로 얼마나 다른가?

최근에 개인적으로 하고 있는 연구입니다. (사실 1년 반쯤 전에 했던 일인데, 어떻게 논문으로 정리해야할지 몰라서 계속 방치하고 있었습니다. )우리 몸에는 다양한 기관이 있고 기관은 다양한 조직으로, 그리고 조직은 세포로 구성되어 있습니다. 기관과 조직들은 눈으로만 봐도 상당히 달라보입니다. 근육, 간, 폐, 장, 피부등은 서로 모양도 질감도 구성도 기능도 큰 차이가 있습니다. 물론 이 차이는 세포에서부터 시작합니다. 여기서 각 조직을 구성하는 세포들은 서로 얼마나 다른가 라는 질문을 던져보겠습니다. 그런데 이런 질문을 던지면 결국 다르다 혹은 유사하다 라는 것이 무엇인가부터 시작할 수밖에 없습니다. 이 개념은 개념으로서는 존재하지만, 구체성이 부족하기에 현실적으로 지표화 할 때는 임의로 어떠한 정의..

연구 이야기

저는 관심 분야가 좀 넓은 편입니다. 그만큼 깊이와 지식, 해당 분야에 대한 상식이 부족합니다. 몇 년 전부터 그냥 흥미가 있어서 혹은 자신에게 필요해서 한 연구들이 있습니다. 이걸로 논문을 어떻게 써야 하나 영 모르겠습니다. 유사한 연구가 있는지 잘 모르겠고.. 검색해 봐도 뭔가 비슷은 하지만 취지는 많이 다른 것 같고... 전공 분야가 아니다 보니 딱히 제가 아는 사람 중 그 분야에 대해 잘 알고 도와줄 사람도 없습니다. 제가 생각하는 취지가 잘 전달될지 모르겠습니다. 그래도 ChatGPT는 잘 이해하더군요. 그다음에 유사한 연구 찾으라니까 찾아오는 게 다 좀 다른 거 같아서 문제이지... 연구에 대해 자세한 이야기를 하고 싶지만, 아직 공개하기는 어렵네요. 그중 하나는 전사체 발..

bioinformatics: CCLE expression 데이터 gene symbol, entrez id로 찾기

Cancer Cell Line Encyclopedia (CCLE) 는 천여개의 Cancer Cell line에 대해 copy number, sormatic mutation, expression 등을 수록한 데이터베이스 입니다. 지금은 DepMap (Dependency Map) 과 통합되었고, DepMap portal을 통해서 제공됩니다. DepMap은 Cancer Cell line의 gene knockout/knockdown 에 대한 세포 생장 변화 여부를 수록한 데이터베이스 입니다. 최신 공개 버전은 23Q4 입니다. https://depmap.org/portal/download/all/ 포털에서 데이터를 그래프로 볼 수도 있고 다운로드를 할 수도 있습니다. protein coding genes에 대한..

bioinformatics: gene symbol, entrez id 변환

이전 글 ( https://novelism.tistory.com/381 )에서 언급한 gene symbol과 entrez ID 를 변환하는 코드 예시입니다. DB를 배포할 때, 서로 중복될 여지가 있는 gene symbol 말고도 풀네임이나 ID 를 함께 배포하면 좋겠습니다만, 그렇지 못한 경우가 여럿 있습니다. 일단 저는 정보를 추출할 때 다음 2개의 파일을 사용합니다. 하나는 HGNC이고, 다른것은 NCBI gene info 입니다. HGNC는 당연히 HGNC symbol 이 기준이고, NCBI는 entrez id 가 기준입니다. https://ftp.ebi.ac.uk/pub/databases/genenames/hgnc/tsv/hgnc_complete_set.txt https://ftp.ncbi.nl..

bioinformatics: gene symbol, 유전자 이름에 대해서

보통 bioinformatics라고 하면 주로 DNA, RNA에 대한 연구를 생각합니다. 저는 단백질 구조예측으로 단백질 서열-구조-기능-진화에 대한 연구에서 시작하였습니다. 관련 분야중에는 단백질체학이라는 분야도 있지만, 개개의 단백질에 대해 보는 것이 아니라 단백질체로 분석하기에 차이가 있습니다. 단백질 구조에 대한 연구는 물리화학이나 생물물리학적인 접근방법도 있지만, 저는 bioinfomatics에 가까운 방향으로 연구를 했습니다. 다양한 서열정보를 활용한다는 점에서 그렇습니다. 그동안 단백질 구조와 관련된 약물 탐색 관련 일을 했지만, 원래는 유전체 관련 연구를 하고 싶었습니다. 고등과학원을 그만두면서 유전체 분석 예비 전문가 과정 교육을 받기도 했고, 후에 회사로 갈 때도 유전체에 대한 연구를 ..

상보성 원리: 대립적인 것은 상호 보완적이다.

요즘 세상이 너무 날카로워지고 있는 것 같습니다. 화합과 존중과 평화의 시대는 끝났고 대립, 미움, 분노, 증오, 좌절이 지배하고 있는 것 같습니다. 그래서 세상의 화합을 바라는 마음으로 대립의 시대에 살던 한 과학자의 사상에 대한 이야기를 하려고 합니다. contraria sunt complementa 덴마크의 물리학자 닐스 보어의 가문 문장에 적힌 글입니다. 대립적인 것은 상호 보완적이다. 물리학자들은 세상의 원리를 발견하기를 희망합니다. 좀 심하게 나가면, 그 원리로 세상 모든 것을 설명하거나, 모든 분야에 그 원리를 응용하려는 생리를 가지고 있습니다. 양자역학의 창시자 중 한 사람인 닐스 보어는 아마도 상보성 원리가 세상 모든 것을 설명하는 가장 핵심적인 원리라 생각한 것 같습니다. 사실 저도 동..

Protein bioinformatics: 구조-기능-진화와 머신 러닝

저는 조금 다양한 분야를 연구한 것 같습니다. 그중에서도 저에게 가장 흥미 있는 분야는 생물정보학이라고 생각합니다. 오늘은 단백질 생물정보학과 머신러닝의 관계에 대해 이야기하겠습니다. 저는 단백질 생물정보학에서 처음 머신러닝을 접하였습니다. 머신러닝에서 중요한 주제 중 하나는 데이터의 분포와 매니폴드입니다. 예를 들어 28*28 픽셀의 그림에서, 오직 흑과 백 두 가지 경우만 존재한다고 생각해 봅시다. 이때, 이 픽셀에 흰점과 검은 점을 조합할 수 있는 총경우의 수는 2^(28*28) 가지입니다. 이 그림 파일의 각 가능한 조합의 경우를 28*28 bit로 표현할 수 있을 것입니다. 그런데, 대부분의 조합들은 아마도 우리가 신호 없는 모니터에서 보는 흑백이 랜덤 하게 뿌려진 노이즈에 해당할 것입니다. 질..