Physics and Informatics 24

protein bioinformatics: 2.1 pdb 파일 포멧, 3d 구조 파싱 주의사항

PDB 는 protein data bank 로, 실험적으로 밝혀진 (혹은 일부 시뮬레이션된) 단백질의 구조를 업로드하고 배포하는 곳입니다. https://www.rcsb.org/ 여기서 많이 사용되는 파일포멧이 pdb 입니다. 이 파일포멧의 단점으로 다른 포멧을 사용하는 사람들도 있긴 하지만... 여전히 제일 많이 사용되는 파일 포멧입니다. pdb 파일을 파싱할 때 가장 중요한 점은 메뉴얼을 읽어야 한다는 점입니다. 메뉴얼은 여기서 찾으실 수 있습니다. https://www.wwpdb.org/documentation/file-format pdb 파일은 각 열마다 고유의 의미가 있습니다. 따라서 pdb 파일을 파싱할 때, 절대로 line.strip() 같은거 쓰면 안됩니다. 이중 단백질 구조를 담고 있는 ..

protein bioinformatics: 1. 단백질 서열 정렬 (NWalign) 및 유사성

서열정렬 (sequence alignment) bioinformatics 생명정보학, 생물정보학, 생정보학... 이 분야가 무엇이라고 한마디로 규정하기 어렵지만, 생물과 관련된 정보를 사용하는 분야이고, 대량의 데이터를 다루기에 컴퓨터를 사용하는 일이 많습니다. 대표적으로는 유전체 분석.. 유전체의 서열과 발현을 다루는 일이 있습니다. 사실 단백질도 유전체로부터 나오기에, 단백질 관련 연구도 중요한 주제입니다. 저는 단백질 구조 및 기능 분야에서 일하고 있고, 당분간 바이오인포메틱스적인 관점에서 단백질을 어떻게 연구하는지, 그리고 어떤 스킬이 필요한지에 대해 이야기하고자 합니다. 서열 정렬을 어떻게 해야하는지, pdb를 어떻게 파싱해야할지 같은 이야기입니다. 예제코드는 제 github에 있습니다. htt..

과학과 돈

저는 대학, 대학원에서 물리학을 전공하였습니다. 그것도 기초과학 분야이고, 이론적이고 원리를 밝혀내는 부류의 소위 돈 안되는 연구에 가까웠습니다. 지금은 물리학과는 좀 다른 분야, 그것도 회사에서 일하고 있습니다. 어찌보면 지금 하는일과 전공이 무슨 상관이 있냐?... 박사 뭐하려고 했냐? 의미 없는 시간 아니었냐 라고 할 수도 있지만, 오늘의 자신이 있는 것은 과거의 자신이 있었기 때문이라고 생각합니다. 오늘은 그냥 제가 살아오면서 느껴온 이야기들을 좀 적어보고 싶습니다. 제가 물리학에 매료된 것은 상대성 이론과 양자역학이 나온 시대를 동경하고 그리고 그 시대를 살아가던 훌륭한 선배님들을 동경했기 때문이었습니다. 그 중에는 워낙 대중적으로도 유명해서 모르는 사람이 없을만한 분들도 계십니다. 아인슈타인,..

단백질 구조예측과 딥마인드의 알파 폴드

이미 조금 지난 일이지만, 작년 CASP14에서 딥마인드의 알파폴드 2가 예측 정확도에서 다른 참가자를 크게 제쳐버린 일이 있었습니다. 하지만 아직도 알파폴드2를 제대로 분석한 자료는 보이지 않는 것 같습니다. 딥마인드를 과소평가하는게 아닌가... 그런 생각이 듭니다. 저도 나름 단백질 구조예측 분야를 연구한 경험이 있기에 몇가지 적어볼까 합니다. 먼저, 저는 단백질 구조예측대회 CASP12에 참여하였고 3위안에 드는 그룹 소속으로 주요 저자 중 한명이었습니다. 그리고 correlated mutation 관련된 논문을 2편 쓴 경험이 있습니다. (하지만 그중 한편 도메인 경계 예측은 딥마인드가 도메인 경계 나누지 않고 그냥 모델링 해버렸다고 해서 묻혀버린 분야가 되었습니다.) 굳이 제 이야기를 하는 이유..