Protein 2

protein bioinformatics: 2.1 pdb 파일 포멧, 3d 구조 파싱 주의사항

PDB 는 protein data bank 로, 실험적으로 밝혀진 (혹은 일부 시뮬레이션된) 단백질의 구조를 업로드하고 배포하는 곳입니다. https://www.rcsb.org/ 여기서 많이 사용되는 파일포멧이 pdb 입니다. 이 파일포멧의 단점으로 다른 포멧을 사용하는 사람들도 있긴 하지만... 여전히 제일 많이 사용되는 파일 포멧입니다. pdb 파일을 파싱할 때 가장 중요한 점은 메뉴얼을 읽어야 한다는 점입니다. 메뉴얼은 여기서 찾으실 수 있습니다. https://www.wwpdb.org/documentation/file-format pdb 파일은 각 열마다 고유의 의미가 있습니다. 따라서 pdb 파일을 파싱할 때, 절대로 line.strip() 같은거 쓰면 안됩니다. 이중 단백질 구조를 담고 있는 ..

protein bioinformatics: 1. 단백질 서열 정렬 (NWalign) 및 유사성

서열정렬 (sequence alignment) bioinformatics 생명정보학, 생물정보학, 생정보학... 이 분야가 무엇이라고 한마디로 규정하기 어렵지만, 생물과 관련된 정보를 사용하는 분야이고, 대량의 데이터를 다루기에 컴퓨터를 사용하는 일이 많습니다. 대표적으로는 유전체 분석.. 유전체의 서열과 발현을 다루는 일이 있습니다. 사실 단백질도 유전체로부터 나오기에, 단백질 관련 연구도 중요한 주제입니다. 저는 단백질 구조 및 기능 분야에서 일하고 있고, 당분간 바이오인포메틱스적인 관점에서 단백질을 어떻게 연구하는지, 그리고 어떤 스킬이 필요한지에 대해 이야기하고자 합니다. 서열 정렬을 어떻게 해야하는지, pdb를 어떻게 파싱해야할지 같은 이야기입니다. 예제코드는 제 github에 있습니다. htt..