Physics and Informatics/bioinformatics 3

bioinformatics: CCLE expression 데이터 gene symbol, entrez id로 찾기

Cancer Cell Line Encyclopedia (CCLE) 는 천여개의 Cancer Cell line에 대해 copy number, sormatic mutation, expression 등을 수록한 데이터베이스 입니다. 지금은 DepMap (Dependency Map) 과 통합되었고, DepMap portal을 통해서 제공됩니다. DepMap은 Cancer Cell line의 gene knockout/knockdown 에 대한 세포 생장 변화 여부를 수록한 데이터베이스 입니다. 최신 공개 버전은 23Q4 입니다. https://depmap.org/portal/download/all/ 포털에서 데이터를 그래프로 볼 수도 있고 다운로드를 할 수도 있습니다. protein coding genes에 대한..

bioinformatics: gene symbol, entrez id 변환

이전 글 ( https://novelism.tistory.com/381 )에서 언급한 gene symbol과 entrez ID 를 변환하는 코드 예시입니다. DB를 배포할 때, 서로 중복될 여지가 있는 gene symbol 말고도 풀네임이나 ID 를 함께 배포하면 좋겠습니다만, 그렇지 못한 경우가 여럿 있습니다. 일단 저는 정보를 추출할 때 다음 2개의 파일을 사용합니다. 하나는 HGNC이고, 다른것은 NCBI gene info 입니다. HGNC는 당연히 HGNC symbol 이 기준이고, NCBI는 entrez id 가 기준입니다. https://ftp.ebi.ac.uk/pub/databases/genenames/hgnc/tsv/hgnc_complete_set.txt https://ftp.ncbi.nl..

bioinformatics: gene symbol, 유전자 이름에 대해서

보통 bioinformatics라고 하면 주로 DNA, RNA에 대한 연구를 생각합니다. 저는 단백질 구조예측으로 단백질 서열-구조-기능-진화에 대한 연구에서 시작하였습니다. 관련 분야중에는 단백질체학이라는 분야도 있지만, 개개의 단백질에 대해 보는 것이 아니라 단백질체로 분석하기에 차이가 있습니다. 단백질 구조에 대한 연구는 물리화학이나 생물물리학적인 접근방법도 있지만, 저는 bioinfomatics에 가까운 방향으로 연구를 했습니다. 다양한 서열정보를 활용한다는 점에서 그렇습니다. 그동안 단백질 구조와 관련된 약물 탐색 관련 일을 했지만, 원래는 유전체 관련 연구를 하고 싶었습니다. 고등과학원을 그만두면서 유전체 분석 예비 전문가 과정 교육을 받기도 했고, 후에 회사로 갈 때도 유전체에 대한 연구를 ..