Physics and Informatics

protein bioinformatics: 4. UniProt

Novelism 2021. 6. 17. 23:24

 

 어떤 단백질에 대한 정보를 알고 싶다면, 

 위키피디아와 UniProt 에서 찾아볼 수 있습니다. 

위키피디아는 굳이 설명할 필요가 없으니 uniprot 에 대해서만 이야기하면 되겠네요. 

https://www.uniprot.org/

 

UniProt

The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information. UniProtKBUniProt KnowledgebaseSwiss-Prot (565,254)Manually annotated and reviewe

www.uniprot.org

 

여러 카테고리가 있지만, 일단 제가 써본것은 UniProtKB와 UniRef 입니다. 
UniProtKB 는 단백질에 대한 다양한 정보를 담고 있습니다. 

UniRef 는 sequence cluster 입니다.

 예를 들자면 많은 단백질 서열-구조 연관 연구를 할 때...
 homology 서열로부터 sequence profile을 만들고,
 profile로부터 2차 구조를 예측하거나, 
아니면 homology 서열로부터 correlated mutation을 예측하고 residue-residue distance 를 예측할 때..
단백질 구조 예측과 연관된 연구를 할 때 주로 사용하는 것이 UniRef sequence cluster 입니다. 
웹에서도 사용 가능 하지만, 아래 링크에서 데이터를 다운로드 받을 수도 있습니다. 
https://www.uniprot.org/downloads

 

Download

2020-10-072021_03UniProt Knowledgebase and related datasets UniProt is updated every eight weeks (see FAQ on how to be notified automatically of updates). You can download small data sets and subsets directly from this website by following the download lin

www.uniprot.org

 

다시 UniprotKB로 돌아가서... 검색하는방법은 다음과 같습니다.

UniProt 검색창에서 UniProtKB 를 선택하고 원하는 단백질 이름을 쳐봅시다.

예시로 EGFR 로 검색해보겠습니다.

그리고.. 인터넷 익스플로러를 쓸 경우 웹사이트가 약간 깨집니다. 웬만하면 다른거 쓰세요. 

UniProtKB EGFR 검색결과

이런식으로 여러 종에대한 검색 결과가 출력됩니다.

 이중 Homo sapiens (HUMAN) 에 대한 결과를 선택합니다.
 전에 보니 네안데르탈인에 대한 서열도 있긴 하더라고요. 
Entry P00533 을 클릭합니다.

 

P00533

전부 다 이야기하기엔 너무 많고, 단백질 구조 분석과 연관된 것들 위주로 이야기하겠습니다. 
*Function
단백질의 기능에 대해 적혀 있습니다. EGFR은 kinase이고, EGFR 2개가 결합하여 homo dimer를 이룬 후, ATP를 이용해서 서로의 티록신을 인산화합니다.
ATP binding site, binding region 도 적혀있습니다. 

 

*Names & Toxonomy 

 단백질/유전자 이름과, 생물체, 유전자의 위치 정보를 담고 있습니다.

 단백질이나 유전자는 이름이 여러개인 경우가 많아서 때때로 파싱이 쉽지 않을 때도 있습니다. 

 그래서 구글, 위키피디아에서 먼저 검색해보는것이 좋습니다.

 단백질의 이름은 Epidermal growth factor receptor이고, Organism은 Homo sapiens (Human) 입니다.
 인간에 대한 식별기호는 9606 입니다. 
 유전자는 Chromosome 7에 위치해있습니다. 

 

* subcellular location 

EGFR은 막 단백질로 receptor이자 kinase 입니다.  세포 외부에서 메신저와 결합하면 그 신호를 세포 내로 전달하는 역할을 합니다. 여러 도메인으로 나뉘어있는데, 각 도메인이 세포에서 위치하는 영역이 적혀있습니다. 

 

*  Pathology & Biotech

주요 질환 정보가 적혀있습니다. 
EGFR은 폐암의 주요 타겟입니다. 
Chemistry databases에 ChEMBL이나 DrugBank 에서 수집한 EGFR과 관련된 약물들이 연결되어 있습니다.
DrugBank에서 사용하는 검색 시스템이 좀 이상해서 Uniprot 에서 찾아서 들어가는게 나은 듯

 

 *PTM/Processing

단백질의 구조와 관련된 정보를 담고 있습니다.

 단백질은 20가지 아미노산의 1차원 서열로 이루어져있다고 말하기는 하지만, 서열상으로 이웃하지 않은 아미노산들이 서로 결합하여 변형되는 경우도 있습니다. 대표적인것이 CYS의 disulfide bond 입니다. 

*Structure

3D structure 정보가 있습니다. PDB (Protein Data Bank)의 구조들입니다. PDB 구조를 제공하는 곳이 여럿인데, 저는 주로 RCSB를 이용합니다. PDBe는 유럽, PDBj 는 일본 서버입니다.

 단백질은 기본적으로 여러 도메인으로 나뉘어 있는데, 한번에 모든 단백질의 구조를 실험하기 어려운 경우가 있습니다. 
특히 EGFR 은 막단백질이라 세포 외, 세포 내 영역을 전부 포함합니다.

 그래서 대부분 PDB 구조는 extracellular domain 과 kinase (cytoplasmic) 영역 중 한쪽 구조 정보만을 담고 있습니다.  

내가 원하는 타겟 도메인이 어디인가를 확인해서 그 영역이 찍힌 PDB 를 선택하면 됩니다. 

PDB에서 기본적으로 position은 uniprot의 canonical sequence (isoform) 를 기준으로 합니다. 

그래서 EGFR에서 T790M 이라 말해도 어느 residue 를 지칭하는지 알 수 있습니다.
하지만 그렇지 않은 타겟도 있으니 주의해야 합니다. insertion이나 deletion 때문에  pdb 에서 residue 번호가 특이하게 붙는 경우가 있는데 파싱할 때 까다롭습니다. 

* Family & Domains
구조적으로 도메인을 분류해두었습니다.
 subcellular location 는 세포내에서의 위치 기준으로 분류합니다.

Sequence similarities 에는 어느 슈퍼패밀리, 어느 패밀리, 어느 서브패밀리에 속하는지 정보가 있습니다. 
이 부분은 selectivity를 고려할 때나, informatics 기반의 접근방법에서도 매우 중요합니다. 
같은 패밀리 내에서는 단백질간의 서열이나 단백질 구조가 유사한데, 때때로 포켓 구조까지도 거의 유사한 경우도 많습니다. 이런 경우라면, 약물에 대한 활성 결과도 상당히 코릴레이션이 높습니다. 

하지만 같은 (슈퍼)패밀리에 속할지라도, 포켓 구조가 다른 경우는 공통적인 약물이 없을 수도 있습니다. 
만약 약물 탐색을 위해서 단백질 구조 예측을 한다면, 전체 구조가 유사한 것보다, 포켓 구조가 유사한 템플릿을 선택하는 것이 중요합니다. 내가 원하는 타겟 단백질에 대한 정보가 적을지라도, 패밀리의 정보까지 활용하면 많은 정보를 이용할 수도 있습니다. 반대로 이런 경우는 selectivity를 고려하기가 더 어려워집니다.

* Sequences

서열 정보입니다. Isoform 1이 canonical sequence 입니다. 
T790M 같은 mutation 정보는 이 서열을 기준으로 합니다. 

 단백질의 서열을 다룰 때는 기본적으로 여기서 서열을 가져와야 합니다. 

뮤테이션이 있다면, 표준 서열에서 그부분만 고칩니다. 

예전에 보니 서열 기반 DTI를 만든다며 올려둔 논문의 데이터에 전혀 엉뚱한 서열을 사용한 것이 있더군요. 

심지어 같은 단백질에 대해서 single mutation 에 대한 분자 활성도 실험까지 한 엄청 좋은 데이터인데...
정작 그 데이터를 가져다 논문 쓴 사람이 서열을 잘못 수집해서 isoform이 아닌 다른 서열을 사용했더군요. 
mutation 에 따라서 서열이 달라지지도 않았습니다. 
원래는 isoform 에서 뮤테이션 부분만 찾아서 서열을 고쳐야 하죠. 
mutation 정보만 확인했어도, 자신이 쓴 서열이 잘못된 것을 알았을텐데... 
저는 서열 기반 DTI에 대해 부정적인데, 저라면 서열 기반이라 할지라도, 적어도 내가 타겟으로 하는 도메인을 먼저 식별하고, 그 도메인에 속한 서열만 을 사용할 것입니다. 
서열 기반 DTI도 잘 되는 경우가 있긴 하죠. 패밀리나 슈퍼패밀리 단위에서 단백질 서열-구조-약물 활성 유사성이 있기 때문에요. 트레이닝셋에 패밀리 단백질이 있었다면, 테스트 단백질에 대해서 어느정도 (트레이닝 셋에 있던 것과 유사한 약물이라면) 예측이 가능할 것입니다. 

하지만 싱글 뮤테이션의 효과 같은것을 다루는 것은 거의 불가능하고, 트레이닝 셋에 서열은 유사하지만 포켓 구조가 다른 단백질이 있었다면 테스트 단백질에 대한 결과도 신뢰하기 어렵게 될 것입니다. 

저라면 굳이 서열 기반 DTI 만드느니 그냥 직접 패밀리, 슈퍼패밀리에 대해, 구조, 서열 활성 분석을 해버릴겁니다.
그게 결과를 이해할 수 있고, 그 결과를 자신이 신뢰할 수 있고, 다른 사람에게 설명하기도 쉬우니까요.

기본적으로 이러합니다. 단백질 서열, 구조가 비슷하면 그 단백질들에 대한  분자의 활성이 비슷하다. 분자 구조가 비슷하면 그 분자들의 단백질에 대한 활성이 비슷하다. 
 단 한 단백질에만 결합하는 약물이 오히려 드물 것 같습니다. 단백질 패밀리들이 많아서요. 
 DTI 의 예측이 잘 되는 경우는, test 하고 싶은 단백질과 유사한 단백질이 training set에 있는 경우이면서, test하고 싶은 약물과 유사한 구조를 가진 약물이 test set에 있는 경우입니다. 
그 외에는 신뢰도가 상당히 떨어집니다. 서열기반이건, 구조기반이건... 

natural variant 에는 여러 mutation  정보가 있습니다. 

 T790M 은 EGFR에선 유명하고... 
C797 에도 mutation 이 일어나는 경우가 있는데, 여기엔 기록되어있지 않네요. C797 residue에 covalent bonding 이 가능하도록 설계된 약물들이 있는데, 이 residue에 mutation이 일어나버리면 해당 약물들은 결합력이 떨어져버립니다. 


여기까지 단백질 구조 기반 접근 방법에서 필요한 uniprot에서 수집할 수 있는 데이터를 대충 정리하였습니다.

 언급하지 않은 것들도 있지만...