2022/08/05 2

데이터 분석: 유사성과 정렬

복잡한 데이터들을 분석하는 과정에서 하는 일중 하나는 데이터의 유사성을 찾는 것입니다. 유사성을 비교하기 위해선 데이터를 정렬해야 합니다. DNA나 단백질 염기 서열에 대해 연구하는 bioinformatics 분야에서 많이 하는 일중 homology 탐색이 있습니다. 유사한 서열을 탐색하는 것입니다. 서로 다른 서열의 유사성을 비교하기 위해선 정렬을 해야 합니다. 서로 무관한 것들을 정렬하는 것은 의미가 없습니다. 약물 탐색도 마찬가지입니다. 특정 타깃 단백질에 대해서 결합하는 약물들을 그냥 뿌려두면, 분석하기 매우 어렵습니다. 이럴 때 2D, 3D 구조 정렬, Maximum common subgraph 같은 다양한 정렬 방법을 활용하면 약물들 사이의 유사성을 확인할 수 있습니다. 그리고 유사한 약물들끼..

알파폴드가 예측한 단백질 구조는 완벽한가?

과거 단백질 구조 예측 연구를, 그리고 지금은 구조기반 약물 탐색 연구를 하고 있는 입장에서 자주 받는 질문 중 하나가 알파폴드가 예측한 단백질 구조는 완벽한가 라는 질문입니다. 그 외에도 단백질 구조 예측이 도움이 되는가? 단백질 구조 예측 연구는 이제 더 이상 할 일이 없는가? 같은 질문들도 있습니다. 알파폴드는 이미 누구나 사용할 수 있도록 공개되어있고, 알파폴드가 예측한 구조도 꾸준히 공개되고 있습니다. 알파폴드의 예측 구조는 일부 경우를 제외하면, 대부분 정확도가 매우 높고, 실험 구조와 큰 차이가 없다고 해도 과언이 아닙니다. 이미 단백질 구조도 다 공개되었으니 그러면 더 이상 구조 예측, 혹은 구조 결정 실험은 필요 없는가?라고 묻는다면 저는 아니라고 대답할 것입니다. 그 근거 중 하나는, ..