2022/03 18

인공지능 신약개발에서 데이터 생산의 중요성

기계학습은 당연히 데이터가 있어야 할 수 있습니다. 공공 데이터는 적은 것은 아니지만, 여러 문제가 있습니다. 원하는 타겟에 대한 데이터는 많지 않고, ChEMBL처럼 active위주로 수집이 되어있거나, 저는 학계에서 인공지능 신약개발 연구를 하다가, 공공데이터에만 의존하고 자체적인 데이터가 없이는 어렵다는 생각이 들어서 인공지능 신약개발 회사로 이직했습니다. 회사는 돈 벌기 위해서 연구하는 곳이니까, 아무래도 돈을 들여서 데이터를 많이 만들 줄 알았죠. 회사에서 돈 들여서 데이터를 만들거나, 파트너로부터 데이터를 얻어서, 그 데이터를 학습하고 분자를 선별하고 그것을 다시 학습에 활용하고, 이 과정을 반복해나가면서 신약개발을 할 거라 생각했지만, 전혀 그런 것 하지 않더군요. 그냥 공공데이터 가지고 학..

민어전

민어 철은 아니지만, 인터넷에서 민어를 싸게 파는 곳이 있어서 5kg짜리 주문했습니다. 아는 분이 대신 주문해주셨는데, 1kg에 14000원, 손질, 택배비 1만 원이라고 하네요. 일부는 회로 먹고, 민어 머리는 오래 끓였더니 곰탕처럼 국물이 뽀얗게 나오는데 맛있었습니다. 사실 저는 회를 별로 안 좋아합니다... 안 좋아하는데 왜 사 먹는 걸까요...? 남은 민어로 전을 만들었습니다. 필렛을 떠서 보내주니까 전 만들기도 쉽습니다. 5mm 정도로 좀 두껍게 썰었습니다. 부침가루를 묻히고, 계란을 입혀서 부쳐줍니다. 스텐 팬이지만 예열만 잘하면 안 달라붙습니다. 다 익은 것은 종이에 올려서 기름을 제거합니다. 계란이 애매하게 남아서 호박전도 만들었습니다. 내일 직장에 가져가려고 도시락통에 담았습니다. 맛있습..

Food 2022.03.13

Enrichment Factor

Enrichment factor (EF)는 약물 가상 탐색에서 성능 평가를 할 때 사용하기 적절한 지표입니다. 약물의 유효성을 예측하여 스코어를 주는 메서드가 있을 때, Enrichment Factor는 다음과 같습니다. $$EF=\frac{\text{precision}}{\text{active rate}}$$ 이때, \(\text{precision}=\frac{\text{True Positive}}{\text{Positive}}\), \(\text{active rate}=\frac{\text{Active}}{\text{Total Number}}\) 입니다. 즉, Enrichment factor는 전체 분자 중에서 active의 비율에 비해서 선별된 분자들 중에서 active의 비율이 얼마나 증가하는가를..

막회

포항에서 유명한 음식으로 막회가 있습니다. 특별히 정해진 어종은 아니고, 가리지 않고 대충 썰어서 주는 것입니다. 특징으로 가격이 무척 저렴합니다. 인터넷에서 택배로 보내주는 업체를 찾아서 주문했습니다. 회 1kg, 채소, 초장 한통에 배송비까지 해서 3만 원 정도였습니다. 접시에 담아봤는데 양이 엄청납니다. 금방은 다 못 먹겠고 다시마 숙성을 시켜볼까 해서 통에 다시마와 함께 넣었습니다. 회덮밥을 만들었습니다.

Food 2022.03.11

오븐으로 텍사스 브리스킷 만들기

호주산 브리스킷(차돌양지) 3.5kg입니다. 가격은 45000원 정도 했습니다. 저번에는 미국산으로 했는데, 호주산이 좀 더 질겨서 더 오래 익혀야 하는 것 같습니다. 아침 8시에서 저녁 8시까지 총 12시간 동안 요리했습니다. 그래도 약간 질긴 느낌이 남아있었습니다. 저는 고기가 완전히 으스러지고 녹아내리는 것을 좋아합니다. 고기는 아름답습니다. 냉동이니까 하루정도 해동시켜줍니다. 고기가 너무 커서 오븐에 안 들어가서 조금 잘랐습니다. 브리스킷 럽을 발라줍니다. 로켓 직구로 구매했습니다. 재료는 설탕, 파프리카 가루, 고춧가루인 것 같고, 살짝 라면수프 같은 맛이 나고, 염분도 많이 들어있어서 소금을 추가로 넣어주지 않아도 됩니다. 처음 샀을 때는 브리스킷 럽 맞는지 의문이었는데, 완성된 것을 먹어보니..

Food 2022.03.07

생포도주스 만들기

캔디 드림이라는 품종으로 구매했습니다. 칠레산이고 씨 없는 포도입니다. 당도는 22 브릭스입니다. 4kg 25000원입니다. 1L 병 2개가 나왔습니다. 씨 있는 포도는 믹서기로 씨째로 갈면 안 됩니다. 포도씨를 갈면 아린 맛이 나서 마시기 힘듭니다. 포도를 세척하고 물기를 제거합니다. 물기가 적당히 제거되면 통에 담고 믹서로 갈아줍니다. 손으로 으깨려 했더니 조금 단단해서 힘들더군요. 통을 봉해서 서늘한 곳에 두면 과육이 녹아내립니다. 2~3일 정도 두면 과육이 충분히 녹아내립니다. 채로 걸러서 건더기를 제거하고 주스만 따로 모아줍니다. 갈고 바로 마셔도 되긴 하지만, 숙성과정을 거치면 맛이 더 부드러워집니다. 숙성을 안 하면 풋내 같은 것이 납니다. 22 브릭스 포도는 엄청나게 답니다. 작년엔 위니아..

Food 2022.03.07

머신러닝 기반 분자 활성 예측 정확도가 낮은 이유

딥러닝으로 분자의 다양한 특성을 예측하는 연구는 최근 수년 사이에 인기 있는 주제 중 하나입니다. 여러 특성들 중에서도 신약개발에서 가장 중요한 task는 분자의 bioactivity (단백질에 대한 결합, 혹은 효능)을 예측하는 것일 것입니다. 하지만, 다른 특성 예측과 비교하면 bioactivity 예측은 정확도가 낮습니다. 저는 그 이유가 단지 머신의 아키텍처나 학습 방식의 문제가 아니라고 생각합니다. 좀 더 근본적으로 데이터 자체가 가지는 문제를 생각해볼 수 있습니다. 호 머신러닝은 말 그대로 데이터로부터의 학습이고, 통계 이론의 적용을 받습니다. 통계에서 하는 일은, 표본 데이터로부터, 모집단의 확률분포를 유추하는 것이고, 머신러닝도 크게 다르지 않습니다. 그런데, 학습에 사용하는 데이터가 추정..