기계학습은 당연히 데이터가 있어야 할 수 있습니다. 공공 데이터는 적은 것은 아니지만, 여러 문제가 있습니다. 원하는 타겟에 대한 데이터는 많지 않고, ChEMBL처럼 active위주로 수집이 되어있거나, 저는 학계에서 인공지능 신약개발 연구를 하다가, 공공데이터에만 의존하고 자체적인 데이터가 없이는 어렵다는 생각이 들어서 인공지능 신약개발 회사로 이직했습니다. 회사는 돈 벌기 위해서 연구하는 곳이니까, 아무래도 돈을 들여서 데이터를 많이 만들 줄 알았죠. 회사에서 돈 들여서 데이터를 만들거나, 파트너로부터 데이터를 얻어서, 그 데이터를 학습하고 분자를 선별하고 그것을 다시 학습에 활용하고, 이 과정을 반복해나가면서 신약개발을 할 거라 생각했지만, 전혀 그런 것 하지 않더군요. 그냥 공공데이터 가지고 학..