이번 기술검증의 궁극적인 목적은 3D 단백질-리간드 상호작용을 언어로 변환해 GPT 언어모델로 학습했을 때 얻을 수 있는 장점을 확인하는 것이다.
이를 위해 신테카바이오는 5000만개의 3차원 구조 상호작용 빅데이터를 언어로 변환하고, 미국 세레브라스(Cerebras)사의 웨이퍼 스케일(Wafer Scale) CS2 장비를 이용해 GPT를 만들었다. 이어 성능 비교를 위해 한국정보통신산업진흥원(NIPA) 고성능 AI 지원사업의 자원인 네이버 클라우드, 테슬라 V100, 80 TF 등과 700만개의 데이터로 GPT를 추가로 만들어 비교했다. 언어모델 학습 후에는 비선형적인 차원 축소 방법(t-SNE) 및 히트맵(heat map) 분석을 통해 검증을 수행했다.
검증 결과 단백질 또는 리간드 중심의 클러스터 형성은 중요한 단백질-리간드의 상호작용을 이해하고 학습하는 모델의 성능이 확인됐다. 학습된 모델을 기반으로 방대한 수의 약물 후보를 효과적으로 선행 스크리닝하고 새롭고 유의미한 상호작용을 생성할 수 있다는 결론을 도출했다고 회사 측은 설명했다.
신테카바이오는 현재 약 5000만개에 달하는 3D단백질-화학 결합 정보 등 GPT 학습을 위한 방대한 양의 데이터를 보유하고 있다. GPT 적용을 통해 이러한 상호작용 결합 정보를 계속 축적한다는 계획이다.
신테카바이오 관계자는 “신약개발 부문에 AI를 적용하려면 AI가 학습할 수 있는 로직과 축적된 데이터가 가장 중요한데, 이미 데이터와 인프라, AI 플랫폼까지 준비된 상태”라며 “슈퍼컴센터 완공 후 슈퍼컴 인프라 확충까지 이뤄지면 시너지는 더욱 커질 것”이라고 말했다.