비엘팜텍 자회사 비엘사이언스 "세계 최고 맞춤형 진단 AI 선보일 것"(下)

김지완 기자I 2023.10.06 11:05:23

14일 서울 중구 통일로 이데일리 본사
고재필 금오공대 컴퓨터공학과 교수 인터뷰

[이데일리 김지완 기자] 비엘팜텍(065170) 자회사 비엘사이언스는 세포핵 분리 AI 기술을 바탕으로 진단시장에서 지각변동을 예고했다. 고재필 교수는 객관적으로 입증된 세계 최고 성능의 세포핵 분할 인공지능(AI)와 비엘사이언스가 보유 중인 수십 만장의 세포 병리 이미지가 결합하면 암 진단·예측 및 맞춤형 치료 시장에 혁신을 일으킬 수 있다고 자신했다. 다음은 고재필 금오공대 컴퓨터공학과 교수와 일문일답.

고재필 금오공대 교수가 지난 14일 서울 중구 통일로 이데일리 본사에서 인터뷰 중이다. (제공=김지완 기자)


△고 교수가 개발한 AI의 세포 핵분리 정확도는?

-(고 교수는 노트북 화면 속 데이터를 가리키며) 두 가지 평가 기준 모두 SOTA 기록을 넘어섰다. 다만, 뉴스에서 구체적 데이터 공개는 삼가달라. 논문 발표 전까진 기밀이다.

△머신러닝을 하기엔 데이터 숫자가 너무 적다는 생각이 드는데.

-그렇다. 그 30개 데이터 숫자를 늘리는 게 기술이다. 30개 이미지로는 AI를 훈련을 시킬 수 없다. 그래서 데이터 증강을 통해 2만 4000개로 훈련 데이터 숫자를 크게 늘렸다.

△데이터 증강 기술 차이가 AI 성능 차이를 내는 것인가.

-결국, 최적의 훈련 데이터를 얼마나 만들어내느냐가 AI 고도화에 핵심이다.

△훈련 데이터는 어떻게 만드나.

-코딩을 통해 만들어 낸다. 각각의 컬러를 흑백으로 만들어 색상을 통일시켰다. 이후 이미지 분할, 이동, 크기 및 밝기 조정 등 다양한 방식으로 데이터를 늘린다.

△데이터를 증강시켜 기계학습하면 되는 건가.

-AI를 어떻게 훈련시키는 지가 중요하다. 이 과정에서도 훈령강도, 횟수, 학습 간격 등 개발자 노하우가 들어간다. 알파고가 바둑 배우는 것도 대국 횟수, 강도, 간격 등에 의해 강화되는 것과 같은 이치다.

△해병대처럼 훈련시키면 강력한 AI가 만들어지나.

-절대 아니다. AI 고도화를 시키는 과정에서 학습 요건이나 환경에 따라 살살 달래가면서 학습시키느냐, 세게 몰아부처 시키느냐에 따라 결과가 상이하다. 개발자가 시행착오를 겪어가면서 최적의 훈련법을 찾아내야 한다.

△AI로 세포핵을 찾는 데 이 정도의 공을 들여야하나.

-인체에 약 30조~40조 개 세포가 있다. 그런데 세포는 세포핵이 1개 일수도 있고, 경우에 따라서는 2개인 경우도 있다. 적혈구엔 세포핵이 없다. 그리고 세포 크기, 종류가 제각각이고, 개인 체격, 연령, 인종 등에 따라서도 세포 종류나 숫자가 달라진다. 더욱이 각기 다른 조건에서 촬영된 사진에서, 보편적인 성능을 내는 AI를 개발하는 건 상당히 까다롭고 어려운 일이다.

△학습된 AI는 세포 이미지에서 세포핵을 찾아내는 것인가.

-사진 픽셀 100만 개를 가져다 놓고 얼마나 맞췄는지를 소수점 4자리까지 계산해서 판독한다. 이 데이터가 정밀의료 분야에 응용되기 위해선 그만큼 정확한 데이터를 필요로 한다.

△모두가 가지고 싶어하는 기술인데 쉽지 않다는 의미인가.

-그렇다. 아무도 관심 없어 하는 기술이 아니다. 글로벌 전체가 이 기술을 놓고 경쟁 중인 상황이라는 것을 강조하고 싶다. 우리는 공개된 데이터를 바탕으로 AI를 만든 것이기에 최고 성능이라고 말할 수 있다. 여기서 최고 성능이란 것은 객관적으로 입증됐단 의미다.

고재필 교수가 코딩으로 30개 이미지를 2만4000 여장의 AI 훈련 데이터를 만들어냈다. (제공=고재필 교수)


△객관적으로 입증된 최고 성능의 핵분할 AI를 만들었다. 다음 스텝은.

-결국 여기까진 실험실 AI다. 상용화는 또 다른 문제다. 우선, 비엘사이언스가 업력이 15년 정도 되면서 수십 만장의 세포 병리 이미지를 보유 중이다. 이 수십 만장의 현장 데이터를 AI와 결합을 계획 중이다.

△누구나 할 수 있는 생각 아닌가.

-그렇다. 누구나 이 생각을 할 수 있다. 그런데 어디서 저 정도 되는 양의 세포 이미지를 구할 것인가. 글로벌 기업이 역대급 성능의 AI를 만들어도 데이터가 없으면 의미가 없다. 이런 점에서 비엘사이언스가 보유 중인 대용량 세포 이미지 데이터는 딥러닝 AI 모델을 실현할 수 있는 소중한 자산이다.

△ 만약 당신을 뛰어넘는 성능의 AI가 개발되면 어떻게 되나.

-이미 영상분야 AI는 성숙 단계에 접어들었다. 그리고 더 나은 AI가 나온다고 하더라도 대용량의 실제 데이터가 없다면 스포츠카에 기름이 없는 것과 다름없다. 상용화에서 중요한 건 AI 성능이 아니라 데이터, 훈련 데이터 가공 역량, 딥러닝 훈련전략 등이다. 이를 통해 검증된 모델을 만들어내는 것이 중요하다. 내가 비엘사이언스와 손잡은 이유다.

△비엘사이언스 데이터가 AI에 투입할 수준으로 디지털화돼 있나.

-아니다. 아날로그 형태다. 그런데 이미 아날로그 이미지 데이터로 전환하는 프로그램을 몇 년 전 개발해 발명 특허를 보유 중이다. 세포 병리 이미지의 디지털화는 이 프로그램을 조금만 개선하면 된다. 마이너한 수정이기에 바로 적용 가능하다.

△ 최고 성능 핵분할 AI와 대용량 세포 데이터 결합의 결과는.

-앞서 언급했듯이 진단 시장, 치료 시장 그리고 치료제 개발 시장에 혁명이 일어난다. 환자의 암 발병 예측할 수 있다. 세포핵 모양, 패턴, 크기 등에 따라 같은 암도 세분화할 수 있다. 이렇게 세분화된 세포핵 종류는 환자 맞춤형 치료 시장을 열어주는 매개체가 될 것이다. 어떤 약을 얼마나, 어떻게 써야 치료 효과가 좋을지 알 수 있다. 나아가선 세포핵 분류에 따라 약을 개발이 이뤄질 수 있다. 우선은 진단시장에 예방, 맞춤형 치료 등의 제품을 상용화해서 차별화에 나서겠다.

△ 구체적인 사례를 하나 들어준다면.

-이 AI는 환자가 타이레놀을 써야 할지, 게보린을 먹어야 할지, 아스피린을 복용해야 할 지를 알 수 있게 해준다. 환자에 따라 약발이 듣는 치료제가 다르지 않나. 세포핵 분할 기술의 용용 분야는 한강 모래알 숫자만큼 무궁무진하다.

△ 언제쯤 상용화를 기대할 수 있나.

-2년 이내 제품이 나올 것으로 본다. 비엘사이언스는 진단키트에 특화된 회사다. 진단 제품을 먼저 구상 중이다. 아마도 인유두종바이러스나, 성매개 감염병 등 분야에서 먼저 진단, 예방, 맞춤형 치료 등을 알려주는 제품이 나올 것이다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지