이번 연구결과는 지난 2015년부터 추진된 한국인 1만명 게놈사업의 결실이다. 당시 과학기술정보통신부와 울산시는 미래 바이오산업의 핵심인 게놈 빅데이터를 확보하기 위해 대형 게놈 사업을 추진한 바 있다. 이번 연구는 UNIST 게놈센터와, UNIST 교원창업 1호 벤처인 클리노믹스가, 울산대병원, 게놈연구재단, 국가참조표준센터 등과 협력해 진행됐다.
최초로 한국인 4000명의 전체 게놈을 완전 해독하고, 신체검사정보와 생활습관 정보를 포함한 다양한 건강정보의 연관성을 정밀히 분석했다. 다양한 바이오, 의료, 진단분야에 광범위하게 쓰일 수 있는 국가적 자산으로서 빅데이터가 만들어졌다는 데 의미가 있다. 이 데이터는 ‘Korea4K’라고 이름붙여져 게놈분야 세계적 국제 학술지인 ‘GigaScience’에 지난달 17일 발표됐다.
이번 연구결과의 가장 큰 과학적 의미는 역대 최대 규모의 한국인 4157명의 전장게놈(Whole-Genome)데이터와 건강정보 데이터를 융합해 한국인의 게놈 전영역에서 건강정보와 관련된 최대 규모의 유전자 변이를 정밀하게 분석했다는 것이다. 앞으로 이를 활용한 건강정보간의 상관관계 및 인과관계를 인공지능(AI) 기술로 파악함으로써 한국인 게놈 데이터기반 헬스케어 산업에 활용가능한 최대규모의 데이터베이스를 구축할 수 있게 됐다.
이번 연구에서는 동북아시아계 한국인 4157명의 전장게놈 데이터와 107가지의 건강정보데이터를 활용했으며, 건강정보와 관련된 1356개의 새로운 유전자 마커도 발견했다. 이 과정에서 한국 유전자연구에서 최대규모인 4553만7252개의 한국인 유전변이를 AI와 슈퍼컴퓨터를 활용한 생정보학 분석기술로 발굴했다. 이중 2368만9147개는 지난 2020년 발표한 1000명의 Korea1K 데이터 이후 추가로 발견된 것이다.
연구진은 한국인 집단 내 비교적 일반적인 변이를 뿐만 아니라, 빈도가 0.01% 이내의 희귀한 유전적 변이에 대해서 대부분 발견이 가능하다고 밝혔다. 이는 이번의 Korea4K 데이터베이스가 개개인의 특이 변이를 제외한 한국인 내 대부분의 희귀한 변이(빈도 0.01%이상)를 찾아냈다는 것을 의미한다. 특히 한국인의 유전적 특성을 가장 완전하게 반영하는 데이터임을 보여주기도 했다.
클리노믹스는 이번 연구결과를 기반으로 현재 상용화 중인 유전자 검사상품 ‘제노시리즈’(Geno-Series)를 고도화하고 상품성을 끌어올려, 과학적이고 정밀한 유전자검사 결과를 제공하는 데 집중할 계획이다.
연구 결과의 핵심인 한국인 4000명의 변이 빈도 정보는 한국인 게놈사업 웹페이지에서 누구나 다운로드가 가능하다. 곧 발표될 미국 최대의 생정보학 센터인 NCBI의 dbSNP 157 버전 데이터베이스에서도 확인할 수 있을 전망이다.