NEWS

디어젠, NCI-CPTAC 드림챌린지 대회 ‘Top Performers’ 선정

암 단백체 예측 정밀 의료 국제경진대회 ‘NCI-CPTAC DREAM Proteogenomics Computational Challenges’에서 디어젠이 Top Performer로 선정되었습니다. 대회 내용은 Nature Method에 게재될 예정입니다.

‘Dream Challenges’는 전 세계 연구자들이 경쟁과 협업을 통해 생명의료 분야 난제를 해결하려는 집단지성 연구단체이며, 2007년부터 대회를 개최해 왔습니다. 대회를 통해 발생한 연구 결과들은 ‘Nature’, ‘Cell’, ‘Science’와 같은 최고 권위 학술지에 게재하고 있으며, NIH(미국 국립보건원), Sanger Institute (영국 생어 연구소), IBM(IBM 연구소) 등 세계 우수 연구기관들이 대회를 주최 및 주관하고 있습니다.

이번 대회에서는 NCI-CPTAC(미국 국립 암 연구원-유전단백체 연구센터)가 데이터를 제공하였고, 난소암 및 유방암 환자의 단백질 활성화 정도를 예측하는 3가지 문제를 아래와 같이 출제했습니다. 이 중 디어젠은 2번째 문제에서 Top Performer로 선정되었습니다.

  • Can one impute missing values in proteomics data given observed proteins?
  • Can one predict abundance of any given protein from mRNA and genetic data?
  • Can one predict the phosphoproteomic data, using proteomic, mRNA and genetic data?

디어젠은 “기계학습의 앙상블 기법”을 이용하여 유방암과 난소암 환자의 단백질 발현량을 예측하는 알고리즘을 개발했습니다. 적은 수의 데이터를 이용하여 모델 학습 시 발생할 수 있는 과적합 등의 문제를 해결하고, 모델의 성능을 개선하기 위해서 protein coding gene(단백질 코딩 유전자)의 발현량이 비슷하게 나타나는 단백질을 그룹 지은 후 그룹별로 학습을 진행했습니다. 또한, 환자의 유전체적인 정보뿐만 아니라 기계학습 기반으로 얻어진 정보도 학습에 활용할 수 있게 하여 다양한 특성을 토대로 한 정확한 단백질 발현량 예측을 가능하게 했습니다. 

 연구를 진행한 이보라 연구원은 “데이터 수집이 어려운 생명의료 분야에 기계학습의 효율적인 적용이 가능함을 보여주었다.”며 “암환자에서의 단백체 발현량의 정확한 예측으로 환자 특이적 진단에 한발 더 나아가길 바란다.” 고 말했습니다.

 디어젠은 UCLA, 스탠포드 등의 60여 개의 세계 정상급 연구팀과 경쟁하여  Top Perfomer 선정이라는 우수한 성과를 얻게 된 것에 대해 굉장히 의미 있게 생각하고 있습니다. 디어젠은 나아가 신약개발 분야의 다양한 파트너들과 함께 협력하며, 정밀 의료 시대를 앞당기는 데 영향을 줄 수 있는 인공지능 모델을 만들어가고자 합니다.

 이번 드림챌린지 결과는 Nature Method에 게재될 예정이며, 추후 첨부되는 링크를 통해 확인 가능합니다.