PROJECTS

Wx, CWx : 혁신 신약 개발을 위한 디어젠의 인공지능 바이오마커 발굴 플랫폼

바이오마커는 질병의 발병, 예후, 암의 전이 등을 예측하는데 사용될 수 있는 생체지표로 바이오마커를 이용한 진단을 통해 환자의 시간과 비용을 크게 줄일 수 있습니다. 또한 이러한 바이오마커는 질병을 치료하는데 핵심적인 신규 타깃이 될 수 있기 때문에, 바이오마커 발굴은 first-in-class 신약을 개발하는데 핵심적인 기술요소입니다. 디어젠은 유전자/단백질 정보를 활용해 바이오마커를 발굴해 주는 인공지능 플랫폼 Wx, CWx를 개발하여 환자 맞춤 의료 시대를 앞당기고 있습니다. 

바이오마커(Biomarker)?

바이오마커란 질병의 발병 여부, 환자의 예후 예측, 암의 전이 판별, 신약의 타깃 등에 활용될 수 있는 측정 가능한 생체지표를 의미합니다. 현재 이러한 바이오마커는 다양한 기술로 유전자 발현 (RNA), 단백질량의 변화 (protein) 혹은 염기서열변화 (DNA) 와 같은 분자들을 측정하여 사용되고 있습니다.

 2000년대 초 개발된 차세대염기서열해독기술 (next-generation sequencing)과 같은 대규모 생체지표 프로파일링 기술은 한 번에 수만에서 수억 개의 분자들을 단시간 내에 대규모로 측정할 수 있으며, 현재 지속적인 기술의 발달로 환자의 전체 염기서열변화 (genome) 혹은 전체 유전자 발현 변화 (transcriptome) 등을 정밀하게 측정할 수 있습니다.

바이오마커(Biomarker)의 중요성

바이오마커의 중요성은 최근 다양한 항암 임상 연구에서 명확하게 드러나고 있습니다. PD-1 or PD-L1의 발현 정도, MSI (microsatellite instability)의 정도, TMB (tumor mutational burden) 수치 등 바이오마커들이 약물의 반응성과 매우 유의미한 연관성을 보인다는 연구 결과가 지속해서 보고되고 있습니다 (그림1). 

[ 그림 1. 환자의 약물 반응성을 예측하기 위한 다양한 바이오마커들]

따라서, 1년에 5천만 원 이상의 높은 비용이 소모되는 항암 신약의 경우 이러한 바이오마커를 선 측정 후 약물의 반응성을 판별한다면 환자 개인의 시간과 비용을 크게 줄일 수 있기 때문에 다양하고 정밀한 바이오마커 발굴이 매우 중요합니다.

디어젠 자체 개발 인공지능 바이오마커 발굴 알고리즘 Wx

Wx : 질병 군과 정상군을 구별하는 핵심적인 유전자/단백질 선별 인공지능 알고리즘

암과 같은 질병 조직 (혹은 세포)의 상태를 가장 잘 반영하는 생체지표는 RNA (유전자 발현)입니다. 전체 RNA의 발현 패턴을 이해할 수 있다면 주어진 세포에 어떤 문제가 생겼는지를 정밀하게 분석할 수 있습니다. 기존의 real-time qRT-PCR (real-time quantitative Reverse Transcription Polymerase Chain Reaction) 기술을 활용한 1~100 여개의 유전자 발현 기반 연구에서 최근 차세대염기서열해독기술을 활용한 60,000~200,000개의 유전자 발현 (RNA-seq) 연구는 측정 스케일의 급격한 증가를 야기했습니다. 

이러한 방대한 유전자 발현 데이터에서 가장 중요한 것은 어떤 유전자가 핵심 유전자인지를 결정하는 것입니다. 디어젠은 바로 이러한 핵심 유전자를 선별하는 인공신경망 (neural network) 기반 인공지능 알고리즘인 Wx 모델을 자체 개발하였습니다 (Figure 1). 

[Figure 1] 인공지능 유전자 선별 모델인 Wx 알고리즘의 개요 및 판별 정확도 (AUC)

TCGA (The Cancer Genome Atlas)에 공개된 6,226명 (5,609 tumor, 617 control)의 대규모 RNA-seq 데이터를 학습 후 검증한 결과 기존에 공개된 다른 모델들보다도 디어젠이 자체 개발한 Wx 모델의 성능이 더 뛰어남을 논문으로 증명하였습니다 (Park et al. Sci Rep 2019). 

일례로 Wx 모델이 선별한  10개의 유전자 발현 (EEF1A1, FN1, GAPDH, SFTPC, AHNAK, KLK3, UMOD, CTSB, COL1A1, GPX3, GNAS, ATP1A1, SFTPB, ACTB) 만으로 12종의 암을 정상조직과 구별하는 정확도가 96.7%임을 증명하였습니다. 

따라서 Wx 알고리즘을 다양한 질환군에 활용한다면 진단 바이오마커 개발이나 신약 타깃 후보 유전자/단백질 선정 시 기존의 전통적인 방법론 대비 우수한 바이오마커 발굴을 기대할 수 있습니다. 현재 디어젠은 Wx 모델을 신약 타깃 후보 유전자/단백질 발굴에 활용하고 있습니다.

본 연구는 세계적인 저널 Nature 자매지인 Scientific Reports에 2019년 7월 19일 게재되었습니다.

디어젠 자체 개발 인공지능 환자 예후 연관 바이오마커 발굴 알고리즘 Cascaded Wx (CWx)

CWx : 환자의 예후 (prognosis)와 연관된 핵심적인 유전자/단백질 선별 인공지능 알고리즘

디어젠이 자체 개발한 Wx 모델은 환자의 예후 (prognosis) 정보를 활용하지 못합니다. 실제 임상에서 중요한 지표인 환자의 예후 정보를 학습하여 예후와 연관된 가장 핵심적인 유전자/단백질 선별 인공지능 알고리즘을, Wx 모델 개발 후 후속 연구로 진행하였으며 이 모델이 Cascaded Wx (CWx) 입니다. 

CWx는 환자 조직에서 유래한 대규모 유전자 발현 (RNA-seq) 정보를 학습하여 환자의 예후와 가장 연관이 있는 유전자/단백질을 선별해주는 모델입니다. 기존에 활용되고 있는 다양한 인공신경망 (neural network) 및 기계학습 (machine learning) 모델인 CoxPH, DESeq2, XGBoost, RF, SVM, Fscore, ReleifF, Trace ratio, Fisher score, RFS, LLL21, Connection weight 모델들과 비교한 결과 CWx 모델이 가장 우수한 성능을 보임을 입증하였습니다 (Figure 2)

[Figure 2] 폐암 환자에서 가장 예후와 연관된 유전자 선별 및 성능 비교 검증

본 연구는 최근 다양한 연구 분야에서 주목받고 있는 저널인 Frontiers in Genetics에 2019년 7월 19일에 게재되었습니다.

디어젠은 Wx 및 CWx와 같은 대규모 데이터 학습 및 인공지능 자체 모델 개발 능력이 있으며 논문 게재 및 특허 등록을 통하여 기술력을 객관적으로 검증받고 있습니다. 

참고자료

  1. Aggen D. H., Drake C. G. (2017). Biomarkers for immunotherapy in bladder cancer: a moving target. Journal of ImmunoTherapy of Cancer, 5, 94 DOI 10.1186/s40425-017-0299-1
  2. Park S., Shin B., Shim W. S., Choi Y., Kang K., Kang K. (2019). Wx: a neural network-based feature selection algorithm for transcriptomic data. Scientific Reports, 9:10500 DOI 10.1038/s41598-019-47016-8
  3. Shin B., Park S., Hong J. H., An H. J., Chun S. H., Kang K., Ahn Y-H., Ko Y. H., Kang K. (2019). Cascaded Wx: A Novel Prognosis-Related Feature Selection Framework in Human Lung adenocarcinoma Transcriptomes. Front Genet, 10, 662 DOI 10.3389/fgene.2019.00662