컴퓨터 기반 방식을 통한 COVID-19 신약 후보 연구

Julian Ivanov , Senior Data Analyst, CAS

세계보건기구가 COVID-19를 팬데믹 상황으로 선언한 이후, 이 질병의 원인균인 신종 코로나바이러스, SARS-CoV-2에 대한 엄청난 양의 연구가 진행되었습니다. 그러나 광범위한 노력과 투자에도 불구하고 COVID-19 환자를 위한 효과적인 치료법은 나타나지 않고 있습니다. 여러 백신 후보가 이미 전세계적으로 임상 시험 단계에 들어갔지만 안정성과 효능이 입증된다 하더라도 백신 제조와 유통 및 전세계인을 대상으로 한 접종에는 수개월 또는 몇 년이 걸릴 것입니다. 따라서 팬데믹 상황이 통제되기 전에 바이러스가 많은 감염 환자에게 미치게 될 영향을 완화시킬 수 있는 효과적인 항바이러스 치료제 개발이 시급한 상황입니다.

과학자들은 이처럼 시급한 요구에 대처하기 위해 신약 개발 과정을 가속화하기 위한 다양한 방법을 연구하고 있으며, 다른 증상에 대한 효능을 이미 승인 받고 COVID-19 치료 효능도 기대할 수 있는 약물을 알아내기 위한 컴퓨터 기반 방식도 그중 하나입니다. CAS 과학자와 기술자는 이러한 노력을 돕기 위해 정량적 구조 활성 관계(QSAR) 방법을 사용하여 SARS-CoV-2의 우선 단백질 표적에 대한 머신 러닝 모델로 COVID-19 치료를 위한 신약 후보 식별을 시도했습니다. 그 결과, 로피나비르, 텔미사르탄 등 임상적 효능을 보이는 여러 약물을 발견했으며 이 내용이 ACS Omega에 최근 발표되었습니다.

기존 약물에서 새로운 가치 발견

새로운 신약을 상품화하는 데 필요한 오랜 시간과 상당한 비용을 고려할 때 기존 저분자 약물을 재창출하는 방법은 특히 긴급한 상황에서 매력적인 대안이 될 수 있습니다. 이 전략은 치료제의 빠른 상품화 이외에 부작용에 따른 말기 질환 위험을 낮추는 등 전통적인 신약 개발 프로세스보다 많은 이점을 제공합니다.

약물 재창출은 새로운 개념이 아닙니다. 그러나 새로운 용도 변경은 체계적인 절차보다는 대부분 우연한 발견으로 이루어져 왔습니다. 바이그라, 미녹시딜 등 지금까지 약물 재창출의 가장 성공적인 사례에서도 환자들이 예기치 않은 부작용을 보고하면서 새로운 증상이 확인되기도 했습니다. 최근에는 시그니처 매칭, 분자 도킹, 유전적 연관성, 경로 매핑, 후향적 임상 분석과 같은 컴퓨터 기반 방법을 포함하여 보다 체계적인 방식이 약물 재창출에 도입되었습니다. 연구원들은 컴퓨터 기반 방식을 통해 기존 저분자 치료법을 새로 발견된 약물 표적에 안정적으로 연결함으로써 기존 포트폴리오의 치료 가치를 극대화할 수 있을 것으로 기대됩니다.

표적 공략

코로나바이러스는 오래 전부터 인간을 비롯한 다른 많은 동물의 초중기 상기도 질환을 일으키는 것으로 알려져 있는 여러 바이러스의 총칭입니다. 동물 특정 코로나바이러스가 인체 감염과 확산을 일으키는 경우는 드물지만 현재까지 세 가지 코로나바이러스, 즉 SARS-CoV-1, MERS-CoV, 신종 SARS-CoV-2가 이러한 문제를 일으키는 것으로 확인되었습니다. 이 세 가지 바이러스 모두 박쥐가 숙주인 것으로 알려져 있습니다. 이들 바이러스와 인간 전염으로의 진행 간의 유사성을 고려할 때 이전 SARS, MERS 연구는 SARS-CoV-2의 약물 치료 가능 표적을 찾는 데 있어 좋은 출발점을 제공합니다. SARS-CoV-2의 모든 단백질 중에서 3-키모트립신 유사 프로테아제(3CLpro)와 RNA 의존성 RNA 폴리메라아제(RdRp)가 QSAR 모델링을 위한 2가지 이상적인 단백질 표적이며 이 두 단백질과 SARS-CoV 및 MERS-CoV 및 기타 알려진 코로나바이러스에서 식별된 단백질 간의 높은 유사성이 부분적인 이유입니다.

3CLpro는 코로나바이러스가 다단백질 펩타이드를 각각의 기능을 가진 비구조 단백질(NSP)로 쪼개는 데 필요한 단백질 분해 효소입니다. 단백질 구조와 아미노산 염기서열을 비교하면 3CLpro가 SARS-CoV-2와 다른 사람 코로나바이러스 간에 보존율이 높은 것으로 밝혀졌습니다. SARS-CoV-1과는 96%의 염기서열 유사성 일치율을 나타내며 MERS-CoV와는 87%, Human-CoV와는 90% 일치합니다. 따라서 이전 코로나바이러스 관련 연구에서 식별된 3CLpro 억제제가 SARS-CoV-2 3CLpro의 유망한 억제제이며 새로운 SARS-CoV-2 3CLpro 억제제를 찾기 위해 머신 러닝 모델을 트레이닝하는 데 있어 관련 구조-활성-관계(SAR) 데이터가 중요하게 활용될 수 있습니다.

RdRp는 RNA 바이러스가 숙주 세포의 바이러스 유전체를 복제하기 위해 사용하는 주 효소입니다. SARS-CoV-2 RdRp에 대한 구조 연구와 염기서열 분석에서 이 효소가 SARS-CoV-1 RdRp의 구조와 매우 유사하며 HCV를 비롯한 대부분의 바이러스 RdRp에서 보존되는 여러 가지 주요 아미노산 잔여물을 포함한다는 점이 확인되었습니다. 다행히 다양한 바이러스 RdRp가 RNA 바이러스 억제제로 널리 연구되었으며 특히 HCV 관련 연구가 대표적입니다. 따라서 HCV와 같은 RNA 바이러스의 기존 RdRp 억제제가 SARS-CoV-2 RdRp 억제를 위한 신약 개발에 중요한 통찰력을 제공할 수 있습니다.

머신 러닝으로 기존 치료법의 우선 순위 지정

최근 수년간 머신 러닝 모델을 사용한 신약 개발 촉진 사례가 증가하고 있습니다. 특히 QSAR은 신약 개발 프로세스에서 첫 번째 단계 중 하나인 경우가 많습니다. 간단히 말해, QSAR은 분자 구조의 정량적 측정치를 토대로 화학 물질의 복잡한 생물학적 또는 물리 화학적 특성을 대략적으로 측정하는 수학 모델입니다. 이러한 예측적 수학 모델은 대규모 화학 구조 데이터베이스를 분석하여 식별된 표적에 대해 가장 효과적일 수 있는 잠재적인 신약 후보의 우선 순위를 정하는 데 사용됩니다. 이 접근법은 화학 물질의 활성도가 구조와 직접적인 관련이 있으므로 구조적 특징이 유사한 분자가 유사한 물리적 성질 및/또는 생물학적 효과를 보일 것으로 가정합니다.

이 연구에서는 본인과 동료 연구진이 예측성이 뛰어난 3CLpro 및 RdRp 단백질 표적의 QSAR 모델을 구축하기 위해 긴밀하게 협력했습니다. 컴퓨터 과학자와 화학자가 참여한 연구진은 구조-생물 작용 데이터를 모델의 트레이닝 분자로 사용하여 1,000가지가 넘는 억제제를 엄선했습니다. 또한 최신 SARS-CoV-2 생물검정 연구와 SARS-CoV-1, MERS-CoV 및 기타 관련 바이러스에 대한 CAS 컨텐츠 컬렉션의 기존 연구에서 데이터를 수집했습니다. 이러한 데이터를 토대로 다양한 머신 러닝 알고리즘을 사용하여 수십 가지 QSAR 모델을 구축했으며 그중에서 가장 우수한 모델, 즉 3CLpro를 표적으로 하는 모델과 RdRp를 표적으로 하는 모델을 선별했습니다.


QSAR 머신 러닝 모델과 COVID-19 및 관련 바이러스 감염의 잠재적 치료법으로서 바이러스 3CLpro 및 RdRp 표적 화합물을 식별하기 위한 모델 응용 학술지를 읽고 테스트를 거친 모든 모델과 1순위 잠재적 후보를 알아보십시오.


2가지 결과 QSAR 모델을 사용하여 1,087가지 FDA 승인 약물, CAS COVID-19 항바이러스성 후보 화합물 데이터세트의 약 50,000가지 물질, 약리학적 활동이 식별되거나 CAS가 2003년 이후 SARS, MERS 및 COVID-19 관련 문서에서 치료적 역할을 색인화한 113,000여 개의 물질을 포함하는 잠재적인 대규모 약물 후보군을 선별했습니다. 프로테아제 억제제 활동을 물질 구조의 한 기능으로 모델링하여 코로나바이러스 3CLpro 및 RdRp에 효과적인 억제제로 예측된 물질 중에서 가장 유망한 몇 가지 후보를 확인했습니다. 또한 모델이 SARS-CoV-2의 3CLpro 또는 RdRp를 억제할 것으로 예측하는 여러 물질이 보다 심각한 COVID-19 감염의 위험 요인으로 대두된 다른 질병에 대해 이전에 치료 효과가 확인된 적이 있습니다. 일례로, 딜티아젬 히드로클로라이드(카디젬)와 같이 심장병에도 효능이 있는 것으로 알려진 COVID-19 후보 항바이러스제는 경우에 따라 두 가지 이점을 함께 제공할 수 있습니다.

두 모델은 수용자 반응 특성 곡선(ROC-AUC), 민감도, 특이성 및 정확성 아래 높은 영역을 차지하는 것으로 검증되었습니다(그림 1). 이 연구가 완료된 이후, 이제 이러한 모델이 높은 활동성을 예측한 일부 분자가 공개된 실험 생물검정 연구와 임상 시험에서 검증을 받았으며 이는 모델의 예측 능력을 보다 긍정적으로 나타내는 것입니다.

**
그림 1. 3CLpro 및 RdRp 트레이닝 2진 분류자의 수용자 반응 특성(ROC) 곡선.

다음 팬데믹 상황에 대한 대비

이 연구는 현재 COVID-19 위기에 필요한 잠재적인 치료 화합물을 식별하는 데 초점이 맞춰져 있지만 몇 년 후 바이러스로 인해 또 다른 팬데믹이 발생할 가능성이 높습니다. 따라서 지속적인 투자와 집중적인 항바이러스제 연구로 미래 팬데믹 발발에 대한 대비를 지금부터 바로 시작해야 합니다. 전염병을 일으키는 바이러스가 다양하고(예: 코로나바이러스, 독감 바이러스, 에볼라 바이러스, 레트로바이러스) 새로운 약물 또는 증상 각각에 대한 인체 안전과 효능 시험은 상당한 시간이 걸리는 만큼 다양한 항바이러스제와 백신이 가장 큰 가치를 갖게 됩니다.

이 글에서 설명한 머신 러닝 절차 분자 도킹, 가상 검색과 같은 컴퓨터 기반 신약 개발 방법에 대한 지속적인 개발 노력이 무엇보다 중요합니다. 컴퓨터 처리 성능의 지속적인 개선과 도킹 및 구조 예측 알고리즘과 단백질 결정 구조 판별 기법의 지속적인 개발이 기술 발전을 용이하게 할 것입니다. 또한 고속 스크리닝 방식, 체학 기술, 기존 약물의 재창출의 중요성도 계속 증가할 것입니다. 그러나 이러한 신기술 기반 방법이 인간의 실험실 연구를 대체하기 보다는 향상된 효율성으로 보완하는 역할을 할 것입니다. COVID-19의 잠재적 저분자 약물 후보를 식별하기 위한 데이터 엄선 작업과 머신 러닝 모델이 결합된 이러한 노력이 신약 개발에 있어 인간과 기계의 시너지 가치를 강조하면서 COVID-19는 물론 향후 팬데믹에 대비하기 위한 지속적인 항바이러스 관련 연구 노력에 기여할 수 있을 것입니다.

CAS는 글로벌 과학 커뮤니티의 일원으로 COVID-19 치료제 개발을 지원하기 위해 모든 자산과 역량을 활용하며 노력하고 있습니다. 과학 정보, 공개 데이터세트, 특별 보고서 등 CAS COVID-19 공개 리소스를 더 살펴보십시오.