화학 분야의 머신 러닝 현황: 주요 동향과 기회

Zach Baum , Information Scientist, CAS

machine learning hero image

지난 20년 간, 인공지능(AI), 특히 머신 러닝 분야의 기술 발전은 과학 연구에 대한 접근 방식을 크게 바꾸어 놓았습니다. 유전체 염기서열 지도 작성, 새로운 항생물질 발견에서 기후 변화가 지구에 미치는 영향 모델링, 지구와 유사한 다른 행성을 찾는 연구에서 은하계 지도 작성에 이르기까지, AI는 다양한 학문 분야의 연구에 큰 변혁을 가져오고 있습니다.

화학은 AI를 가장 적극적으로 채택하고 있는 과학 분야 중 하나입니다. CAS의 최근 정식 보고서, "화학 분야의 인공지능: 기술 동향과 성장 기회(Artificial Intelligence in Chemistry: Current Landscape and Future Opportunities)"에서는 간행물과 특허 동향 매핑을 위해 자체 기술을 활용한 AI와 화학의 연결 고리를 살펴봅니다. AI 기술을 선도하는 화학 분야와 AI 기술 채택에 따른 큰 잠재력을 보유한 분야를 알아보았습니다.

AI 성장세가 두드러진 화학 분야

AI 관련 화학 간행물과 특허 건수가 크게 증가하고 있으며 2015년부터 2020년까지 6배에 달하는 증가세가 확인되었습니다. CAS는 AI 관련 간행물과 특허에 기여하는 주요 학문 분야를 식별, 비교하여 이 새로운 기술을 활용하는 분야를 파악했습니다. AI 채택을 주도하는 주요 분야는 분석 화학, 생화학, 공업 화학 및 화학 공학이며, AI 채택 가능성이 있는 분야는 천연물, 유기 화학이 대표적입니다(그림 1).

머신 러닝을 활용하는 화학 분야를 보여주는 다중 그래프
그림 1: 전체 학문 분야에서 가장 높은 AI 관련 간행물 비율

2000년부터 2020년까지 이들 간행물과 특허의 관계를 분석해 AI가 연구원들의 문제 해결 노력에 어떤 도움을 주었는지 파악했습니다(그림 2). 일례로 2000년대 초에서 2014년 사이, AI 간행물과 특허의 중점 분야가 인간 질병 진단 연구에서 유전 알고리즘과 신약 개발 및 microRNA 연구에 유전 알고리즘을 활용하는 방식으로 변화했습니다.

최근에는 솔루션이 필요한 문제의 유형이 변화함에 따라 DNA 메틸화와 암에 대한 간행물과 특허가 증가했습니다. 가장 최근에는 COVID-19 관련 신약 개발로 주요 관심 분야가 옮겨 왔습니다.

2000년부터 2020년까지 AI 관련 화학 학술지의 동시 발생 개념의 진화를 보여주는 타임라인
그림 2: 2000년부터 2020년까지 AI 관련 화학 간행물의 동시 발생 개념 진화

분석 대상 AI 간행물과 특허의 가장 큰 주제가 저분자라는 당연한 연구 결과도 확인했습니다. 신약 개발, 레트로 합성, 반응 최적화 모두 저분자와 관련이 있는 주제이며 일반적으로 제약회사에서 많은 투자가 진행되고 있습니다.

화학 분야에서 머신 러닝의 활용 기회

7만 건이 넘는 간행물을 대상으로 한 학제간 기여도 분석으로 주 학문 분야와 보조 학문 분야를 정리했습니다(그림 3). 모든 학문 분야를 히트맵으로 구성했으며 색의 농도로 각 학문 분야의 기여도를 알 수 있습니다. AI 활용도가 높은 화학 분야와 아직 실현되지 않은 잠재력이 있는 화학 부문의 연구 분야를 한눈에 쉽게 파악할 수 있습니다.

인공지능을 연구에 활용하는 주 학문 분야와 보조 학문 분야를 보여주는 히트맵 차트
그림 3: 학술지에 발표된 학제간 연구의 상대적 분포(각 열은 주 연구 분야, 각 행은 보조 연구 분야를 나타내고 사각형은 주 연구 분야와 보조 연구 분야의 학제간 연결 관계를 나타냄)

예를 들어, 분석 화학과 생화학 분야에서는 종합적인 연구 문헌이 보다 일반적이며, 머신 러닝 알고리즘을 사용하여 단백질, 펩티드, 지질, 핵산 분석을 향상시키고 화학 반응을 예측하거나 새로운 분자를 발견합니다. AI는 재료 과학과 물리 화학 분야에서도 널리 사용되고 있습니다. 이러한 분야는 기능성 재료, 구조-특성 관계, 최적화된 화학 프로세스 예측이 그 목적입니다.

화학 분야의 AI 채택 관련 장애물

CAS 웨비나, 화학 분야의 인공지능: 기술 동향과 성장 기회(Artificial Intelligence in Chemistry: Current Trends and Future Opportunities)에서 분야 전문가들이 AI 채택과 관련된 잠재적 장애물을 논의했습니다. 이들은 화학 분야의 AI 채택을 방해하는 주요 요인으로 다음 3가지를 꼽았습니다.

데이터 품질: 최적의 예측을 위해서는 교육에 필요한 긍정적인 사례와 부정적인 사례를 모두 제공하는 강력한 고품질 데이터세트가 필요합니다. 데이터 액세스, 정규화, 준비는 오늘날 많은 조직의 중대 과제입니다.

기술: 컴퓨팅 성능에 대한 개선이 진행되고 있지만(양자 및 클라우드 기반 접근) 사용자 관점에서 제약이 남아 있습니다. 그러나 오늘날 소프트웨어와 사용자 인터페이스 개선으로 프로그래밍 요구 사항이 제거되고 있으며 이로써 보다 많은 과학자들이 그들의 연구에 머신 러닝을 활용할 수 있게 되었습니다.

인재 부족: 데이터 과학 분야의 인재 부족은 잘 알려져 있는 문제이며 화학자들이 현재의 AI 접근성을 이해하지 못할 수 있습니다. 화학과 다른 과학 분야의 협력 증진으로 AI 통합 가속화에 도움을 줄 수 있을 것입니다.

화학 분야에서 머신 러닝 성장 기회

전세계 과학 기관에서 문제 해결과 혁신을 위해 AI 및 교육 데이터세트를 활용하고 있으며 이는 데이터 분석과 신약 개발의 중대한 기회로 이어질 수 있습니다.

CAS는 최신 정식 보고서를 통해 AI 기술 투자에 따른 혜택을 얻을 수 있는 여러 화학 분야를 발표했습니다. AI 채택 장벽이 높은 상황에서 CAS와 같은 파트너의 도움으로 방대한 고품질 데이터세트를 분석에 활용할 수 있습니다. 인공지능을 과학 연구에 활용함으로써 가장 긴급한 문제를 해결하는 것은 물론 기존 데이터 분석 방법으로 불가능한 문제까지 해결할 수 있습니다.

CAS 정식 보고서를 통해 CAS만의 통찰력과 분석 결과를 모두 확인하실 수 있습니다. AI 기술을 연구에 활용할 수 있는 방법이 궁금하시다면 CAS에 문의해 주십시오.