Gain new perspectives for faster progress directly to your inbox.
아이오와 주립대학교 부교수 Iddo Friedberg 박사와의 대화
지난 10년간 단백질 기능 예측 분야는 새로운 머신 러닝 및 인공 지능 전산 기법의 부상과 함께 상당한 발전을 이뤘습니다. 이 기사에서는 단백질 기능 예측 분야의 전문가이자 CAFA(Critical Assessment of Function Annotation) 실험대회의 공동 개최자인 Iddo Friedberg와 오늘날 모델들이 얼마나 정확하게 단백질의 기능을 예측하고 있는지, 그리고 이 분야가 나아가야 할 방향에 대해 이야기를 나눕니다.
CAS: 단백질 기능 예측 분야에 관심을 가지게 된 계기는 무엇인가요?
Iddo: 그때 저는 박사 학위를 취득한 후 구조적 생체정보학 연구를 진행하고 있었습니다. 단편 또는 단편 라이브러리를 사용해 단백질 구조를 표현할 수 있는 다른 방법을 찾고 있었고 구조와 기능을 연결짓기 시작했습니다. 저는 궁금해졌습니다. “염기서열과 구조가 기능과 어떠한 연관성이 있지? 어떻게 하면 염기서열과 구조를 통해 단백질의 기능을 보다 잘 예측할 수 있을까?"
그 당시 다양한 단백질 기능 예측 방식이 개발되고 있었으며, 더 많은 사람들과 논의를 하고 싶었지만 이 안건을 구체적으로 다루는 컨퍼런스를 찾을 수 없었습니다. 그래서 제가 직접 개최하기 시작했습니다. 2005년 디트로이트의 ISMB(Intelligent Systems for Molecular Biology)에서 위성 컨퍼런스를 개최한 뒤 2006년에 샌디에이고 캘리포니아대학교(UCSD)에서 독립적인 컨퍼런스를 자체적으로 개최하였습니다. 그 이후로 지금까지 ISMB의 일원으로 이 자동 전산식 단백질 기능 예측 회의를 개최해 오고 있습니다.
CAS: 그때부터 지금까지 자동 단백질 기능 예측 분야는 어떻게 진화해 왔나요?
Iddo: 시간이 지나면서 확실히 개선되고 있습니다. 2010년에는 노스이스턴 대학교의 Predrag Radivojac과 워싱턴 대학교의 Sean D. Mooney, 그리고 제가 염기서열이나 구조를 통해 단백질의 기능을 예측하는 CAFA 경진대회를 시작했습니다. 이 경진대회의 목적은 단백질 염기서열을 해당 기능을 설명하는 온톨로지 용어 집합과 연결하고 단백질 기능에 대한 전산적 주석을 개선할 수 있는 방법을 모색하는 것입니다. 참가자들의 다양한 접근법과 예측 방법을 확인할 수 있는 이 CAFA 경진대회는 단백질 기능 예측 방법을 대대적으로 평가할 수 있는 실험대회이기도 합니다.
모델링에서는 Fmax 점수(정밀도-재현율 곡선 기준 최대 조화 평균)라는 지표를 사용하여 모델의 예측 정확도를 0 ~ 1의 범위로 나타내며 1이 이상적인 수치입니다. CAFA 1의 최대 Fmax 점수는 0.5 정도였으나 CAFA 4에서는 0.7이었습니다. 한 측면에서는 최대 0.7이고 다른 측면에서는 최대 0.4/0.5이므로 온톨로지 측면에 따라 차이가 있겠지만 점수가 점점 오르고 있습니다.
최근 Kaggle의 지원을 받아 개최된 CAFA 5에서는 1,675개 팀이 단백질 집합의 기능을 예측하기 위한 경합을 벌이고 있습니다. 최종 심사는 2024년 1월이 지나야 끝날 예정이지만 확실한 것은 세 가지 온톨로지 모두 평균 Fmax가 0.65에 가까워지고 있다는 것입니다. 제 생각에 유전자 온톨로지의 분자 기능 측면에서 0.8에 달하는 점수를 낸 참가자가 있는 것 같습니다.
또한 정확한 예측을 위해 필요한 전문 지식인 알고리즘을 활용하는 사람들이 점점 늘어나는 것을 볼 수 있습니다. 오늘날 CAFA 커뮤니티에는 생물정보학, 실험생물학, 바이오큐레이션, 바이오온톨로지 전문가들이 속해 있습니다. 모든 전문가들이 힘을 합쳐 우리가 액세스할 수 있는 방대한 양의 데이터를 관리하는 방식을 개선하기 위해 노력하고 있습니다.
CAS: 다른 방법들보다 더 정확한 단백질 기능 예측 접근법이 존재하나요?
Iddo: 문헌을 토대로 현재 어떠한 방법이 더 정확할지 예상할 수 있는데, 예전과 달라진 부분이 있습니다. 과거에는 분자 기능 관련 측면을 예측하기 위해 상동성 전이라는 방법을 활용했습니다. 원거리의 상동체를 감지 방법이 민감할수록 효과가 좋으며 구조적 정보를 추가하면 그 효과가 더 좋아지는데, 진화의 관점에서 구조는 염기서열보다 훨씬 더 먼 곳까지 도달하기 때문입니다. 이러한 모델은 응용 방법이 상대적으로 간단했지만 그때 당시에도 사람들은 이미 머신 러닝의 사용 비중을 늘리고 있었습니다.
CAFA 3과 CAFA 4를 개최할 때쯤에는 사람들이 기능 예측을 위해 단백질과 단백질 염기서열을 임베딩 형태로 표현하기 시작했습니다. 임베딩은 데이터를 다차원적으로 표현하는 획기적인 방식입니다. 기존의 예측 방식은 단백질을 문자열로 나타내고 모델이 해당 문자열(단백질 염기서열) 간의 유사성을 찾습니다. 임베딩의 경우 예측 과정에서 Word2Vec 스타일 모델, ProtVec을 사용하여 각 단백질 부분 주변의 맥락을 고려합니다. 이러한 표현 방식은 굉장히 민감하여 예측 정확도가 뛰어납니다. 나중에 효과가 좋은 또 다른 방법을 발견할 수도 있겠지만 지금은 사람들이 임베딩을 아주 잘 활용하고 있다고 생각합니다.
CAS: 분자 기능 예측 역량이 개선됨에 따라 생물학적 처리 과정과 세포 구성 요소를 얼마나 잘 예측할 수 있게 될까요?
Iddo: CAFA 초창기에는 생물학적 처리 과정의 예측 점수가 모든 CAFA의 분자 기능 예측 점수보다 낮았습니다. 키나아제에 해당하는 단백질을 쥐에게 투여하였을 때 세포자연사에 관여한다는 사실을 안다고 가정해 보겠습니다. 이때 이러한 현상이 사람에게도 똑같이 발생할지 궁금할 수 있습니다. 쥐와 사람은 꽤나 유사하기 때문에 동일하게 작용한다고 말할 수도 있겠지만, 사람과 초파리를 비교해 보면 어떨까요? 효모와 비교하면 어떨까요? 진화론적으로 멀리 떨어져 있을수록 더 많은 차이점이 생기기 때문에, 바로 여기서 상동성 전이의 문제가 생깁니다.
예측 역량은 점점 더 개선되고 있습니다. 예전에 참가자들을 대상으로 자신들의 예측 방법과 관련이 있는 키워드를 선택해 달라고 요청한 적이 있습니다. 그 결과 분자 기능 예측에 은닉 마르코프 모델과 원격 상동성 검색 같은 방법을 주로 사용하는 것으로 확인되었습니다. 반면 생물학적 처리 과정의 경우 논문과 유전자 맥락에 대한 텍스트 마이닝을 주로 사용했습니다. 사용하는 예측 방식에 큰 차이가 있는 것입니다.
세포 구성 요소의 예측 정확도는 낮은 편이며, 그 이유가 무엇인지 살펴봐야 합니다. 그중 한 가지 이유를 꼽자면 세포 구성요소의 온톨로지 구조 자체가 작업이 까다롭다는 것입니다. 분자 기능 온톨로지 그래프를 나무에, 생물학적 처리 과정 온톨로지를 깔끔한 계층형 방향 비순환 그래프에 비유한다면, 세포 구성 요소는 관목과도 같습니다. 구조가 약간 다르며 현재로서는 제대로 묘사할 수 있는 방법이 없습니다. 참가자들에게 인기가 없는 편이기도 합니다. 참가자들은 때때로 세포 구성 요소의 예측이 분자 기능이나 생물학적 처리 과정의 예측만큼 중요하지 않다고 여기는 것 같습니다.
CAS: 이 분야의 주된 장애물은 무엇이라고 생각하시나요?
Iddo: 일단 더 우수한 전산 역량과 더 많은 아이디어가 필요하며 더 많은 단백질을 연구해야 합니다. 기능을 온톨로지로 표현하는 것은 구조를 구슬이나 3D 공간으로 표현하는 것과는 다릅니다. 구조와 관련해 얼마나 많은 구슬이 필요한지, 정밀도는 어떻게 되는지에 대한 언쟁이 있을 수도 있지만 확실히 실체가 존재합니다. 온톨로지는 철학에서 파생된 용어로, 현실을 주관적으로 표현한다고 볼 수 있습니다. 시간이 흐르면서 본질을 이해하는 방식 그리고 중점적으로 다루는 연구 작업에 따라 바뀌게 됩니다.
실제로 CAFA 참가자들 중 단백질의 기능이 아닌 바이오큐레이터의 다음 행동을 예측하려고 했던 그룹이 있었습니다. 이 그룹은 어떠한 기능이 바이오큐레이터의 검증 데이터에 속할지, 큐레이팅에 있어 어떠한 기능에 우선 순위를 둘지 예측했습니다. 그 결과 상위 10개 방법과는 관련이 없었지만 나쁘지 않은 성적을 거두었습니다. 실험적인 검증을 거친 후 큐레이터가 데이터 집합에 입력해야 비로소 예측이 가능하기 때문에 큐레이팅되는 대상이 굉장히 중요합니다.
CAS: 그렇다면 주된 장애물 중 하나가 전산과 아무런 연관이 없는 것인데, 연구 실험실에서 수행하는 작업과 연구 결과에 대해 알려 주실 수 있나요?
Iddo: 여기서는 실험과 결과 발표 방식이 중요한데, 왜 결과를 바로 온톨로지로 발표하지 않을까요? 새로운 단백질 염기서열을 발견했다면 논문을 작성할 때 해당 염기서열을 GenBank 같은 저장소에 등록해야 합니다. 만약 새로운 단백질 구조를 발견했다면 해당 구조를 Protein Data Bank에 등록해야 하며, 등록 시 아주 엄격한 염기서열 및 구조 표현 규칙을 따라야 합니다. 이와 관련해 단백질 기능을 온톨로지로 표현하는 방법에 대한 가이드라인도 있어야 하며, 연구자들이 이러한 방법을 잘 알고 있어야 한다고 생각합니다.
바이오큐레이터들의 입장에서는 온톨로지를 사용할 줄 모르는 연구자들이 이러한 작업을 진행하면 안 된다고 생각할 수 있지만, 현재 바이오큐레이션이 장애물이 되고 있는 상황입니다. 여기서 방법을 잘 알고 있는 바이오큐레이터만 이러한 작업을 수행해야 한다는 의견과 주석 오류가 발생할 수 있지만 모든 사람이 해당 작업을 수행해야 한다는 의견이 대립하고 있습니다. 저도 이 문제를 어떻게 해결해야 할지 잘 모르겠습니다. 연구자들에게 보다 나은 온톨로지 사용 관련 교육을 제공하면 도움이 될 것이라는 사람들도 있지만, 올바른 연관관계와 적합한 온톨로지 용어를 선택하는 방법은 바이오큐레이터가 훨씬 더 잘 알고 있습니다.
CAS: 최근 자연어 처리(NLP) 모델에 적용된 고급 기술을 바이오큐레이션에 활용할 수 있다고 생각하시나요?
Iddo: 아직은 시기가 조금 이르고, 올바른 작업을 위해서는 대규모 언어 모델 이상의 것이 필요하다고 생각합니다. 사람이 이러한 작업을 진행하는 이유는 규칙이 복잡하기 때문입니다. 사람은 복잡한 작업을 능숙하게 처리할 수 있지만 NLP가 처리하기에는 너무 복잡할 것 같습니다. 또 다른 문제점은 때때로 온톨로지와 연관짓는 것이 어렵다는 것인데, 특히 새롭게 발견한 기능의 경우 항상 정확한 온톨로지 용어가 존재하는 것은 아니기 때문에 새로운 용어를 만들고 올바른 온톨로지에 제대로 배치해야 합니다.
높은 처리량도 장애물이 됩니다. 처리량이 높은 실험의 경우 많은 양의 데이터를 생성하지만, 특정 분석 작업에 적합한 데이터를 무분별하게 생성하는 문제가 있습니다. 따라서 데이터가 가지고 있는 정보가 많지 않습니다. 2013년에 이러한 부분을 살펴보았는데, 그 결과 주석이 추가된 단백질 데이터베이스는 처리량이 높은 실험 결과와 관련해 불균형이 심각했습니다.
예를 들어, 배발달 및 예쁜꼬마선충과 관련해 2000년 후반에 발표된 일련의 논문들을 살펴보았습니다. 그 당시 배발달과 관련이 있는 요인을 살펴보기 위한 여러 게놈 분석 자료가 존재했으나 예쁜꼬마선충에 대한 다른 실험 데이터는 아주 적었습니다. 따라서 이 데이터만 보면 모델이 예쁜꼬마선충이 오직 배발달만 수행한다고 결론지을 수 있는데, 이 결론이 데이터로 알 수 있는 내용의 전부이기 때문입니다. 처리량이 높은 실험에서 발생하는 이러한 편향은 큰 문제이며, 사람이 개입하지 않으면 모델이 굉장히 편향된 정보만 제공할 수 있습니다.
CAS: 현재 단백질 기능 예측 분야에 존재하는 큰 기회는 무엇이라고 생각하시나요?
Iddo: 머신 러닝이 큰 차이를 만들어낼 것이라고 생각하며, 다양한 단백질 염기서열 및 구조 표현 방식을 만나볼 수 있을 것입니다. 온톨로지 사용에 관한 장애물은 지금도 여전히 존재하는데, 몇몇 사람들은 온톨로지를 아예 사용하지 않고 동질 클러스터나 일종의 기능이라고 여기고 있습니다. 이 경우 적절한 구조적 정보를 제공하는 AlphaFold와 ESMFold가 큰 도움이 될 것입니다.
또한 유효하고 품질이 뛰어나며 많은 데이터를 생성할 수 있도록 자금 조달 기관의 신중한 지원이 필요합니다. 개인적인 입장에서는 아쉽지만 컨소시엄의 보조금을 줄이고 여러 중소 규모 단체를 대상으로 더 많은 보조금을 제공하여 연구원들과 학생들이 특정 기능을 특성화하고 과학 생태계의 다양성을 높일 수 있도록 지원해야 합니다.
CAS: 단백질 기능 예측 분야에서 하나의 문제를 해결할 수 있는 마법의 지팡이가 생긴다면 어떠한 문제를 해결하고 싶으신가요?
Iddo: 논문을 자동으로 정확하게 큐레이팅하고 관련 정보를 장기적으로 유효한 전산적 방식으로 표현하고 싶습니다. 하지만 앞서 말씀드린 것처럼 현재 이러한 작업을 사람이 진행하는 데에는 그럴 만한 이유가 있습니다. 또한 유전자 온톨로지를 비롯한 모든 온톨로지가 장기적 관점에서 유일하게 유효한 표현 방식이라고 생각하지 않지만 지금은 다른 대답이 떠오르지 않습니다. 온톨로지를 사용한 표현 방식에서 장애물이 발생하긴 하지만, 사람의 언어에 문제가 있다는 말과 다를 바 없기 때문에 난처한 상황입니다. 점점 철학적인 범주로 넘어가는 것 같으니, 난해한 이야기는 여기서 마치도록 하겠습니다!