SARS-CoV-2를 포함한 RNA 바이러스는 끊임없이 새로운 돌연변이를 축적합니다. 출처: Steve Gschmeissner/Science Photo Library
팬데믹 대비의 성배는 바이러스의 유전적 서열만 보고도 바이러스가 어떻게 진화할지 예측할 수 있는 것입니다. 그런 날은 아직 멀었지만, 점점 더 많은 연구 그룹이 인공지능(AI)을 사용하여 SARS-CoV-2, 인플루엔자 및 기타 바이러스의 진화를 예측하고 있습니다.
바이러스(특히 SARS-CoV-2와 같은 RNA 바이러스)는 새로운 돌연변이를 축적하여 끊임없이 진화합니다. 이러한 변화 중 일부는 바이러스에 유리하여 변종이 숙주의 면역을 회피하고 빠르게 퍼질 수 있습니다. 연구자들은 바이러스가 어떻게 진화할지 예측함으로써 이론적으로 백신과 항바이러스 치료법을 미리 설계할 수 있습니다.
지금까지 AI 도구는 바이러스의 어떤 단일 돌연변이가 가장 성공적일지, 그리고 어떤 변종이 단기적으로 '이길'지 예측할 수 있었습니다. 하지만 그들은 여전히 오랜 시간 후에 발생할 돌연변이나 변종의 조합을 예측할 수 있는 수준에는 미치지 못했습니다.
캘리포니아 스탠포드 대학의 계산 생물학자인 브라이언 하이는 "이것은 연구에 정말 흥미롭고 매우 유용한 분야"라고 말합니다. 그는 바이러스 돌연변이 연구에 대규모 언어 모델을 적용한 최초의 연구자 중 한 명입니다 . 1 하지만 바이러스 진화를 예측하는 것은 여전히 매우 어렵다고 그는 말합니다.
AI 도구
과거에 연구자들은 향상된 특성을 가진 변종을 식별하기 위해 실험실 실험을 수행했지만, 이는 힘들고 시간이 많이 걸렸습니다. 베이징에 있는 Peking University의 면역학자인 Yunlong Cao가 이끄는 연구실과 같은 일부 그룹은 개별 돌연변이가 항체 패널의 탐지를 피하는 바이러스의 능력에 어떻게 영향을 미치는지 조사하는 실험을 개발했습니다 . 2 이러한 실험은 많은 양의 바이러스 진화를 설명할 수 있지만 전부는 아닙니다.
AI 모델은 바이러스 진화를 예측하기 위해 방대한 양의 데이터가 필요합니다. 도쿄 대학의 생물정보학자인 이토 준페이는 COVID-19를 유발하는 바이러스인 SARS-CoV-2의 대량 시퀀싱이 이를 가능하게 했다고 말합니다. 연구자들은 이제 모델을 훈련하는 데 사용할 수 있는 약 1,700만 개의 시퀀스를 보유하고 있습니다.
매사추세츠 보스턴에 있는 하버드 의대의 데보라 마크스와 그녀의 팀이 개발한 EVEscape라는 한 모델은 바이러스가 세포를 감염시키는 데 사용하는 SARS-CoV-2 스파이크 단백질의 83가지 가능한 버전을 설계하는 데 사용되었습니다 . 이러한 스파이크 아바타는 현재 유행하는 변종에 백신을 맞거나 감염된 사람이 생성한 항체를 회피할 수 있으며 4 향후 COVID-19 백신의 효과를 테스트하는 데 사용될 수 있습니다.
이토의 그룹은 바이러스 적합도의 더 광범위한 특성, 즉 변종이 집단 내에서 빠르게 퍼져 결국 지배할 수 있는 능력에 초점을 맞추고 있습니다.연구원들은 ESM-2를 사용하여 SARS-CoV-2 변종의 상대적 적합도를 예측할 수 있는 CoVFit이라는 모델을 만들었습니다.CoVFit은 13,643개의 SARS-CoV-2 스파이크 단백질 변종에 대해 학습되었으며, 개별 돌연변이가 바이러스의 항체 회피 능력에 어떤 영향을 미치는지에 대한 카오 그룹의 실험 데이터도 사용합니다.
이토의 팀은 2022년 8월까지의 변종 데이터를 사용하여 학습된 제한된 모델을 만들었고, 그 기준 이후 특정 변종의 개선된 적합도를 성공적으로 예측했음을 발견했습니다.그중 하나는 그해 말에 확산된 새로운 변종인 XBB 5 입니다.
2024년 3월까지 전 세계적으로 우세한 SARS-CoV-2 변종은 JN.1이라는 이름이었습니다. Ito의 그룹은 CoVFit을 사용하여 JN.1이 적합성을 얻는 데 도움이 되는 세 가지 단일 아미노산 변화를 식별했습니다. 이러한 돌연변이는 그 이후로 전 세계적으로 빠르게 확산되고 있는 변종에서 발견되었습니다.