광고
광고
광고
광고
광고
로고

언어 인공지능이 코로나19 '탈출'돌연변이를 정확하게 예측한다. MIT연구팀은 바이러스 탈출을 예측하는 도구를 개발했으며 이는 인간의 음성을 모방하는 AI 분야인 자연어처리(NLP)에서 나왔다.

https://singularityhub.com/2021/01/19/a-language-ai-is-accurately-predicting-covid-19-escape-mutations/

JM Kim | 기사입력 2021/01/21 [00:11]

언어 인공지능이 코로나19 '탈출'돌연변이를 정확하게 예측한다. MIT연구팀은 바이러스 탈출을 예측하는 도구를 개발했으며 이는 인간의 음성을 모방하는 AI 분야인 자연어처리(NLP)에서 나왔다.

https://singularityhub.com/2021/01/19/a-language-ai-is-accurately-predicting-covid-19-escape-mutations/

JM Kim | 입력 : 2021/01/21 [00:11]

 

모든 단순함을 위해 바이러스는 은밀한 생명력이다. 코로나19의 배후에 있는 바이러스인 SARS-Cov-2를 살펴보자. 인간의 면역 체계에 문제가 있는 이 바이러스는 유전물질의 일부를 점진적으로 재구성하여 인간 집단에 쉽게 퍼지게 했다. 새로운 변종은 이미 남아프리카 공화국을 위협하고 영국을 폐쇄했으며 최근 미국에서 나타났다.

 

밝은 희망은 기존 백신과 항체 요법이 새로운 균주에 대해 여전히 효과적일 가능성이 있다는 것이다. 하지만 항상 그런 것은 아니다. "바이러스 탈출"은 기존 항체가 더 이상 인식하지 못하도록 바이러스가 충분히 돌연변이를 일으키는 악몽 시나리오이다. 그 결과는 끔찍하다. , 이미 감염을 앓았거나 백신으로 항체를 생산했더라도 이러한 보호 기능은 이제 무릎을 꿇었거나 쓸모가 없다.

 

진화론적 관점에서 바이러스 돌연변이와 우리의 면역체계는 끊임없이 고양이와 쥐 게임에 참여한다. 지난주에 완전히 예상치 못한 자원 덕분에 우리는 이제 다리를 올릴 수 있다. Science에 발표된 놀라운 논문에서 한 팀은 바이러스 탈출을 예측하는 도구를 개발했으며 이는 인간의 음성을 모방하는 AI 분야인 자연어처리(NLP)에서 나왔다.

이상하게 들리는가?

 

팀의 비판적인 통찰력은 순전히 유전적 서열에 기반하여 일종의 "바이러스언어"를 구성하는 것이었다. 충분한 예가 주어지면 이 언어는 자연어처리(NLP)기술을 사용하여 분석하여 게놈의 변화가 면역체계와의 상호작용을 어떻게 변경하는지 예측할 수 있다. , 인공언어기술을 사용하면 바이러스 게놈에서 돌연변이가 발생하면 로밍 항체를 탈출할 수 있는 주요 영역을 찾을 수 있다.

 

정말 우스꽝스러운 생각이다.

그러나 우리의 가장 큰 바이러스 적들에 대해 테스트했을 때 인플루엔자(계절성 독감), HIV SARS-CoV-2와 같이 알고리즘은 각 바이러스를 "변형"시키는 중요한 돌연변이를 식별하여 면역 감시 시스템의 이해를 벗어날 수 있었다.

 

"바이러스 진화와 탈출의 언어는바이러스 탈출로 이어지는 돌연변이를 예측하기위한 강력한 프레임 워크를 제공한다."고 박사들이 말했다. 국립보건원의 김유아(Yoo-Ah, Kim)Teresa Przytycka는 연구에 참여하지 않았지만 이에 대한 관점을 제시했다.

 

“이것은 잠재적인 돌연변이 바이러스의 전체 우주를 좁히는 경이로운 방법이다.”라고 Mount SinaiBenhur Lee 박사는 덧붙였다. 그리고 추가로 검증된다면 알고리즘은 우리가 현재 가지고 있는 단편적인 예측 접근 방식이 아니라 효과적인 HIV 백신 또는 보편적 독감 백신에 대한 시도를 강화할 수 있다. 또한 신종 코로나바이러스가 어떻게 더 많은 돌연변이를 일으키고 우리의 면역 체계를 "방제"할 수 있는지에 대한 통찰력을 제공할 수 있으며, 차례로 탈출 계획에 맞서 싸우고 전염병을 완전히 종식시킬 시간을 준다.

 

유용한 비유

자연어처리(NLP)를 사용하여 바이러스를 검사하는 아이디어는 비유로 시작되었다. 지난 겨울, 연구 저자인 Brian Hie MIT의 눈 덮인 땅을 순항하던 중 아이디어가 떠올랐다. 우리가 언어를 분석하는 것과 같은 방식으로 바이러스와 면역체계 간의 상호작용을 설명할 수 있다면 어떨까?

 

믿음의 몇 도약을 필요로 하는 엄청나게 괴상한 깨달음이다. 그러나 Hie는 그것에 대해 더 많이 생각할수록 더 의미가 있다. 언어는 문법과 의미를 모두 포함한다. 첫 번째는 문장의 구조를 설정하기 전에 다소 불변한다. 그러나 두 번째 의미론은 문장의 의미일 뿐이다. 한 단어를 변경하면 문법을 그대로 유지하면서 청취자가 더 이상 이해할 수 없는 지점까지 의미가 즉시 변경될 수 있다. 다시 말해, 문법적으로 올바른 의미 없는 말(말도 안되는 소리가 떠오른다)을 말하면서 청취자의 이해를 "탈출"하는 것이 완전히 가능하다.

 

여기 비유의 도약이 있다. 바이러스는 또한 생존을 위해 두 가지 주요 특성에서 실행된다. 둘 다 우리의 면역체계와의 상호작용을 포함한다. 첫 번째는 자신을 더 많이 복제하기 위해 세포에 들어가는 능력이다. "바이러스"라고 불리는 이 특성은 바이러스가 호스트 내부에서 스스로를 유지할 수 있도록 반 일관성을 유지해야 한다.

 

SARS-CoV-2를 살펴보자. 대부분의 바이러스와 마찬가지로 표면에 스파이크가 점선으로 된 거품과 같은 존재이다. 그 안에는 게놈 서열이 캡슐화 되어 있다. 스파이크 단백질은 바이러스가 우리 세포와 "대화"하여 바이러스가 들어가도록 하는 데 필요하다. 하지만 스파이크 단백질의 모양을 결정하는 것은 바이러스 유전자이다. , 바이러스 유전자의 변화가 스파이크 단백질도 변경한다면, 이러한 돌연변이는 바이러스와 우리 세포 및 면역 체계와의 상호작용을 변화시키게 된다.

 

생존을 위해 주어진 바이러스는 자체 "문법"을 따라야한다. 게놈에 포착된 이러한 기본 서열은 생존을 허용한다. 너무 많은 돌연변이 또는 중요한 지점의 돌연변이로 문법을 깨뜨리면 바이러스는 더 이상 세포에 들어가 복제할 수 없으며 진화의 막 다른 골목에 도달하게 된다. 결론적으로 바이러스는 "문법"을 그대로 유지해야한다.

 

 

그러나 문법은 이해력의 절반에 불과하다. 다른 하나는 단어의 의미 인 의미론이다. Hie는 이것이 바이러스의 여지가 더 많은 곳이라고 생각했다. 바이러스를 스피커로, 면역체계를 청취자로 상상해보자. "단어"를 교체하지만 문법은 그대로 유지하는 바이러스 게놈에 대한 돌연변이는 면역 "청취자"를 속일 수 있어 바이러스의 언어를 더 이상 이해하지 못하고 공격을 중단할 수 있다. 그러나 바이러스의 문법이 남아 있기 때문에 복제가 자유롭고 면역체계의 방어에서 숨겨진 혼란을 야기할 수 있다. , 돌연변이로 인해 바이러스가 문법을 유지할 수 있지만 의미를 변경하면 바이러스 탈출도 허용된다.

문제는 이러한 악몽의 돌연변이를 어떻게 예측할까?

 

알고리즘 입력

Hie의 두 번째 생각은 완전히 다른 분야인 AI 언어를 활용하는 것이 었다. 최근 몇 년 동안 AI는 콘텐츠에 대한 사전 지식이나 이해 없이도 인간 언어로 문법과 의미를 모두 모델링하는 데 매우 효율적이다. OpenAIGPT-3를 살펴보면 문법적으로 정확하고 대부분 주제에 관한 놀라운 인간과 유사한 산문을 생성한다. NLP 알고리즘은 언어학을 연구하는 대신 단어, 짧은 구문, 문장 및 단락으로 배열된 방대한 텍스트 코퍼스를 통해 학습한다. 사전 교육 없이도 NLP 알고리즘은 인간 언어의 패턴을 파악할 수 있다. 규칙은 잊어버리라. 모든 과정에서 패턴을 인식한다.

 

이제 예제 텍스트가 바이러스의 "정상적인"게놈이고 돌연변이가 새로운 대체 문구라고 상상해보자. 그런 다음 NLP 기술을 사용하여 바이러스의 언어를 분석할 수 있다. 예를 들어, "문법"이나 바이러스 게놈의 서열이 세포에 들어갈 수 있도록 한다. 언어로 간주되는 경우 NLP는 미생물학에 대한 사전 지식 없이도 바이러스의 전염성과 관련된 시퀀스를 파악하기 시작할 수 있다.

 

유사한 아이디어가 바이러스 의미론에도 적용된다. 하나의 바이러스 유전자 문자를 체계적으로 변경할 수 있다. NLP를 사용하여 돌연변이가 "의미"(: 행동)에서 얼마나 멀리 떨어져 있는지 분석할 수 있다. 언어 예제를 사용하면 "고양이(cat)" "고양이과(feline)"로 바꾸는 것은 작은 변화이다. 그러나 "고양이" "불도저"로 바꾸면 훨씬 더 큰 차이가 발생한다. 이러한 변화의 정도는 직감이 아닌 숫자로 파악되며 알고리즘이 바이러스가 원래 형태에서 얼마나 멀리 떨어져 있는지 판단할 수 있도록 한다.

 

인플루엔자, HIV SARS-CoV-2를 사용하여 팀은 바이러스의 "문법"을 보존하지만 "의미"를 변경하는 바이러스 탈출을 허용하는 유전적 돌연변이를 찾기 시작했다. 알고리즘으로 각 지역의 점수를 매긴 팀은 바이러스 탈출 가능성을 크게 높인 여러 표적 단백질 반점과 유전적 청사진을 발견했다. 기억하라, 알고리즘은 이전에 바이러스 생물학과 원격으로 관련된 데이터를 발견한 적이 없었다. 그러나 전적으로 바이러스의 "언어"에 기초하여 인플루엔자 탈출로 이어진 시퀀스의 이전 실험실 결과를 복제했다.

 

관련 없는 과학 분야가 서로를 밀어붙이는 경우는 드물다. 그리고 Hie는 멈추지 않을 것이다. 언어 비유를 더 활용하면 어떤 사람들은 역사, 문화, 경험에 따라 동일한 문장을 다르게 이해할 수 있다. 마찬가지로, 우리의 면역 체계는 다 똑같지는 않다. 각각은 자체의 과다한 분자, 항체 및 면역 세포와 전반적인 "강도"를 가지고 있다.

 

Kim Przytycka제안 된 접근 방식이 바이러스 진화 언어에 대한 '개인화 된'관점을 제공할 수 있는지 확인하는 것은 흥미로울 것이다.”고 말한다.

 

 
코로나바이러스, 인공지능, 자연어처리(NLP) 관련기사목록
광고
광고
광고
광고
광고
많이 본 기사
AIbio로봇,AR/VR·바이오제약 많이 본 기사