광고
광고
광고
광고
광고
광고
로고

[DNA 데이터 저장] 현재 지구에는 약 10조 기가바이트의 디지털 데이터가 있으며, 인간은 매일 250만 기가바이트의 데이터를 추가하는 이메일, 사진, 트윗 및 기타 디지털 파일을 생성한다. 모든 디지털 사진을 DNA로 저장할 수 있을까? MIT 과학자들은 매우 높은 밀도로 대량을 포함할 수 있는 DNA를 사용하여 데이터를 저장하는 보다 효과적인 방법을 연구하고 있다.

https://www.weforum.org/agenda/2021/06/research-shows-dna-could-be-a-solution-to-the-world-s-data-storage-problem/

JM Kim | 기사입력 2021/06/17 [00:00]

[DNA 데이터 저장] 현재 지구에는 약 10조 기가바이트의 디지털 데이터가 있으며, 인간은 매일 250만 기가바이트의 데이터를 추가하는 이메일, 사진, 트윗 및 기타 디지털 파일을 생성한다. 모든 디지털 사진을 DNA로 저장할 수 있을까? MIT 과학자들은 매우 높은 밀도로 대량을 포함할 수 있는 DNA를 사용하여 데이터를 저장하는 보다 효과적인 방법을 연구하고 있다.

https://www.weforum.org/agenda/2021/06/research-shows-dna-could-be-a-solution-to-the-world-s-data-storage-problem/

JM Kim | 입력 : 2021/06/17 [00:00]

지구에는 약 10조 기가바이트의 디지털 데이터가 있으며, 인간이 더 많이 생산함에 따라 매일 빠르게 증가하고 있다. 엑사바이트 데이터 센터에는 많은 양이 포함되어 있으며 구축 및 유지 관리에 약 10억 달러가 소요된다.

MIT 과학자들은 매우 높은 밀도로 대량을 포함할 수 있는 DNA를 사용하여 데이터를 저장하는 보다 효과적인 방법을 연구하고 있다. 이 연구는 유망하지만 DNA가 저장 매체로 실행되기 위해서는 더 많은 지식이 필요하다.

현재 지구에는 약 10조 기가바이트의 디지털 데이터가 있으며, 인간은 매일 250만 기가바이트의 데이터를 추가하는 이메일, 사진, 트윗 및 기타 디지털 파일을 생성한다. 이 데이터의 대부분은 엑사 바이트 데이터 센터 (엑사 바이트는 10억 기가바이트)로 알려진 방대한 시설에 저장되며, 이는 여러 축구장 크기에 해당하며 구축 및 유지 관리에 약 10억 달러의 비용이들 수 있다.

많은 과학자들은 우리의 유전 정보를 포함하는 분자에 대안적인 해결책이 있다고 믿는다. DNA는 엄청난 양의 정보를 매우 높은 밀도로 저장하도록 진화했다. DNA로 가득 찬 커피 잔은 이론적으로 전 세계의 모든 데이터를 저장할 수 있다고 MIT 생물공학과 교수인 Mark Bathe는 말한다.

"우리는 전 세계가 축적하고 있는 방대한 양의 데이터, 특히 아카이브 데이터를 저장하기위한 새로운 솔루션이 필요하다."Broad Institute of MIT Harvard의 부 회원인 Bathe는 말한다.

DNA는 플래시 메모리보다 천 배 더 밀도가 높다. 흥미로운 또 다른 특성은 일단 DNA 폴리머를 만들면 에너지를 전혀 소비하지 않는다는 것이다. DNA를 작성하고 영원히 저장할 수 있다.”

과학자들은 이미 이미지와 텍스트 페이지를 DNA로 인코딩 할 수 있음을 입증했다. 그러나 많은 DNA 조각의 혼합물에서 원하는 파일을 쉽게 선택할 수 있는 방법도 필요하다. Bathe와 그의 동료들은 이제 각 데이터 파일을 6마이크로 미터의 실리카 입자로 캡슐화 하여 내용을 드러내는 짧은 DNA 서열로 라벨링하여 이를 수행하는 한 가지 방법을 시연했다.

이 접근법을 사용하여 연구원들은 20개의 이미지 세트에서 DNA 시퀀스로 저장된 개별 이미지를 정확하게 추출할 수 있음을 입증했다. 사용할 수 있는 레이블 수를 고려할 때 이 접근 방식은 최대 1020개의 파일로 확장할 수 있다.

Bathe는 오늘 Nature Materials에 게재된 이 연구의 선임 저자이다. 이 논문의 주요 저자는 MIT 수석 박사후 연구원인 James Banal, MIT 연구 동료 Tyson Shepherd MIT 대학원생 Joseph Berleant이다.

 

안정적인 보관

디지털 스토리지 시스템은 텍스트, 사진 또는 기타 모든 종류의 정보를 일련의 0 1로 인코딩한다. 이 동일한 정보는 유전자 코드를 구성하는 4개의 뉴클레오티드 (A, T, G C)를 사용하여 DNA에 인코딩 될 수 있다. 예를 들어 G C 0을 나타내고 A T 1을 나타낸다.

DNA는 저장 매체로 바람직하게 만드는 몇 가지 다른 기능을 가지고 있다. 매우 안정적이며 합성 및 서열 분석이 상당히 쉽다 (그러나 비용이 많이 든다). 또한 밀도가 높기 때문에 (최대 2비트에 해당하는 각 뉴클레오타이드는 약 1입방 나노 미터) DNA로 저장된 엑사바이트의 데이터가 손바닥에 들어갈 수 있다.

이러한 종류의 데이터 저장에 대한 한 가지 장애물은 대량의 DNA를 합성하는 데 드는 비용이다. 현재 1페타바이트(1백만 기가바이트)의 데이터를 작성하는 데 1조 달러가 들 것이다. 보관 데이터를 저장하는 데 자주 사용되는 자기 테이프와 경쟁하기 위해 Bathe DNA 합성 비용을 약 6배 정도 떨어뜨려야 한다고 추정한다. Bathe는 플래시 드라이브에 정보를 저장하는 데 드는 비용이 지난 수십 년 동안 급격히 감소한 것과 비슷하게 10~20년 이내에 이러한 일이 발생할 것으로 예상한다고 말한다.

비용 외에도 DNA를 사용하여 데이터를 저장하는 데 있어 다른 주요 병목은 다른 모든 파일에서 원하는 파일을 선택하는 데 어려움이 있다는 것이다.

DNA 작성 기술이 DNA에 엑사바이트 또는 제타바이트의 데이터를 작성하는 것이 비용 효율적인 지점에 도달했다고 가정하면 어떻게 될까? 엄청난 양의 파일, 이미지 또는 영화 및 기타 자료인 DNA 더미를 갖게 될 것이며 찾고 있는 사진이나 영화를 찾아야한다.” Bathe는 말한다. "건초 더미에서 바늘을 찾는 것과 같다."

현재 DNA 파일은 일반적으로 PCR (polymerase chain reaction)을 사용하여 검색된다. DNA 데이터 파일에는 특정 PCR 프라이머에 결합하는 서열이 포함되어 있다. 특정 파일을 꺼내기 위해 해당 프라이머가 샘플에 추가되어 원하는 시퀀스를 찾아 증폭한다. 그러나 이 접근 방식의 한 가지 단점은 프라이머와 표적을 벗어난 DNA 서열 사이에 누화가 발생하여 원하지 않는 파일을 빼낼 수 있다는 것이다. 또한 PCR 검색 프로세스에는 효소가 필요하며 결국 풀에 있던 대부분의 DNA를 소비하게 된다.

"바늘을 찾기 위해 건초 더미를 태우는 것이다. 다른 모든 DNA가 증폭되지 않고 기본적으로 버려지기 때문이다." Bathe는 말한다.

 

파일 검색

대안적인 접근 방식으로 MIT 팀은 각 DNA 파일을 작은 실리카 입자로 캡슐화하는 새로운 검색 기술을 개발했다. 각 캡슐에는 파일 내용에 해당하는 단일 가닥 DNA "바코드"가 표시되어 있다. 이 접근법을 비용 효율적인 방식으로 입증하기 위해 연구원들은 약 100바이트에 해당하는 약 3,000개의 뉴클레오티드 길이의 DNA 조각으로 20개의 서로 다른 이미지를 인코딩했다. (그들은 또한 캡슐이 최대 1기가 바이트 크기의 DNA 파일에 들어갈 수 있음을 보여주었다.)

각 파일은 "고양이"또는 "비행기"와 같은 레이블에 해당하는 바코드로 레이블이 지정되었다. 연구자들이 특정 이미지를 꺼내고 싶을 때 DNA 샘플을 제거하고 찾고 있는 라벨에 해당하는 프라이머를 추가한다. 예를 들어 호랑이 이미지의 경우 "cat", "orange" "wild", 집 고양이의 경우 "cat", "orange" "domestic"을 입력한다.

DNA '파일'의 사진. 각 실리카 구체에는 특정 이미지를 인코딩하는 DNA 서열이 포함되어 있다. 이미지: Courtesy of the researchers

프라이머는 형광 또는 자성 입자로 라벨이 지정되어 있어 샘플에서 일치하는 항목을 쉽게 꺼내 식별할 수 있다. 이렇게 하면 나머지 DNA는 그대로 두고 원하는 파일을 제거하여 저장소에 다시 넣을 수 있다. 검색 프로세스를 통해 "대통령 AND 18세기"와 같은 불 논리(Boolean logic)문이 결과적으로 Google 이미지 검색으로 검색되는 것과 유사한 George Washington을 생성할 수 있다.

“현재 개념 증명 상태에서는 초당 1킬로바이트의 검색 속도이다. 파일 시스템의 검색 속도는 캡슐 당 데이터 크기에 따라 결정된다. 현재 캡슐 당 데이터 크기는 DNA 100메가바이트에 해당하는 데이터를 기록하는 엄청난 비용과 병렬로 사용할 수 있는 분류기의 수로 제한된다. DNA 합성이 충분히 저렴 해지면 우리의 접근 방식으로 파일 당 저장할 수 있는 데이터 크기를 최대화할 수 있을 것이다.” Banal은 말한다.

바코드의 경우 연구원들은 하버드 의과 대학의 유전학 및 의학 교수 인 Stephen Elledge가 개발한 약 25개 뉴클레오티드 길이의 100,000 개 서열 라이브러리의 단일 가닥 DNA 서열을 사용했다. 이러한 레이블 중 두 개를 각 파일에 배치하면 1010(100) 개의 서로 다른 파일에 고유하게 레이블을 지정할 수 있으며 각각에 4개의 레이블을 지정하면 1020파일에 고유하게 레이블을 지정할 수 있다.

하버드 의과 대학의 유전학 교수인 George Church는 이 기술을 "지식 관리 및 검색 기술의 거대한 도약"이라고 설명한다.

"DNA 형태의 쓰기, 복사, 읽기 및 저 에너지 아카이브 데이터 저장의 급속한 발전으로 인해 거대한(1021 바이트, 제타 규모) 데이터베이스에서 데이터 파일을 정확하게 검색할 수 있는 기회가 부족하게 되었다."라고 Church는 말한다. 연구에 참여하지 않았다. "새로운 연구는 완전히 독립적인 DNA 외부 층을 사용하고 DNA의 다양한 특성 (시퀀싱이 아닌 하이브리드 화)을 활용하고 기존 기기와 화학을 사용하여 이를 훌륭하게 다룬다."

Bathe는 이러한 종류의 DNA 캡슐화가 "콜드"데이터, 즉 아카이브에 보관되고 자주 액세스되지 않는 데이터를 저장하는 데 유용할 수 있다고 생각한다. 그의 연구실은 장기적으로 DNA 데이터를 저장하고 단기적으로는 임상 및 기타 기존 DNA 샘플을 위한 DNA 장기 저장 기술을 개발하고 있는 스타트 업 Cache DNA를 개발하고 있다.

DNA가 데이터 저장 매체로 사용되기까지는 다소 시간이 걸릴 수 있지만, 오늘날 코로나19 테스트, 인간 게놈 시퀀싱 및 기타에서 얻은 기존 DNA RNA 샘플을 위한 저비용 대용량 저장 솔루션에 대한 긴급한 요구가 이미 존재한다. 유전체학 분야라고 Bathe는 말한다.

 

 
DNA, 데이터 저장, 데이터 센터 관련기사목록
광고
광고
광고
광고
광고
많이 본 기사
신기술/산업·미래교육 미래예측 많이 본 기사