Meta와 NVIDIA는 대규모 AI 슈퍼컴퓨터를 구축하기 위해 노력하고 있다고 발표했다. AI Research SuperCluster(RSC)는 현재 AI를 발전시키기 위해 새로운 모델을 훈련하고 있다.
RSC는 일단 완전히 배포되면 NVIDIA DGX A100 시스템의 가장 큰 고객 설치가 될 것으로 예상된다. 올해 말에 완전히 구축될 예정이며 1조 개 이상의 매개변수로 AI 모델을 훈련하는 데 사용될 예정이다. 슈퍼컴퓨터는 자연어 처리(NLP)와 같은 다양한 분야에 유용할 것이다.
Meta에 따르면 이 회사는 다양한 AI 모델을 처리할 수 있는 대규모 성능과 극도의 안정성, 보안, 개인 정보 보호 및 유연성을 구현하는 데 중점을 두고 있다.
RSC의 세부사항
RSC는 760개의 NVIDIA DGX A100 시스템을 컴퓨팅 노드로 사용하고 6,080개의 NVIDIA A100 GPU가 NVIDIA Quantum 200Gb/s InfiniBand 네트워크에 연결되어 있다. 이 모든 것을 통해 1,895페타플롭의 TF32 성능을 제공할 수 있다.
RSC는 작동하는 AI 슈퍼컴퓨터에 도달하는 데 18개월 밖에 걸리지 않았으며, 이는 코로나19 전염병이 개발에 미치는 영향을 고려할 때 인상적이다.
Meta의 레거시 생산 및 연구 인프라와 비교하여 RSC에 대한 초기 벤치마크는 컴퓨터 비전 워크플로를 최대 20배 더 빠르게 실행할 수 있음을 보여주었다. 또한 NCCL(NVIDIA Collective Communication Library)을 9배 이상 빠르게 실행하고 대규모 NLP 모델을 3배 빠르게 훈련할 수 있다. 즉, 수백억 개의 매개변수가 있는 모델은 이전 9주 벤치마크와 비교하여 3주 만에 훈련을 마칠 수 있다.
RSC가 가능하게 하는 것
RSC를 통해 Meta AI 연구원은 수조 개의 사례에서 배울 수 있는 새로운 AI 모델을 만들 수 있다. 연구원들은 또한 수백 가지 다른 언어로 작업할 수 있다. 텍스트, 이미지 및 비디오를 함께 분석한다. 새로운 증강현실 도구를 개발한다. 그리고 더 있다.
Meta는 RSC를 통해 회사가 서로 다른 언어를 사용하는 경우에도 많은 사람들에게 실시간 음성 번역을 제공할 수 있기를 희망한다. 이를 통해 매우 다양한 팀이 연구 프로젝트에서 협력할 수 있다.
"예를 들어 각기 다른 언어를 사용하는 대규모 그룹의 사람들에게 실시간 음성 번역을 제공하여 연구 프로젝트에서 원활하게 협업하거나 AR 게임을 할 수 있는 완전히 새로운 AI 시스템을 구축하는 데 RSC가 함께 도움이 되기를 바란다.”고 Meta가 말했다.
이 새로운 협력은 다양한 산업 분야에서 사용할 수 있는 차세대 AI 슈퍼컴퓨터 중 하나를 개발하는 데 큰 도움이 된다.