오크리지, 테네시

세계에서 가장 빠른 슈퍼컴퓨터는 Frontier라는 기계이지만, 프로세서가 거의 50,000개나 되는 이 스피드스터도 한계가 있습니다. 4월의 화창한 월요일, 전 세계 과학 그룹에서 요청하는 작업량을 따라잡으려고 하면서 전력 소비가 급증하고 있습니다.

 

프론티어가 위치한 테네시주 오크리지 국립연구소의 과학 책임자 브론슨 메서는 전기 수요가 약 27메가와트로 정점에 달하며, 이는 약 10,000가구에 전력을 공급할 수 있는 양이라고 말합니다. 메서는 목소리에 자부심을 담아 슈퍼컴퓨터의 작업 속도를 설명하기 위해 지역 용어를 사용합니다. "그들은 마치 끓는 개처럼 기계를 돌리고 있습니다."

 

Frontier는 기록적인 속도로 데이터를 처리하며, 동시에 작업하는 10만 대의 노트북을 앞지릅니다. 2022년에 처음 출시되었을 때, 초당 10 18개의 부동 소수점 연산을 수행하는 엑사플롭(exafl

 

 

op)을 실행하는 능력인 슈퍼컴퓨팅의 엑사스케일 속도 장벽을 돌파한 최초의 컴퓨터였습

 

 

니다.

 

 

 

Oak Ridge의 거대 컴퓨터는 수십 년 동안 더 큰 슈퍼컴퓨터를 향해 나아가는 글로벌 트렌드의 최신 차트 1위입니다 (더 빠른 컴퓨터가 군 연구실이나 기타 비밀 시설에 존재할 가능성은 있지만).

 

 

하지만 속도와 크기는 Frontier의 주요 목적, 즉 인간 지식의 한계를 넓히는 데는 부차적입니다. Frontier는 작은 구름 물방울이 지구 기후가 따뜻해지는 속도에 어떤 영향을 미칠 수 있는지와 같은 소규모 세부 사항으로 대규모 패턴을 포착하는 시뮬레이션을 만드는 데 능숙합니다 . 연구자들은 이 슈퍼컴퓨터를 사용하여 아원자 입자에서 은하계에 이르기까지 모든 것에 대한 최첨단 모델을 만들고 있습니다. 일부 프로젝트에서는 신약 개발을 돕기 위해 단백질을 시뮬레이션하고, 항공기 엔진 설계를 개선하기 위해 난류를 모델링하고, Google과 OpenAI의 인공 지능(AI) 도구와 경쟁하기 위해 오픈 소스 대규모 언어 모델 (LLM)을 만들고 있습니다.

 

연구자들은 전 세계에서 Frontier에 접속합니다. 2023년에 이 슈퍼컴퓨터는 18개국에서 1,744명의 사용자를 보유했습니다. 그리고 Oak Ridge는 2024년에 Frontier 사용자가 기계에서 수행한 계산을 기반으로 최소 500개의 논문을 출판할 것으로 예상합니다.

오크리지 국립연구소의 생물물리학자 딜립 아스타기리는 "프론티어는 제임스 웹 우주 망원경과 다르지 않습니다."라고 말합니다. "우리는 그것을 과학적 도구로 보아야 합니다."

 

기계 내부

Frontier의 두뇌는 대화하기에 충분히 부드러운 꾸준한 전자적 웅웅거림으로 가득 찬 창고 크기의 방에 있습니다. 방에는 총 9,408개의 노드를 보관하는 74개의 동일한 광택이 나는 검은색 랙이 있습니다. 이것들은 슈퍼컴퓨터의 워크호스입니다. 각 노드는 4개의 그래픽 처리 장치(GPU)와 1개의 컴퓨터 처리 장치(CPU)로 구성됩니다.

 

슈퍼컴퓨터를 만든 회사인 Hewlett Packard Enterprise의 기술자인 Corey Edmonds는 엔지니어 팀이 문제의 징후를 찾기 위해 기계를 지속적으로 모니터링한다고 말합니다. Oak Ridge에 근무하는 Edmonds는 이날 Frontier에서 유지 보수 수술을 하고 있습니다. 노드 중 하나에서 끊어진 커넥터를 수리한 후, 그는 주사기에서 회색 열 그리스를 은색 직사각형(노드의 4개 GPU 중 하나)에 짜냅니다. 이렇게 하면 GPU가 열을 빠르게 발산하고 시원하게 유지하는 데 도움이 됩니다.

 

Frontier의 속도는 주로 GPU의 광범위한 사용에 기인합니다. 컴퓨터 게이머를 위해 사실적인 그래픽을 렌더링하기 위해 처음 개발된 이 칩은 이제 머신 러닝 애플리케이션을 통해 AI의 발전을 촉진하고 있습니다 .

 

"정말 빠르게 실행할 수 있어요." Messer가 말했습니다. "또한 엄청나게 멍청해요." GPU는 한 번에 여러 숫자를 처리하는 데 뛰어나지만, 그 외에는 별로입니다. "한 가지 일을 계속해서 반복할 수 있어요." 그는 말하는데, 이는 슈퍼컴퓨터 계산에서 빠른 작업에 유용합니다.

연구자들은 Frontier의 GPU를 활용하기 위해 코드를 사용자 지정해야 합니다. Messer는 과학자가 처음으로 Frontier를 사용하는 것을 교외 운전자가 경주용 자동차를 운전하는 것에 비유합니다. 그는 "스티어링 휠, 가스 페달, 브레이크가 있습니다."라고 말합니다. "하지만 일반 운전자를 포뮬러 원 자동차에 태워 실제로 이곳에서 저곳으로 이동하게 해보세요."

 

빅 사이언스

연구자들이 Frontier를 사용할 기회를 얻는 것은 쉽지 않습니다. Messer와 동료 3명이 이 기계에 대한 연구 제안을 평가하기 위해 4월 월요일에 모였습니다. 평균적으로 그들은 4개 중 1개의 제안을 승인했고, 작년에는 131개 프로젝트에 시간을 부여했습니다. 특히 지원자는 프로젝트가 슈퍼컴퓨터의 전체 시스템을 활용할 수 있다는 것을 입증해야 합니다.

그들이 제공하는 가장 일반적인 할당은 약 500,000노드 시간으로, 3일 동안 전체 머신을 지속적으로 실행하는 것과 같습니다. 가장 큰 할당은 4배 더 큽니다. 프론티어에서 시간을 부여받은 연구자들은 다른 어느 곳에서도 얻을 수 있는 것보다 약 10배 더 많은 컴퓨팅 리소스를 얻습니다. 메서가 말했습니다.

 

오늘날 그의 팀은 매주 약 20,000노드 시간의 소규모 보상을 지급하고 있습니다. 많은 프로젝트에서 Frontier가 광범위한 공간 및 시간 척도를 동시에 모델링할 수 있는 기능을 활용합니다. Frontier는 매년 총 약 6,500만 노드 시간을 사용할 수 있습니다.

 

기술자들은 사다리를 사용하여 Frontier Supercomputer 패널 뒤에 있는 많은 전선과 회로 기판을 조사합니다.

기술자들은 50,000개 이상의 프로세서를 탑재하고 물로 냉각되는 Frontier에서 작업합니다. 출처: Nature 의 Nick McGinn

 

예를 들어, 과학자들은 Frontier를 사용하여 용액 내의 단백질이나 핵산이 세포의 다른 부분과 상호 작용하는 것과 같은 원자적으로 정확한 생물학적 과정을 시뮬레이션하고 싶어합니다.

 

올해 5월, Asthagiri와 Oak Ridge의 고성능 컴퓨팅 엔지니어인 Nick Hagerty는 Frontier를 사용하여 1,550억 개가 넘는 물 분자가 들어 있는 정육면체 모양의 액체 물방울을 시뮬레이션했습니다. Asthagiri는 "기계를 밀어내는 것이었습니다."라고 말합니다. 시뮬레이션된 정육면체는 인간 머리카락의 약 1/10 정도이고, 이 모델은 지금까지 만들어진 원자 수준 시뮬레이션 중 가장 큰 모델 중 하나라고 Asthagiri는 말하는데, 그는 아직 심사를 거친 저널에 이 연구를 발표하지 않았습니다.

 

이러한 초기 시뮬레이션은 원자에서 시작하여 전체 세포를 모델링하는 더욱 야심찬 목표를 향해 나아가고 있습니다. 단기적으로 연구자들은 세포 소기관을 시뮬레이션하고 이를 사용하여 실험실 실험에 정보를 제공하고자 합니다. 또한 Frontier의 생물학적 물질에 대한 고해상도 시뮬레이션을 X선 자유 전자 레이저를 사용한 초고속 이미징 과 결합하여 발견을 가속화하기 위해 노력하고 있습니다.

 

Frontier를 통해 기후 모델도 더욱 정확해졌습니다. 2023년 Oak Ridge 기후 과학자 Matt Norman과 다른 연구자들은 이 슈퍼컴퓨터를 사용하여 3.25km 해상도의 글로벌 기후 모델을 실행했습니다. Frontier의 컴퓨팅 기능은 이 해상도로 수십 년 분의 예보를 만드는 데 필요했습니다 . 1 이 모델은 또한 더욱 미세한 해상도에서 발생하는 복잡한 구름 운동의 효과를 통합했습니다. Norman은 "Frontier의 모든 것이 필요했습니다."라고 말합니다.

 

그는 구름의 효과를 포함하면서 동일한 해상도를 달성하기 위해 다른 컴퓨터에서는 모델이 상당히 더 느리게 실행될 것이라고 말합니다. 이러한 제한은 구름의 행동이 전 세계 에너지의 이동에 영향을 미치기 때문에 조건을 예측하려는 기후 과학자들에게 큰 장애물입니다.

 

모델이 날씨와 기후 예보에 실용적이려면 하루에 최소 1년의 시뮬레이션을 실행해야 합니다. Frontier는 이 모델에 대해 하루에 1.26년의 시뮬레이션을 실행할 수 있으며 , 이 속도로 연구자들은 이전보다 더 정확한 50년 예측을 만들 수 있습니다.

 

Frontier는 또한 우주론적 규모에 더 높은 해상도를 제공합니다. 펜실베이니아 피츠버그 대학의 천체물리학자 Evan Schneider는 슈퍼컴퓨터를 사용하여 은하수 크기의 은하가 나이를 먹으면서 어떻게 진화하는지 연구하고 있습니다. Frontier의 은하 모델은 크기가 4배, 약 100,000광년(30,660파섹)인 대규모 은하 구조까지 확장됩니다. Frontier 이전에 그녀가 비슷한 해상도로 모델링할 수 있었던 가장 큰 구조는 왜소 은하였는데, 이는 질량의 약 50분의 1입니다.

 

슈나이더는 초신성이 어떻게 이러한 은하에서 가스를 새어나오게 하는지 시뮬레이션합니다 . 2. 시간이 지남에 따라 수천에서 수백만 개의 초신성 폭발이 집단적으로 상당한 양의 가스를 방출하여 궁극적으로 은하에서 빠져나갑니다 . 3. 그 가스는 새로운 별이 태어나는 원료이기 때문에 은하가 오래될수록 별 형성이 느려집니다. Frontier를 사용하면 슈나이더는 다른 컴퓨터로 실용적인 것보다 더 뜨거운 가스의 효과를 포함할 수 있습니다. 그녀의 시뮬레이션은 현재의 우주론적 모델이 은하 진화에서 이 뜨거운 가스의 역할을 축소하고 있음을 시사합니다.

 

AI 연구자들은 또한 ChatGPT를 뒷받침하는 트랜스포머 모델과 같은 신경망 기반 아키텍처를 훈련하는 역할로 알려진 Frontier의 GPU에서 시간을 요구하고 있습니다. 약 38,000개의 GPU를 보유한 Frontier는 그렇지 않으면 산업이 주도하는 AI 연구 분야에서 독특한 공공 부문 역할을 담당합니다.

 

현재 Fayetteville에 있는 Arkansas 대학의 경제학 연구원인 Nur Ahmed와 그의 동료들은 작년 논평에서 학계와 산업계에서 AI 간의 격차를 강조했습니다 . 4 2021년에 가장 큰 AI 모델의 96%가 산업계에서 나왔습니다. 평균적으로 산업 모델은 학계 모델의 약 30배 크기였습니다. 이러한 불일치는 금전적 투자에서도 분명하게 드러납니다. 비국방 미국 기관은 2021년에 AI 연구를 지원하기 위해 15억 달러를 제공했습니다. 같은 해에 산업계는 전 세계적으로 3,400억 달러 이상을 지출했습니다.

 

간격을 주의하세요

Ahmed는 상업용 대규모 언어 모델이 출시된 이후로 격차가 더 벌어졌다고 말합니다. 예를 들어 OpenAI의 GPT-4를 훈련하는 데 드는 컴퓨팅 리소스 비용은 약 7,800만 달러인 반면, Google은 Gemini Ultra를 훈련하는 데 1억 9,100만 달러를 썼습니다( go.nature.com/44ihnhx 참조 ). 이러한 투자 격차는 산업계와 학계의 연구자들이 사용할 수 있는 컴퓨팅 리소스에 엄청난 비대칭을 초래합니다.

 

산업은 기본 AI 연구의 경계를 넓히고 있으며, 이는 이 분야에 문제를 일으킬 수 있다고 Ahmed와 그의 공동 저자는 썼습니다. 산업의 우세는 즉시 수익성이 없는 기본 연구의 부족으로 이어질 수 있으며, 예를 들어 저소득 커뮤니티의 요구를 무시하는 AI 기술의 개발로 이어질 수 있다고 연구자들은 말합니다. Ahmed는 미공개 연구에서 600만 건의 심사평가 논문과 3,200만 건의 특허 인용을 분석하여 "평균적으로 산업은 글로벌 남부의 소외 계층의 우려 중 일부를 무시하는 경향이 있다"는 것을 발견했습니다.

 

 

게다가 많은 모델이 AI 기반 상용 얼굴 인식 시스템에서 발견되는 것처럼 성별 및 인종적 편견에 문제가 있습니다 . 학계는 AI 모델의 위험을 평가하는 감사원 역할을 할 수 있지만, 그렇게 하려면 업계와 동일한 규모의 계산 리소스에 액세스해야 한다고 Ahmed는 말합니다.

 

바로 여기서 Frontier가 등장합니다. Oak Ridge가 프로젝트 신청을 승인하면 연구자는 결과를 게시하는 한 무료로 슈퍼컴퓨터를 사용합니다. 이를 통해 대학 연구자는 회사와 경쟁할 수 있다고 College Park에 있는 University of Maryland의 컴퓨터 과학자 Abhinav Bhatele은 말합니다. 그는 "학계 사람들이 비슷한 크기의 모델을 훈련할 수 있는 유일한 방법은 Frontier와 같은 리소스에 액세스할 수 있는 경우입니다."라고 말합니다.

 

Bhatele은 산업 모델에 대한 견제 수단으로 Frontier를 사용하여 오픈소스 LLM을 개발하고 있습니다 .5 Bhatele은 "종종 회사에서 모델을 훈련할 때 독점적으로 유지하고 모델 가중치를 공개하지 않습니다."라고 말합니다. "이러한 오픈 연구를 통해 이러한 모델을 누구나 무료로 사용할 수 있도록 할 수 있습니다." 내년에 그와 그의 팀은 다양한 규모의 LLM을 훈련하는 것을 목표로 하고 있으며 이러한 모델과 가중치를 오픈소스로 제공할 것입니다. 또한 모델을 훈련하는 소프트웨어도 무료로 제공 했습니다 . 이런 방식으로 Frontier는 AI를 "민주화"하고 기술 개발에 더 많은 사람을 포함시키는 분야에서 중요한 역할을 한다고 Bhatele은 말합니다.

 

경주는 계속됩니다

Frontier가 있는 방에서 몇 개의 문 떨어진 곳에 있는 이 전임자는 여전히 전 세계 과학자들을 위해 열심히 일하고 있습니다. Summit이라는 이 기계 는 2018년부터 2019년까지 속도 세계 기록을 세웠으며 현재 공공 기계 중에서 세계에서 9번째로 빠른 슈퍼컴퓨터입니다. 긴 검은색 크롬 랙이 있는 Summit은 Frontier와 비슷하지만 더 시끄러운 냉각 시스템을 갖추고 있으며 속도는 1/8입니다.

 

Summit의 역사는 Frontier의 미래를 암시합니다. Frontier는 2022년에 처음으로 목록의 정상에 올랐고, 머지않아 그 자리를 내줄 가능성이 큽니다. 일리노이주 Argonne National Laboratory에 있는 2위의 슈퍼컴퓨터 Aurora는 추가 최적화를 통해 언젠가 Frontier의 성능을 능가할 것으로 예상됩니다. 올해 말 캘리포니아에 있는 연구소에서 온라인으로 출시될 예정인 Lawrence Livermore National Laboratory의 El Capitan도 결국 Frontier를 이길 것으로 예상됩니다. 또한 올해 말 데뷔할 예정인 독일의 엑사스케일 슈퍼컴퓨터 Jupiter도 혼합되어 있습니다.

 

지정학적 긴장이 고조되면서 순위가 ​​더욱 복잡해졌습니다. Frontier의 타이틀은 TOP500이라는 기관의 반기 순위에서 비롯되었습니다. 이 기관은 선형 방정식의 밀도 있는 집합을 푸는 벤치마크 작업에서 보고된 성능을 기준으로 전 세계 슈퍼컴퓨터를 평가합니다.

하지만 컴퓨팅 전문가들은 미국과 중국이 컴퓨팅 자산에 대한 정보를 공개적으로 공유하지 않을 가능성이 크다고 말합니다. 특히 두 나라 간의 긴장이 커지고 있기 때문입니다. 워싱턴 DC에 있는 싱크탱크인 Atlantic Council의 정책 연구원인 케빈 클리먼은 "슈퍼컴퓨팅 경쟁이라는 생각이 있습니다."라고 말합니다. 사실, 2022년 조 바이든 미국 대통령 행정부는 중국의 슈퍼컴퓨팅 역량에 대한 우려를 구체적으로 언급하며 중국으로의 반도체 수출을 금지하는 통제를 시행했습니다.

 

슈퍼컴퓨팅 분야에서 긴장은 수년 전부터 시작되었습니다. 주목할 점은 2016년에 중국이 TOP500 목록에서 슈퍼컴퓨터 수에서 미국을 앞지르게 되었다는 것입니다. 클리먼은 "이로 인해 미국에 많은 불안이 생겼습니다."라고 말합니다. "많은 미국 정책 입안자들이 '어떻게 하면 목록에서 따라잡을 수 있을까?'라고 물었습니다."

 

현재 두 나라는 이번 6월에 발표된 TOP500 순위에서 가장 많은 슈퍼컴퓨터를 보유하고 있습니다. 미국은 168대의 기계를 자랑했고, 중국은 80대를 보유하고 있습니다. 그러나 연구자들은 이 나라들이 대중에 공개하지 않은 강력한 슈퍼컴퓨터를 보유하고 있는지 궁금해합니다. 사실, 현재 목록에 있는 중국 기계의 수는 작년 11월 104대의 기계를 포함했을 때 이후로 감소했습니다. 그리고 중국은 새로운 슈퍼컴퓨터에 대한 결과를 보고하지 않았습니다.

 

Oak Ridge는 이미 Frontier의 후속작인 Discovery를 계획하고 있는데, 이 제품은 계산 속도가 3~5배 빨라야 합니다. 수십 년간의 속도 추구의 최신 버전이 될 것입니다('속도 기록' 참조). Frontier는 2014년 가장 빠른 컴퓨터였던 Tianhe-2A보다 35배 빠르고, 2004년 가장 빠른 슈퍼컴퓨터였던 Earth Simulator보다 33,000배 빠릅니다.

 

속도 기록: 지난 20년 동안 세계에서 가장 빠른 슈퍼컴퓨터의 속도가 엄청나게 증가했음을 보여주는 차트입니다.

출처: www.TOP500.org

연구자들은 더 빠른 속도를 간절히 원합니다. 예를 들어, 더 큰 컴퓨터가 있으면 슈나이더는 훨씬 더 높은 해상도로 은하계를 모델링할 수 있다고 그녀는 말합니다. 또한 과학자들에게 더 큰 컴퓨팅 예산을 제공할 수도 있습니다.

 

하지만 엔지니어들은 지속적인 과제에 직면해 있습니다. 슈퍼컴퓨터는 많은 에너지를 소모하고, 미래의 기계는 훨씬 더 많은 에너지를 필요로 할 가능성이 높습니다. 따라서 연구자들은 에너지 효율 개선을 위해 계속 노력하고 있습니다. Frontier는 Summit보다 4배 이상 효율적입니다. Summit은 냉각수를 사용하는 반면 Frontier는 주변 온도의 물로 냉각되기 때문입니다. Frontier의 총 에너지 소비량의 약 3~4%가 냉각에 사용되는 반면 Summit은 10%입니다.

 

에너지 효율성은 수년간 더 빠른 슈퍼컴퓨터를 만드는 데 있어 주요 병목이었습니다. Messer는 "2012년에 엑사스케일 슈퍼컴퓨터를 만들 수도 있었지만, 전력을 공급하는 데 너무 많은 비용이 들었을 것입니다."라고 말합니다. "전기를 공급하려면 1~2배 더 많은 전력이 필요했을 것입니다."

 

오크리지 시설에서 저녁이 되자 프론티어 층의 복도는 골격 작업반만 빼고는 텅 비어 있었다. 슈퍼컴퓨터의 제어실에서 코너 커닝햄은 프론티어를 밤새 돌봐주는 일을 맡았다. 오후 7시부터 오전 7시까지 그의 일은 슈퍼컴퓨터가 전 세계 연구자들의 과제를 처리하는 동안 문제가 발생하지 않도록 하는 것이다. 그는 12개가 넘는 모니터를 사용하여 프론티어를 감시하는데, 이 모니터에는 글로벌 사이버 보안 위협과 건물의 보안 카메라 영상이 표시된다. 구석에 있는 텔레비전은 전원 공급을 방해할 수 있는 다가오는 폭풍을 경고하기 위해 음소거된 지역 날씨를 보여준다.

 

하지만 대부분의 밤은 커닝햄이 책상에서 온라인 컴퓨터 과학 학위를 공부하기에 충분히 조용합니다. 그는 건물에서 예상치 못한 일이 없는지 확인하기 위해 몇 번이나 둘러보지만, 그 일은 대체로 수동적입니다.

 

"소방관과 비슷해요." 그는 말한다. "무슨 일이 일어나면 누군가가 지켜봐야 해요." 그는 근무 교대 근무를 버틸 수 있도록 부리또 4개와 펩시를 구매했다. 그는 오늘 밤 잠을 자지 못할 것이고, 프론티어도 마찬가지다.