광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[새로운 AI 칩은 22배 더 빠르다] 이번 달 IBM 리서치가 발표한 새로운 엣지 기반 프로세서인 NorthPole은 현재 시중에 나와 있는 칩보다 최대 22배 빠르고 에너지 효율성이 훨씬 높다. 그리고 AI 비용을 대폭 절감하며 두뇌와 유사한 칩이다.

https://singularityhub.com/2023/10/24/this-brain-like-ibm-chip-could-drastically-cut-the-cost-of-ai/

JM Kim | 기사입력 2023/10/26 [00:00]

[새로운 AI 칩은 22배 더 빠르다] 이번 달 IBM 리서치가 발표한 새로운 엣지 기반 프로세서인 NorthPole은 현재 시중에 나와 있는 칩보다 최대 22배 빠르고 에너지 효율성이 훨씬 높다. 그리고 AI 비용을 대폭 절감하며 두뇌와 유사한 칩이다.

https://singularityhub.com/2023/10/24/this-brain-like-ibm-chip-could-drastically-cut-the-cost-of-ai/

JM Kim | 입력 : 2023/10/26 [00:00]

뇌는 매우 강력한 컴퓨팅 기계이다. 과학자들은 오랫동안 기계 정신에서 내부 작동을 재현하려고 노력해 왔다.

IBM 연구 팀은 컴퓨팅과 메모리를 결합하여 낮은 에너지 비용으로 데이터를 보다 효율적으로 처리하는 뇌에서 영감을 받은 칩 아키텍처인 NorthPole을 발표했다.

역사를 통틀어 컴퓨팅은 메모리가 컴퓨팅과 분리된 프로세서 중심이었다. 그러나 메모리와 컴퓨팅 간에 막대한 양의 데이터를 전송하는 것은 에너지 소비는 물론 처리 대역폭 및 속도 측면에서도 높은 비용을 초래한다. 이는 방대한 양의 데이터에 빠르게 액세스해야 하는 얼굴 인식, 객체 감지, 행동 모니터링 등 고급 실시간 인공지능(AI) 애플리케이션에서 특히 두드러진다. 결과적으로 대부분의 최신 컴퓨터 아키텍처는 물리적 및 처리 병목 현상에 빠르게 도달하고 있으며 관련 에너지 비용 증가로 인해 경제적, 기술적, 환경적으로 지속 불가능해질 위험이 있다.

 

IBM 팀은 뇌의 구조와 효율성을 모방한 완전 디지털 칩인 NorthPole을 사용하여 코드를 해독했을 수 있다. AI 프로그램을 실행하는 데 가장 일반적으로 사용되는 칩인 최첨단 그래픽 처리 장치(GPU)와 경쟁했을 때 IBM의 뇌와 유사한 칩은 최대 96% 더 적은 에너지를 사용하면서 여러 표준 테스트에서 승리했다.

 

IBM은 뇌에서 영감을 얻은 칩에 대해 낯설지 않다. TrueNorth에서 SpiNNaker에 이르기까지 그들은 AI 알고리즘을 더 잘 실행하기 위해 뇌의 아키텍처를 활용하는 데 10년을 보냈다.

프로젝트 간 목표는 동일했다. 휴대폰이나 자율주행차의 컴퓨터와 같은 소형 장치가 "엣지"에서 AI를 실행할 수 있도록 하는 더 빠르고 에너지 효율적인 칩을 어떻게 만들 수 있을까? 엣지 컴퓨팅은 클라우드의 원격 서버 팜에 요청을 보낼 필요 없이 실시간으로 문제를 모니터링하고 대응할 수 있다. 전화 접속 모뎀에서 광섬유 인터넷으로 전환하는 것처럼 이 칩은 최소한의 에너지 비용으로 대규모 AI 모델의 속도를 높일 수도 있다.

 

문제는? 뇌는 아날로그적이다. 이와 대조적으로 기존 컴퓨터 칩은 0 1이라는 디지털 처리를 사용한다. 오래된 VHS 테이프를 디지털 파일로 변환해 본 적이 있다면 이것이 간단한 과정이 아니라는 것을 알게 될 것이다. 지금까지 뇌를 모방한 대부분의 칩은 아날로그 컴퓨팅을 사용했다. 불행하게도 이러한 시스템은 시끄럽고 오류가 쉽게 빠져나갈 수 있다.

 

NorthPole을 통해 IBM은 완전히 디지털화되었다. 256개 코어에 220억 개의 트랜지스터를 촘촘하게 포장한 이 칩은 컴퓨팅 모듈과 메모리 모듈을 나란히 배치하여 두뇌의 신호를 받는다. 작업에 직면하면 각 코어는 문제의 일부를 맡는다. 그러나 뇌의 신경 섬유와 마찬가지로 장거리 연결은 모듈을 연결하므로 정보도 교환할 수 있다.

이런 나눔이 바로 '혁신'이다 라고 이번 연구에 참여하지 않은 로스앤젤레스 캘리포니아 대학교(UCLA)의 수브라마니안 아이어(Subramanian Iyer)와 브와니 로이초우두리(Vwani Roychowdhury) 박사들이 말했다.

이 칩은 점점 더 비용이 많이 들고 전력 소모가 많은 AI 모델에 특히 적합하다. NorthPole은 완전 디지털이기 때문에 기존 제조 프로세스(트랜지스터 및 유선 연결 패키징)와도 밀접하게 연관되어 잠재적으로 대규모 생산이 더 쉬워진다.

이 칩은 "에너지, 공간, 시간의 최전선에서의 신경 추론"을 나타낸다고 저자들은 사이언스(Science)에 발표한 논문에서 썼다.

 

NorthPole 256개의 컴퓨팅 코어로 구성되며 각 코어에는 자체 메모리가 포함되어 있다. 12나노미터(nm) 노드 프로세스로 제작된 이 제품은 우표 크기인 800제곱밀리미터에 220억 개의 트랜지스터를 담았다. 외부 메모리에 자주 액세스할 필요가 없으므로 기존 아키텍처보다 훨씬 빠르게 이미지 인식과 같은 작업을 수행하는 동시에 훨씬 적은 전력을 소비한다.

 

ResNet50 벤치마크 이미지 분류 네트워크에서 NorthPole의 기능을 테스트했다. 여기서 NorthPole의 기능은 와트당 초당 프레임(FPS) 25배 더 높은 에너지 메트릭, 트랜지스터당 FPS 5배 더 높은 공간 메트릭, 22배 더 낮은 시간을 달성했다. 유사한 기술과 관련된 대기 시간 측정 기준이다. 심지어 800억 개의 트랜지스터를 갖춘 NVIDIA H100과 같이 4nm 프로세스를 사용하는 제품보다 성능이 뛰어났다.

 

마음 대 기계

DALL-E에서 ChatGTP에 이르기까지 생성 AI는 놀라울 정도로 인간과 유사한 텍스트 기반 응답과 이미지로 전 세계를 휩쓸었다.

그러나 연구 저자인 다르멘드라 S. 모다(Dharmendra S. Modha) 박사는 생성 AI가 지속 불가능한 길을 걷고 있다고 말한다. 이 소프트웨어는 응답을 생성하기 위해 종종 웹에서 스크랩한 수십억 개의 예제에 대해 교육을 받았다. 알고리즘을 생성하고 실행하려면 엄청난 양의 컴퓨팅 성능이 필요하므로 비용이 많이 들고 처리가 지연되며 탄소 발자국이 커진다.

 

이러한 인기 있는 AI 모델은 뇌의 내부 작동에서 대략적으로 영감을 받았다. 하지만 현재 컴퓨터와 잘 어울리지 않는다. 뇌는 같은 위치에서 기억을 처리하고 저장한다. 대조적으로, 컴퓨터는 메모리와 처리를 별도의 블록으로 나눈다. 이 설정은 계산할 때마다 데이터를 앞뒤로 이동하며 트래픽이 쌓여 병목 현상, 지연 및 에너지 낭비가 발생할 수 있다.

팀은 "데이터 이동 위기"라고 썼다. 우리는 "극적으로 더 계산적으로 효율적인 방법"이 필요하다.

 

한 가지 아이디어는 뇌의 기능과 유사한 아날로그 컴퓨팅 칩을 만드는 것이다. /오프 전등 스위치와 같이 개별 0 1의 시스템을 사용하여 데이터를 처리하는 대신 이러한 칩은 조명 조광기처럼 작동한다. 각 컴퓨팅 "노드"는 여러 상태를 캡처할 수 있으므로 이러한 유형의 컴퓨팅은 더 빠르고 에너지 효율적이다.

불행하게도 아날로그 칩 역시 오류와 노이즈로 인해 어려움을 겪고 있다. 조광기로 스위치를 조정하는 것과 유사하게, 약간의 실수라도 출력을 변경할 수 있다. 유연하고 에너지 효율적이지만 대규모 AI 모델을 처리할 때 칩을 사용하기가 어렵다.

 

천국에서 이루어진 성냥

뉴런의 유연성과 디지털 프로세서의 신뢰성을 결합하면 어떨까?

이것이 NorthPole의 드라이빙 컨셉이다. 그 결과 여러 표준 테스트에서 최고의 GPU를 능가할 수 있는 스탬프 크기의 칩이 탄생했다.

팀의 첫 번째 단계는 데이터 처리를 여러 코어에 분산시키는 동시에 각 코어 내부의 메모리와 컴퓨팅 모듈을 물리적으로 가깝게 유지하는 것이었다.

IBM TrueNorth와 같은 이전 아날로그 칩은 특수 소재를 사용하여 계산과 메모리를 한 위치에 결합했다. 비표준 재료를 사용하여 아날로그 방식을 사용하는 대신 NorthPole 칩은 표준 메모리와 처리 구성 요소를 나란히 배치한다.

 

NorthPole의 나머지 디자인은 뇌의 더 큰 조직에서 차용되었다.

이 칩에는 감지, 추론 및 의사 결정을 담당하는 뇌의 가장 바깥 층인 피질과 같은 코어가 분산 배열되어 있다. 피질의 각 부분은 다양한 유형의 정보를 처리하지만 계산을 공유하고 결과를 영역 전체에 방송한다.

이러한 통신 채널에서 영감을 받아 팀은 메모리를 민주화하기 위해 칩에 두 개의 네트워크를 구축했다. 피질의 뉴런과 마찬가지로 각 코어는 자체 내부의 계산에 액세스할 수 있을 뿐만 아니라 전역 메모리에도 액세스할 수 있다. 이 설정은 데이터 처리의 계층 구조를 제거하여 모든 코어가 동시에 문제를 해결하는 동시에 결과를 공유할 수 있도록 하여 계산 시 일반적인 병목 현상을 제거한다.

 

또한 팀은 공간과 시간의 문제를 각 코어에 교묘하게 위임하여 컴퓨팅 리소스가 낭비되거나 서로 충돌하지 않도록 하는 소프트웨어도 개발했다.

이 소프트웨어는 "[칩의] 아키텍처의 모든 기능을 활용"하는 동시에 "기존 애플리케이션 및 작업 흐름"을 칩에 통합하는 데 도움이 된다고 설명했다.

IBM의 이전 두뇌 영감 아날로그 칩인 TrueNorth에 비해 NorthPole 640배 더 크고 3,000배 더 많은 계산이 필요한 AI 모델을 지원할 수 있다. 이 모든 것은 트랜지스터 수의 4배에 불과하다.

 

디지털 두뇌 프로세서

다음으로 팀은 일련의 성능 테스트에서 여러 GPU 칩과 NorthPole을 비교했다.

NorthPole은 동일한 문제에 직면했을 때 효율성이 25배 더 높았다. 이 칩은 또한 두 가지 어려운 AI 벤치마크 테스트에서 GPU에 비해 매우 빠른 속도로 데이터를 처리했다.

초기 테스트에 따르면 NorthPole은 이미 실시간 얼굴 인식이나 언어 해독에 사용할 수 있다. 이론적으로 빠른 응답 시간은 자율주행차가 순식간에 결정을 내릴 수 있도록 안내할 수도 있다.

 

컴퓨터 칩은 기로에 서 있다. 일부 전문가들은 칩에 있는 트랜지스터 수가 2년마다 두 배로 늘어난다는 무어의 법칙이 죽음의 문턱에 이르렀다고 믿는다. 아직 초기 단계이지만 뇌와 유사한 하드웨어, 양자 컴퓨팅과 같은 대체 컴퓨팅 구조가 점점 더 활발해지고 있다.

그러나 NorthPole은 반도체 기술이 여전히 제공할 수 있는 것이 많다는 것을 보여준다. 현재 칩에는 제곱밀리미터당 3,700만 개의 트랜지스터가 있다. 그러나 예측에 따르면 설정은 쉽게 20억 개로 확장될 수 있어 더 큰 알고리즘을 단일 칩에서 실행할 수 있다.

“아키텍처는 무어의 법칙을 능가하다.”고 팀은 썼다.

그들은 NorthPole과 같은 칩 설계의 혁신이 점점 더 강력해지지만 리소스를 많이 사용하는 AI 개발에 단기적인 솔루션을 제공할 수 있다고 믿는다.

 

이미지 출처: IBM

 
칩, 뇌, 칩 아키텍처, 디지털 두뇌 프로세서, 데이터, 탄소 발자국 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
최신기사