광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능] 하이퍼네트워크는 백만 개의 예제 알고리즘의 내부 연결(또는 매개변수)을 학습하여 새로운 훈련되지 않은 알고리즘의 매개변수를 미리 구성할 수 있으며 GHN-2라고 하는 AI는 훈련되지 않은 신경망의 매개변수를 몇 초 만에 예측하고 설정할 수 있다. 이 AI는 새로운 AI를 더 빠르게 구축하는 데 도움이 되는 백만 개의 알고리즘 설계를 학습했다.

https://singularityhub.com/2022/01/31/this-ai-learned-the-design-of-a-million-algorithms-to-help-build-new-ais-faster/

JM Kim | 기사입력 2022/02/01 [00:00]

[인공지능] 하이퍼네트워크는 백만 개의 예제 알고리즘의 내부 연결(또는 매개변수)을 학습하여 새로운 훈련되지 않은 알고리즘의 매개변수를 미리 구성할 수 있으며 GHN-2라고 하는 AI는 훈련되지 않은 신경망의 매개변수를 몇 초 만에 예측하고 설정할 수 있다. 이 AI는 새로운 AI를 더 빠르게 구축하는 데 도움이 되는 백만 개의 알고리즘 설계를 학습했다.

https://singularityhub.com/2022/01/31/this-ai-learned-the-design-of-a-million-algorithms-to-help-build-new-ais-faster/

JM Kim | 입력 : 2022/02/01 [00:00]

최근 몇 년 동안 급증하는 AI 규모를 놓치기 어려웠다. 가장 진보된 알고리즘은 현재 수천억 개의 연결을 가지고 있으며 이를 훈련시키는 데 수백만 달러와 슈퍼컴퓨터가 필요하다. 그러나 큰 AI가 눈길을 끄는 만큼 발전은 규모에 관한 것이 아니다. 스펙트럼의 반대편에 있는 작업은 해당 분야의 미래에 중요하다.

 

일부 연구원들은 AI 구축을 더 빠르고 효율적이며 접근하기 쉽게 만들기 위해 노력하고 있으며 개선이 필요한 한 가지 영역은 학습 프로세스 자체이다. AI 모델과 AI 모델이 제공하는 데이터 세트가 기하급수적으로 증가했기 때문에 고급 모델은 슈퍼컴퓨터에서도 훈련하는 데 며칠 또는 몇 주가 걸릴 수 있다.

 

더 좋은 방법이 없을까? 아마도.

 

사전 인쇄 서버 arXiv에 게시된 새 논문에서는 "하이퍼네트워크"라고 하는 알고리즘 유형이 훈련 프로세스를 훨씬 더 효율적으로 만드는 방법을 설명한다. 연구의 하이퍼네트워크는 백만 개의 예제 알고리즘의 내부 연결(또는 매개변수)을 학습하여 새로운 훈련되지 않은 알고리즘의 매개변수를 미리 구성할 수 있었다.

 

GHN-2라고 하는 AI는 훈련되지 않은 신경망의 매개변수를 몇 초 만에 예측하고 설정할 수 있다. 그리고 대부분의 경우 GHN-2의 매개변수를 사용하는 알고리즘은 수천 번의 훈련을 거친 알고리즘과 마찬가지로 수행되었다.

 

개선의 여지가 있으며 이 방법을 사용하여 개발된 알고리즘은 최첨단 결과를 달성하기 위해 여전히 추가 교육이 필요하다. 그러나 이 접근 방식은 AI를 구축하는 데 필요한 에너지, 컴퓨팅 성능 및 현금을 줄이는 경우 현장에 긍정적인 영향을 미칠 수 있다.

 

AI 자동화

 

머신러닝은 부분적으로 자동화되어 있지만, 즉 아무도 머신러닝 알고리즘에 작업을 수행하는 방법을 정확히 알려주지 않는다. 유용할 만큼 충분히 높은 수준에서 작업을 학습할 수 있도록 신경망의 내부 설정을 조정하고 조정하려면 상당한 기술과 경험이 필요하다.

 

DeepMind의 공동 창립자인 Demis Hassabis 2016 Wired와의 인터뷰에서 "선수가 아니라 코치가 되는 것과 거의 비슷하다무엇을 하라고 직접 지시하는 것이 아니라 이러한 일을 꾀하는 것이다."고 말했다.

 

리프트를 줄이기 위해 연구원들은 예를 들어 새 알고리즘에 대한 이상적인 아키텍처를 찾는 것과 같이 이 프로세스의 주요 단계를 자동화하는 도구를 개발해 왔다. 신경망의 아키텍처는 인공 뉴런의 레이어 수와 이러한 레이어가 함께 연결되는 방식과 같은 고급 항목이다. 최상의 아키텍처를 찾는 데는 상당한 시행착오가 필요하며 이를 자동화하면 엔지니어의 시간을 절약할 수 있다.

 

그래서 2018년에 Google Brain과 토론토 대학교의 연구원 팀이 작업을 수행하기 위해 그래프 하이퍼네트워크라는 알고리즘을 구축했다. 물론 그들은 실제로 많은 후보 아키텍처를 훈련하고 어떤 것이 가장 좋은지 보기 위해 서로 경쟁할 수 없었다. 가능성의 집합은 거대하고 하나씩 훈련하는 것은 금세 손을 뗄 수 없을 것이다대신 하이퍼네트워크를 사용하여 후보 아키텍처의 매개변수를 예측하고 작업을 통해 실행한 다음 순위를 지정하여 가장 성능이 좋은 아키텍처를 확인했다.

 

새로운 연구는 이 아이디어를 기반으로 한다. 그러나 팀은 아키텍처의 순위를 매기기 위해 하이퍼네트워크를 사용하는 대신 매개변수 예측에 집중했다. 그들은 매개변수의 값을 예측하는 데 전문적인 하이퍼네트워크를 구축함으로써 새로운 알고리즘에 적용할 수 있을 것이라고 생각했다. 그리고 일반적으로 훈련이 시작되는 방식인 임의의 값 집합으로 시작하는 대신 알고리즘이 훈련에서 큰 우위를 점할 수 있다.

 

유용한 AI 매개변수 선택기를 구축하려면 양질의 심층 훈련 데이터 세트가 필요하다. 그래서 팀은 GHN-2를 훈련시키기 위해 백만 개의 가능한 알고리즘 아키텍처 중 하나를 만들었다. 데이터 세트가 너무 크고 다양하기 때문에 팀은 GHN-2가 이전에 본 적이 없는 아키텍처로 잘 일반화될 수 있음을 발견했다암스테르담에 있는 구글 리서치(Google Research) 두뇌 팀의 연구 과학자인 토마스 키프(Thomas Kipf)는 최근 콴타에 "예를 들어 사람들이 사용하는 모든 전형적인 최첨단 아키텍처를 설명할 수 있다"고 말했다. "그것은 하나의 큰 기여이다."

 

훈련 후 팀은 GHN-2의 속도를 측정하고 예측을 사용하는 알고리즘을 전통적으로 훈련된 알고리즘과 비교했다.

 

결과는 인상적이었다.

 

전통적으로 알고리즘은 SGD(확률적 경사하강법 stochastic gradient descent)라는 프로세스를 사용하여 신경망 연결을 점진적으로 조정한다. 알고리즘이 작업을 수행할 때마다 실제 출력이 원하는 출력(고양이 또는 개의 이미지일까?)과 비교되고 네트워크의 매개변수가 조정된다. 수천 또는 수백만 번의 반복을 통해 훈련은 알고리즘을 오류가 최소화되는 최적의 상태로 조금씩 이동한다.

 

훈련 없이 GHN-2의 예측을 사용하는 알고리즘은 수천 번의 반복을 통해 SGD로 훈련된 알고리즘의 정확도와 일치했다. 그러나 결정적으로 GHN-2는 모델의 매개변수를 예측하는 데 1초 미만이 걸렸지만 전통적으로 훈련된 알고리즘은 동일한 수준에 도달하는 데 약 10,000배 더 오래 걸렸다.

 

분명히 말해서, 팀이 달성한 성과는 아직 최첨단이 아니다. 대부분의 머신러닝 알고리즘은 더 높은 표준에 대해 훨씬 더 집중적으로 훈련된다. 그러나 GHN-2와 같은 알고리즘이 매개변수 세트로 시작하여 예측이 정확하지 않더라도(가능성이 있는 결과) 일련의 무작위 매개변수로 시작하는 것보다 훨씬 우수한 방법의 60%이다. 알고리즘은 최적의 상태에 도달하기 위해 더 적은 학습 주기가 필요하다.

 

DeepMind Peter Velicković "결과는 확실히 매우 인상적이다."라고 Quanta에 말했다. "기본적으로 에너지 비용을 크게 줄였다."

 

10억 매개변수 모델이 1조 매개변수 모델로 바뀌면서 무차별 대입을 보완하기 위해 우아한 솔루션을 만드는 연구원을 보는 것은 상쾌하다. 효율성은 향후 몇 년 동안 규모 만큼이나 중요하게 여겨질 것 같다.

 

이미지 출처: Leni Johnston / Unsplash

 
인공지능, 머신러닝, 하이퍼네트워크 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사