광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

GPU는 심층 신경망 훈련에서 더 빠를 뿐만 아니라 더 나을 수 있다. Sony와 협력하여 폴란드와 일본의 연구원들이 CPU가 아닌 GPU에서 훈련된 머신 러닝 시스템은 훈련 과정에서 더 적은 오류를 포함하고 우수한 결과를 생성할 수 있으며, 이는 GPU가 이러한 작업을 단순히 더 나은 것보다 더 빠르게 수행한다는 일반적인 이해와 모순된다는 증거를 찾았다.

https://www.unite.ai/gpus-may-be-better-not-just-faster-at-training-deep-neural-networks/

JM Kim | 기사입력 2021/09/08 [00:00]

GPU는 심층 신경망 훈련에서 더 빠를 뿐만 아니라 더 나을 수 있다. Sony와 협력하여 폴란드와 일본의 연구원들이 CPU가 아닌 GPU에서 훈련된 머신 러닝 시스템은 훈련 과정에서 더 적은 오류를 포함하고 우수한 결과를 생성할 수 있으며, 이는 GPU가 이러한 작업을 단순히 더 나은 것보다 더 빠르게 수행한다는 일반적인 이해와 모순된다는 증거를 찾았다.

https://www.unite.ai/gpus-may-be-better-not-just-faster-at-training-deep-neural-networks/

JM Kim | 입력 : 2021/09/08 [00:00]

예측 심층 신경망 훈련에 대한 GPU 불확실성의 영향이라는 제목의 연구는 Adam Mickiewicz 대학의 심리학 및 인지 과학 학부와 일본 대학 2곳, SONY Computer Science Laboratories에서 진행되었다.  

 

이 연구는 다양한 하드웨어 및 소프트웨어 구성에 직면하여 심층 신경망이 나타내는 '불확실성'이 더 비싸고 점점 더 희소해지는 그래픽 처리 장치를 선호한다고 제안하고 테스트에서 CPU에 대해서만 훈련된 심층 신경망이 더 높은 오류율을 생성한다는 것을 발견했다. 동일한 에포크 수(시스템이 세션 과정에서 훈련 데이터를 재처리하는 횟수).

 

이 문서의 추가 예제에서 (아래 두 행) 다양한 GPU에서 얻은 유사한 결과 품질과 (첫 번째 행) 매우 유능한 CPU에서 얻은 열등한 결과를 본다. 출처: https://arxiv.org/pdf/2109.01451.pdf 

 

 

이상한 현상

이러한 예비 연구 결과는 널리 사용되는 머신러닝 알고리즘에 균일하게 적용되지 않으며 간단한 자동 인코더 아키텍처의 경우 이러한 현상이 나타나지 않는다. 

그럼에도 불구하고 이 연구는 복잡한 신경망에서 훈련의 효율성을 위한 가능한 '탈출 속도'를 암시한다. 여기서 동일한 작업을 더 낮은 속도와 더 많은 훈련 시간으로 처리하면 수학적 반복 루틴에서 기대하는 성능의 동등성을 얻지 못한다.

 

연구원들은 이러한 성능 격차가 특정 유형의 신경망에 특정할 수 있으며, 종종 궁극적으로 극복해야 할 장애물로 여겨지는 GPU 특정 처리의 불확실한 측면이 주목할 만한 이점을 제공할 뿐만 아니라 결국 의도적으로 의도적으로 발생할 수 있다고 제안한다. 이후 시스템에 통합된다. 이 논문은 또한 이번 발견이 뇌 관련 계산 처리에 대한 더 깊은 통찰력을 제공할 수 있다고 제안한다.

 

GPU에서 이러한 방식으로 결과의 효율성과 품질을 높이는 특성을 식별하면 '블랙박스' AI 아키텍처에 대한 더 깊은 통찰력을 얻고 CPU 성능을 향상시킬 가능성이 있다. 현재로서는 근본적인 원인을 파악하기 어렵다.

 

오토인코더/Autoencoder VS 프레드넷/PredNet

이상 현상을 연구하는 데 연구원들은 기본 자동 인코더와 인간 대뇌 피질의 행동을 탐색하고 복제하려고 설계된 2016년 하버드 대학의 예측 신경망 프레드넷/PredNet을 사용했다. 

두 시스템 모두 비지도 학습(레이블이 생략된 데이터 포함)을 통해 적절한 이미지를 합성하도록 설계된 심층 신경망이지만 자동 인코더는 배치당 하나의 이미지를 선형으로 처리하고 반복되는 파이프라인에서 다음 이미지로 출력을 생성한다. 오토인코더/Autoencoder는 MNIST 필기 데이터베이스에서 훈련되었다.

 

연구원 테스트의 Autoencoder는 28×28 픽셀에서 60,000개의 훈련 이미지, 그레이 스케일 유도를 위해 앤티 앨리어싱된 60,000개의 훈련 이미지 및 10,000개의 테스트 이미지로 구성된 MNIST 데이터베이스에서 훈련되었다. 

 

대조적으로, PredNet은 복잡한 비디오 입력을 평가하며, 이 연구의 경우 플로리다 올랜도의 디즈니 월드에서 하루의 광범위한 신체 착용 비디오 영상을 특징으로 하는 FPSI 데이터 세트에 대해 교육을 받았다(디즈니는 연구원 중 하나였다. 2012년 논문에서).

 

FPSI의 이미지 시퀀스, Disney World에서 하루의 1인칭 시점을 보여준다. 

두 아키텍처는 복잡성 측면에서 매우 다르다. Autoencoder는 목표값을 예측하기 보다는 이미지를 재구성하도록 설계되었습니다. 대조적으로, PredNet은 4개의 레이어를 특징으로 하며, 각 레이어는 LSTM(convolutional long short-term memory)을 사용하는 표현 뉴런으로 구성된다.

 

레이어는 컨텍스트 예측을 출력한 다음 네트워크 전체에 전파되는 오류 항을 생성하기 위해 대상과 비교된다. 두 모델 각각은 비지도 학습을 사용한다.

 

Autoencoder의 단순하고 선형적인 아키텍처와 PredNet의 보다 미로적이고 재귀적인 네트워크. 

두 시스템 모두 GPU가 없는 CPU(Intel i5-4590, i7-6800K, i5-7600K 또는 AMD Ryzen-5-3600)와 GPU가 있는 CPU(Intel i5-7600K + NVIDIA)를 포함한 다양한 하드웨어 및 소프트웨어 구성에서 테스트되었다. GTX-750Ti, i5-7600K + GTX-970, i7-6700K + GTX-1080, i7-7700K + GTX-1080Ti, i7-9700 + RTX-2080Ti, i5-7600K + RTX-2060 슈퍼, AMD Ryzen-5- 3600 + RTX-2070 super 또는 i5-9400 + Titan-RTX).

대화형 프로세스 뷰어 htop을 사용하여 단일 스레드(Intel i7-6800K), 4개 스레드(Intel i5-4590 및 i5-7600K) 또는 6개 스레드(AMD 라이젠-5-3600). 

안장 포인트

 

자동 인코더에서 cuDNN이 있거나 없는 모든 구성의 평균 차이는 중요하지 않았다. PredNet의 경우 CPU와 GPU 훈련 간의 손실 평가 및 품질에서 눈에 띄는 차이로 인해 결과가 더 놀라웠다.

 

4개의 CPU와 8개의 GPU에 걸친 PredNet 훈련의 평균 손실 결과는 네트워크가 250개 배치의 5000개 비디오 프레임에 대해 훈련되었으며 마지막 1000개 프레임(50개 배치)에 대한 평균 손실이 표시된다. cuDNN이 꺼져 있다. 

연구원들은 '메커니즘은 불분명하지만 GPU 하드웨어는 DNN 훈련을 발전시킬 수 있는 능력이 있는 것 같다'고 결론지었다. 결과는 GPU가 안장점을 피하는 데 더 나을 수 있음을 나타낸다. 즉, 경사 하강의 영역이 경사면의 바닥을 설명한다.

 

경사하강 시 슬로프의 최하점은 명백한 이유로 명명된 '안장점'이다. 

출처: https://www.pinterest.com.au/pin/436849232581124086/

 

안장점은 장애물이기는 하지만 최근 SGD(stochastic gradient descent) 최적화에 대한 생각에서 쉽게 해결할 수 있는 것으로 무시되어 왔다. 안장 지점을 다시 방문해야 한다.

 
GPU, 머신러닝, 심층 신경망 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
최신기사