광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

보상을 통해 AI는 최고의 동작을 외워서 가장 어려운 아타리(Atari) 게임을 깬다. UberAI와 OpenAI의 연구원들은 AI에 이 재능을 부여하기 위해 팀을 구성했다.

https://singularityhub.com/2021/03/02/how-teaching-ai-to-remember-its-past-helps-it-solve-more-complex-problems/

JM Kim | 기사입력 2021/03/04 [00:10]

보상을 통해 AI는 최고의 동작을 외워서 가장 어려운 아타리(Atari) 게임을 깬다. UberAI와 OpenAI의 연구원들은 AI에 이 재능을 부여하기 위해 팀을 구성했다.

https://singularityhub.com/2021/03/02/how-teaching-ai-to-remember-its-past-helps-it-solve-more-complex-problems/

JM Kim | 입력 : 2021/03/04 [00:10]

 

보상을 통해 배우는 것이 가장 간단한 것 같다. 나는 커피를 만들고, 커피를 마시고, 행복하다. 내 두뇌는 "커피를 끓이는 것"을 보상으로 이끄는 행동으로 등록한다.

 

이것이 바로 Atari의 게임 카탈로그 대부분을 부수고 Go와 같은 전략 게임에서 인간을 제치고 승리한 것으로 유명한 알고리즘 군인 심층 강화 학습에 대한 지침이다.  여기에서 AI "에이전트"는 게임을 탐색하고 다양한 작업을 시도하고 승리할 수 있는 작업을 등록한다.

 

그다지 간단하지 않다는 점만 빼면 말이다. “커피 브루잉은 하나의 행동이 아니다. 몇 분에 걸친 일련의 작업으로 끝날 때만 보상을 받는다. 최종 제품을 맛보는 것만으로도 분쇄 거칠기, 물 대 커피 비율, 추출 온도 및 그로 인한 보상을 초래하는 무수히 많은 기타 요인을 미세 조정하는 방법을 배우는 방법은 무엇일까?

 

그것이 우리의 지저분하고 복잡한 세상에서 아이러니하게도 매우 풍부한 "희소한 보상"의 문제이다. 우리는 우리의 행동으로부터 즉시 피드백을 받지는 않는다. 비디오 게임 스타일의 소리나 커피 원두를 갈기위한 포인트가 없다. 그러나 어떻게 든 반쯤 자면서 팔과 손 동작의 전체 시퀀스를 배우고 수행할 수 있다.

 

이번 주에 UberAI OpenAI의 연구원들은 AI에 이 재능을 부여하기 위해 팀을 구성했다.

 

비결은 AI 에이전트가 성공적인 솔루션을 약속하는 이전 단계로 '돌아가도록'장려하는 것이다. 그런 다음 에이전트는 해당 상태의 기록을 유지하고 다시 로드 한 다음 다시 분기하여 첫 번째 이동에서 남겨졌을 수 있는 다른 솔루션을 의도적으로 탐색한다. 비디오 게이머는 이 아이디어에 익숙할 것이다. 라이브, 죽기, 저장된 포인트 다시 로드, 다른 작업 시도, 완벽한 실행을 위해 반복한다.

 

'Go-Explore'라고 적절하게 명명된 새로운 알고리즘 제품군은 이전의 AI가 해결할 수 없었던 Montezuma’s Revenge와 같은 악명 높은 Atari 게임을 부수고 그 과정에서 인간의 성능을 방해했다.

 

"First return, then explore": Atari games solved by Go-Explore

 

게임과 디지털 재미만이 아니다. 로봇 팔의 컴퓨터 시뮬레이션에서 팀은 Go-Explore "두뇌"로 설치하면 매우 희박한 보상이 주어졌을 때 어려운 일련의 작업을 해결할 수 있음을 발견했다. 가장 중요한 아이디어는 매우 간단하기 때문에 저자는 약물 설계 또는 언어 학습과 같은 다른 실제 문제에 적용 및 확장될 수 있다고 말한다.

 

 

 

성장통

 

알고리즘에 대해 어떻게 보상할까?

 

보상은 제작하기가 매우 어렵다고 저자는 말한다. 로봇에게 냉장고에 가도록 요청하는 문제를 생각해보라. 희소한 보상은 로봇이 목적지에 도달할 경우에만 "행복 포인트"를 줄 것이다. 이는 공간과 위험에 대한 개념이 없는 아기에게 잠재적인 장난감 지뢰밭과 냉장고를 향한 기타 장애물을 기어 가도록 요청하는 것과 유사하다.

 

"실제로 강화 학습은 매우 잘 작동한다. 피드백이 매우 풍부하다면 '이게 좋다, 그 움직임이 나쁘다, 이 움직임이 좋다, 움직임이 나쁘다'고 말할 수 있다면" 이라고 연구 저자인 Joost Huinzinga는 말했다. 그러나 피드백이 거의 제공되지 않는 상황에서는 보상이 의도적으로 막 다른 골목으로 이어질 수 있다. 무작위로 공간을 탐험하는 것은 그것을 자르지 않는다."

 

다른 극단은 더 조밀한 보상을 제공하는 것이다. 동일한 로봇 대 냉장고 예에서 봇이 여정을 진행하면서 자주 보상을 받을 수 있으며, 본질적으로 성공을 위한 정확한 레시피를 "매핑"하는 데 도움이 된다. 하지만 그것도 문제가 된다. AI의 손을 과도하게 잡고 있으면 경로에 새로 추가된 항목 (: 애완 동물)을 무시하는 매우 단단한 로봇이 되어 위험한 상황을 초래할 수 있다. 단순한 환경에서는 효과적이지만 현실에서는 충돌하는 기만적인 AI 솔루션이다.

 

우리에게 필요한 것은 두 가지 문제를 모두 해결할 수 있는 AI 에이전트라고 팀은 말했다.

 

 

 

지능형 탐사

 

열쇠는 과거로 돌아가는 것이다.

 

AI의 경우 동기 부여는 일반적으로 "새롭거나 비정상적인 상황을 탐색"에서 비롯된다. 효율적이지만 상당한 단점이 있다. 첫째, AI 에이전트는 이미 좋은 솔루션을 찾았다고 생각하기 때문에 유망한 영역으로 돌아가는 것을 조기에 멈출 수 있다. 또 다른 경우에는 문제의 다음 단계를 조사하는 방법의 메커니즘 때문에 이전 결정 지점을 잊을 수 있다.

 

복잡한 작업의 경우 최종 결과는 잠재적으로 더 나은 솔루션을 무시하면서 솔루션을 향해 무작위로 우연히 발견되는 AI이다.

 

Huinzinga "보상을 받은 후 이전에 방문했던 장소에서 분리하는 것은 어려운 게임에서 작동하지 않는다. 중요한 단서를 생략할 수 있기 때문이다." Huinzinga는 설명했다.

 

Go-Explore는 첫 번째로 돌아온 다음 탐색하는 간단한 원칙으로 이러한 문제를 해결한다. 본질적으로 이 알고리즘은 이전에 시도한 다양한 접근 방식을 저장하고 한 번 더 승리로 이어질 가능성이 더 높은 유망한 세이브 포인트를 로드하여 추가로 탐색한다.

 

조금 더 깊이 파고들면 AI는 게임의 화면 캡을 저장한다. 그런 다음 저장된 지점을 분석하고 다시 돌아갈 가능성이 있는 "저장 지점"과 유사한 이미지를 그룹화한다. 헹구고 반복한다. AI는 게임에서 최종 점수를 최대화하려고 시도하고 새로운 기록 점수를 달성하면 세이브 포인트를 업데이트한다. Atari는 일반적으로 사람들이 임의의 지점을 다시 방문하는 것을 허용하지 않기 때문에 팀은 Atari 시스템을 모방하지만 언제든지 저장 및 다시 로드와 같은 맞춤 기능을 갖춘 일종의 소프트웨어인 에뮬레이터를 사용했다.

 

트릭은 마술처럼 작동했다. 현재 강화 학습 알고리즘을 벤치마킹하는 데 일반적으로 사용되는 OpenAI 체육관에서 55개의 Atari 게임과 경쟁했을 때 Go-Explore 85% 이상의 시간 동안 최첨단 AI 경쟁자를 제압했다.

 

또한 이전에는 AI가 이길 수 없었던 게임을 분쇄했다. 예를 들어 몬테 주마의 복수는 함정과 적과 같은 장애물을 피하고 보석을 수집하면서 지하 사원의 미로를 통과하는 블록 주인공 페드로를 이동시켜야 한다. 한 번의 잘못된 점프는 다음 단계로 가는 길을 탈선시킬 수 있다. 희소한 보상의 완벽한 예이다. 보상을 받으려면 일련의 좋은 조치가 필요하다.

 

Go-Explore AI 최초로 게임의 모든 수준을 이긴 것이 아니다. 또한 낮은 수준의 강화 학습 알고리즘에 대한 이전 기록보다 높은 점수를 받았으며 인간 세계 기록을 무너뜨렸다.

 

게임 환경 밖에서도 Go-Explore는 시뮬레이션 된 로봇 팔의 성능을 높일 수 있었다. 인간이 "이 선반에 컵을 찬장에 넣어"와 같은 높은 수준의 지침을 따르는 것은 쉽지만 로봇은 컵을 잡는 것부터 찬장을 인식하는 것, 장애물을 피하면서 그쪽으로 이동하는 것, 그리고 동작을 배우는 것까지 명시적인 훈련이 필요한 경우가 많다. 내려 놓을 때 컵을 부수지 말라.

 

여기에서 현실 세계와 유사하게 디지털 로봇 팔은 가능한 4개의 선반 중 올바른 선반에 컵을 놓을 때만 보상을 받았다. 다른 알고리즘과 비교했을 때 Go-Explore는 컵을 놓는 데 필요한 움직임을 빠르게 파악했으며 경쟁업체는 컵을 안정적으로 집는 데 어려움을 겪었다.

 

 

 

힘의 결합

 

Go-Explore의 이면에 있는 "첫 번째 귀환 후 탐색"아이디어는 그 자체만으로도 이미 강력하다. 팀은 더 잘할 수 있다고 생각한다.

 

한 가지 아이디어는 세이브 포인트의 메커니즘을 변경하는 것이다. 에뮬레이터를 통해 저장된 상태를 다시 로드 하는 대신 저장된 상태를 다시 시작할 필요없이 동일한 작업을 수행하도록 신경망을 학습시킬 수 있다. 팀은 동일한 문제를 반복해서 해결하는 대신 한 번의 장애물을 극복하는 방법을 '학습'할 수 있기 때문에 AI를 더욱 스마트하게 만들 수 있는 잠재적인 방법이라고 말했다. 단점? 훨씬 더 계산 집약적이다.

 

또 다른 아이디어는 Go-Explore "모방 학습"이라고하는 대체 학습 형식과 결합하는 것이다. 여기에서 AI는 인간의 행동을 관찰하고 일련의 행동을 통해 모방한다. 연구 저자인 Adrien Ecoffet Go-Explore와 결합하면 현실 세계의 모든 복잡성과 지저분함을 처리할 수 있는 보다 강력한 로봇을 만들 수 있다고 말했다.

 

팀에게 의미는 Go-Explore를 훨씬 뛰어 넘는다. “처음 돌아온 다음 탐구라는 개념은 특히 강력해 보이며일반적으로 학습의 기본 기능이 될 수 있다.”고 제안한다. 팀은 "이러한 통찰력을 활용하는 것은일반적으로 지능적인 에이전트를 만드는 데 필수적일 수 있다."고 말했다.

 

 

 

이미지 출처: Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley Jeff Clune

 

 
인공지능, 보상 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AI바이오제약 수명연장 많이 본 기사
최신기사