광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능] OpenAI의 새로운 AI는 70,000시간 동안 유튜브를 시청하여 온라인 게임인 마인크래프트를 플레이하는 방법을 배웠다. 인공지능은 미세 조정으로 더 집중된 데이터 세트로 모델을 훈련하며 강화 학습을 통해 추가로 미세 조정한 후 다이아몬드 곡괭이를 만드는 방법을 배웠다. 이 기술은 인간 플레이어가 달성하는 데 약 20분과 24,000번의 행동이 필요하다.

https://singularityhub.com/2022/06/26/openais-new-ai-learned-to-play-minecraft-by-watching-70000-hours-of-youtube/

JM Kim | 기사입력 2022/06/28 [00:00]

[인공지능] OpenAI의 새로운 AI는 70,000시간 동안 유튜브를 시청하여 온라인 게임인 마인크래프트를 플레이하는 방법을 배웠다. 인공지능은 미세 조정으로 더 집중된 데이터 세트로 모델을 훈련하며 강화 학습을 통해 추가로 미세 조정한 후 다이아몬드 곡괭이를 만드는 방법을 배웠다. 이 기술은 인간 플레이어가 달성하는 데 약 20분과 24,000번의 행동이 필요하다.

https://singularityhub.com/2022/06/26/openais-new-ai-learned-to-play-minecraft-by-watching-70000-hours-of-youtube/

JM Kim | 입력 : 2022/06/28 [00:00]

2020, OpenAI의 머신러닝 알고리즘 GPT-3은 인터넷에서 스크랩한 수십억 개의 단어를 섭취한 후 잘 만들어진 문장을 뱉어내기 시작했을 때 사람들을 놀라게 했다. 올해 텍스트와 이미지에 대해 훈련을 받은 GPT-3의 사촌인 DALL-E 2는 말을 타고 있는 우주비행사의 초현실적인 이미지를 만들기 시작하면서 온라인에서 비슷한 반향을 일으켰고, 최근에는 그렇지 않은 사람들의 이상하고 사실적인 얼굴을 만들기 시작했다. 존재하지 않는다.

 

이제 회사는 최신 AI가 유튜브에서 사람들이 게임을 하는 것을 보여주는 약 70,000시간의 비디오를 본 후 마인크래프트를 플레이하는 법을 배웠다고 말한다.

 

광산 학교

 

훨씬 단순한 "샌드박스버전의 게임에서 작동하는 수많은 이전 마인크래프트 알고리즘과 비교할 때 새로운 AI는 표준 키보드 및 마우스 명령을 사용하여 인간과 동일한 환경에서 재생된다.

 

작업을 자세히 설명하는 블로그 게시물과 사전 인쇄에서 OpenAI 팀은 알고리즘이 기본적으로 나무 베기, 판자 만들기, 테이블 만들기와 같은 기본 기술을 배웠다고 말한다. 그들은 또한 그것이 수영, 사냥, 요리 및 "기둥 점프"를 관찰했다.

 

"우리가 아는 한, 끌어서 놓기 인벤토리 관리 및 항목 제작을 포함하여 수정되지 않은 완전한 인간 작업 공간에서 작동하는 출판된 작업은 없다."라고 저자는 논문에서 썼다.

 

미세 조정으로 즉, 더 집중된 데이터 세트로 모델을 훈련하는 것이다. 그들은 알고리즘이 이러한 모든 작업을 보다 안정적으로 수행한다는 것을 발견했지만, 또한 나무와 석기 도구를 제작하고 기본 쉼터를 만들고, 마을을 탐험하고, 상자를 습격함으로써 기술 능력을 향상시키기 시작했다.

 

강화 학습을 통해 추가로 미세 조정한 후 다이아몬드 곡괭이를 만드는 방법을 배웠다. 이 기술은 인간 플레이어가 달성하는 데 약 20분과 24,000번의 행동이 필요하다.

 

이것은 주목할 만한 결과이다. AI는 마인크래프트의 광범위한 게임 플레이로 오랫동안 어려움을 겪었다. 인공지능이 이미 숙달한 체스나 바둑 같은 게임은 목표가 뚜렷하고 그 목표를 향한 진척도를 측정할 수 있다. 바둑을 정복하기 위해 연구원들은 알고리즘에 목표가 주어지고 그 목표를 향한 진전에 대해 보상을 받는 강화 학습을 사용했다. 반면에 마인크래프트는 가능한 목표의 수에 제한이 없고 진행이 덜 선형적이며 심층 강화 학습 알고리즘은 일반적으로 바퀴를 돌고 있다.

 

예를 들어 AI 개발자를 위한 2019 MineRL 마인크래프트 대회에서 660개의 제출 중 어느 것도 대회의 비교적 단순한 목표인 다이아몬드 채굴 목표를 달성하지 못했다.

 

창의성에 대한 보상과 문제에 컴퓨팅 성능을 던지는 것이 항상 정답은 아니라는 점을 보여주기 위해 MineRL 주최자는 참가자에게 엄격한 제한을 두었다. 참가자에게는 NVIDIA GPU 1개와 1,000시간의 게임 플레이 기록이 허용되었다. 참가자들이 훌륭하게 수행했지만 더 많은 데이터와 720개의 NVIDIA GPU로 달성한 OpenAI 결과는 컴퓨팅 성능에 여전히 이점이 있음을 보여주는 것 같다.

 

AI가 교묘해진다

 

마인크래프트용 비디오사전훈련(VPT) 알고리즘을 통해 OpenAI GPT-3  DALL-E와 함께 사용되는 접근 방식으로 되돌아갔다. , 인간이 만든 콘텐츠의 거대한 데이터 세트에 대한 알고리즘 사전 훈련이다. 그러나 알고리즘의 성공은 컴퓨팅 성능이나 데이터만으로는 가능하지 않았다. 이전에는 많은 비디오로 마인크래프트 AI를 훈련하는 것이 실용적이지 않았다.

 

원시 비디오 푸티지는 GPT-3  DALL-E와 같은 콘텐츠 생성기만큼 행동 AI에 유용하지 않다. 사람들이 무엇을 하는지 보여주지만 그들이 어떻게 하는지는 설명하지 않는다. 비디오를 작업에 연결하는 알고리즘에는 레이블이 필요하다. 예를 들어 플레이어의 개체 컬렉션을 보여주는 비디오 프레임은 인벤토리를 여는 데 사용되는 명령 키 "E"와 함께 "인벤토리"라는 레이블이 지정되어야 한다.

 

70,000시간 분량의 비디오에서 모든 프레임에 레이블을 지정하는 것은... 미친 짓이 될 것이다. 따라서 팀은 기본 마인크래프트 기술을 기록하고 레이블을 지정하기 위해 Upwork 계약자에게 비용을 지불했다. 그들은 이 비디오 중 2,000시간을 사용하여 두 번째 알고리즘에 마인크래프트 비디오에 레이블을 지정하는 방법을 가르쳤고 해당 알고리즘인 IDM 70,000시간 분량의 유튜브 영상에 주석을 달았다. (팀은 키보드 및 마우스 명령에 레이블을 지정할 때 IDM 90% 이상 정확했다고 말한다.)

 

온라인에서 행동 데이터 세트의 잠금을 해제하기 위해 데이터 레이블링 알고리즘을 훈련하는 인간의 이러한 접근 방식은 AI가 다른 기술도 배우는 데 도움이 될 수 있다. 연구원은 "VPT는 에이전트가 인터넷에서 방대한 수의 비디오를 보고 행동하는 법을 배울 수 있도록 하는 길을 열어준다."라고 썼다. 마인크래프트 외에도 OpenAI VPT가 프롬프트에서 컴퓨터를 작동하는 알고리즘과 같은 새로운 실제 응용 프로그램을 가져올 수 있다고 생각한다(: 랩톱에서 문서를 찾아 상사에게 이메일로 보내달라고 요청한다고 상상해 보라).

 

다이아몬드는 영원하지 않다

 

아마도 MineRL 대회 주최측의 안타까운 일이지만, 결과는 컴퓨팅 성능과 리소스가 여전히 가장 진보된 AI의 바늘을 움직이고 있음을 보여주는 것 같다.

 

컴퓨팅 비용은 신경쓰지 말라. OpenAI Upwork 계약업체에만 160,000달러가 든다고 말했다. 공정하기는 하지만 전체 데이터 세트에 수동으로 레이블을 지정하는 것은 수백만 달러에 이르렀고 완료하는 데 상당한 시간이 걸렸을 것이다. 컴퓨팅 성능이 무시할 수 없는 수준은 아니었지만 실제로는 모델이 상당히 작았다. VPT의 수억 개의 매개변수는 GPT-3의 수천억 개보다 훨씬 적다.

 

그래도 데이터와 컴퓨팅을 덜 사용하는 영리한 새로운 접근 방식을 찾으려는 노력은 유효하다. 어린이는 한두 개의 비디오를 보고 마인크래프트 기본 사항을 배울 수 있다. 오늘날의 AI는 간단한 기술을 배우기 위해 훨씬 더 많은 것을 필요로 한다. AI를 더 효율적으로 만드는 것은 크고 가치 있는 과제이다.

 

어쨌든 이번에는 OpenAI가 공유 분위기다. 연구원들은 VPT에 위험이 없다고 말한다. 오용을 부분적으로 제한하기 위해 GPT-3 DALL-E와 같은 알고리즘에 대한 액세스를 엄격하게 제어했지만 현재로서는 위험이 최소화된다. 그들은 데이터, 환경 및 알고리즘을 오픈 소스로 제공했으며 MineRL과 파트너 관계를 맺고 있다. 올해의 참가자는 최신 마인크래프트 AI를 무료로 사용, 수정 및 미세 조정할 수 있다.

 

이번에는 다이아몬드 채굴을 훨씬 능가할 가능성이 높다.

 

이미지 출처: SIMON LEE / Unsplash

 
인공지능, 머신러닝, 마인크래프트, 강화학습 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AI바이오제약 수명연장 많이 본 기사
최신기사