광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능] DeepMind는 AI를 위한 끝없이 도전적인 가상 놀이터를 만들었다. Xland라고 불리는 이 세계는 AI 대군주가 관리하고 탐색 기술을 배워야 하는 알고리즘으로 채워진 활기찬 비디오 게임이다. 이들의 활기찬 새로운 가상세계는 끝없는 플레이로 유연한 AI를 훈련시킨다.

https://singularityhub.com/2021/08/01/deepminds-vibrant-new-virtual-world-trains-flexible-ai-with-endless-play/

JM Kim | 기사입력 2021/08/02 [00:00]

[인공지능] DeepMind는 AI를 위한 끝없이 도전적인 가상 놀이터를 만들었다. Xland라고 불리는 이 세계는 AI 대군주가 관리하고 탐색 기술을 배워야 하는 알고리즘으로 채워진 활기찬 비디오 게임이다. 이들의 활기찬 새로운 가상세계는 끝없는 플레이로 유연한 AI를 훈련시킨다.

https://singularityhub.com/2021/08/01/deepminds-vibrant-new-virtual-world-trains-flexible-ai-with-endless-play/

JM Kim | 입력 : 2021/08/02 [00:00]

 

작년에 DeepMind 연구원은 미래의 AI 개발자가 알고리즘 프로그래밍에 더 적은 시간을 할애하고 이를 훈련할 풍부한 가상세계를 생성하는 데 더 많은 시간을 할애할 수 있다고 썼다.

 

이번 주 사전 인쇄 서버 arXiv에서 발표된 새로운 논문에서 그들은 그 예측의 후반부를 매우 진지하게 받아들이고 있는 것으로 보인다.

 

이 논문의 저자들은 AI를 위한 끝없이 도전적인 가상 놀이터를 만들었다고 말했다. Xland라고 불리는 이 세계는 AI 대군주가 관리하고 탐색 기술을 배워야 하는 알고리즘으로 채워진 활기찬 비디오 게임이다.

 

게임 관리 AI는 게임 플레이 알고리즘이 학습하는 내용을 주시하고 자동으로 새로운 세계, 게임 및 작업을 생성하여 새로운 경험에 지속적으로 직면한다.

 

팀은 일부 베테랑 알고리즘이 4,000개의 Xland 세계에서 약 700,000개의 게임을 플레이하면서 340만 개의 고유한 작업에 직면했다고 말했다. 그러나 가장 주목할 만한 점은 한 게임과 관련이 없지만 모든 게임에서 유용한 일반적인 기술을 개발했다는 ​​것이다.

 

이러한 기술에는 실험, 간단한 도구 사용 및 다른 플레이어와의 협력이 포함된다. 손에 들고 있는 일반적인 기술로 인해 알고리즘은 플래그 캡처, 숨바꼭질, 태그 지정과 같은 더 복잡한 게임을 포함하여 새로운 게임에 직면했을 때 잘 수행되었다.

 

 

https://youtu.be/lTmL7jwFfdw

 

저자들은 이것이 딥 러닝의 주요 과제를 해결하기 위한 단계라고 말한다. DeepMind의 경우 Go Starcraft와 같은 게임에서 이기기 위해 특정 작업을 수행하도록 훈련된 대부분의 알고리즘은 서번트이다. 그들은 한 가지 일에는 초인적이며 나머지 일에는 쓸모가 없다. 그들은 바둑이나 체스에서 세계 챔피언을 물리칠 수 있지만 다른 일을 하려면 처음부터 다시 훈련을 받아야 한다.

 

DeepMind는 학습할 수 있는 개방형, 항상 변화하는 세계와 함께 심층 강화학습 알고리즘을 제시함으로써 그들의 알고리즘이 이전에 본 적이 없는 새로운 작업에서 "제로샷" 학습을 보여주기 시작했다고 말한다. , 눈에 보이지 않는 적절한 수준에서 새로운 작업을 수행하기 위해 재훈련이 필요하지 않다.

 

 

AI 플레이어는 주변을 두드리는 실험을 하고 결국 유용한 도구, 즉 목표로 이어지는 경사로를 찾는다. 이미지 출처: DeepMind

 

이것은 또한 끝없이 새로운 현실세계에서 상호 작용하고 탐색하고 문제를 해결할 수 있는 보다 일반적으로 가능한 알고리즘을 향한 단계이다. 그러나 Xland AI 커뮤니티가 최근에 일반화한 첫 번째 암시가 아니다.

 

OpenAI GPT-3은 주요 목적인 기이한 서면 구절을 생성할 수 있지만 간단한 산술 및 프로그래밍과 같은 다른 작업도 수행할 수 있다. 그리고 몇 가지 예를 통해 미세 조정할 수 있다. (OpenAI GPT-3 "퓨샷(few-shot)" 학습을 시연한다고 말한다.)

 

그리고 작년에 DeepMind는 자체적으로 가치 함수라고 하는 자체 코드의 핵심을 작성하는 알고리즘을 개발했다. 이 알고리즘은 보상을 예상하여 행동을 안내한다. 놀랍게도 이 알고리즘은 매우 단순한 "장난감 세계"에서 훈련을 받은 후 초인적인 수준에서 한 번도 만난 적이 없는 14개의 Atari 게임을 플레이했으며 때때로 인간이 설계한 AI와 동등한 성능을 보였다.

 

특히 알고리즘이 훈련된 "장난감 세계"가 많을수록 일반화할 수 있다. 당시 팀은 충분히 잘 설계된 훈련 세계를 통해 접근 방식이 범용 강화 학습 알고리즘을 산출할 수 있다고 추측했다.

 

Xland의 개방형 학습은 우리를 그 길로 나아가게 한다. 그러나 그 길이 어디까지 갈 것인가는 공개적이고 뜨거운 논쟁거리다.

 

여기에서 알고리즘은 비교적 단순한 세계에서 다소 단순한 게임을 하고 있다. 알고리즘이 더 복잡한 게임에서 얼마나 잘 작동하는지, 전 세계적으로는 말할 것도 없다. 그러나 Xland가 개념 증명이라면, 그들의 발견은 점점 더 정교해지는 세계가 점점 더 정교한 알고리즘을 낳을 것임을 시사할 수 있다.

 

실제로 DeepMind의 연구원들은 최근에 (철학적으로는 최소한) 강화 학습(조직의 가장 눈부신 성공 배후의 방법)이 인공 일반 지능에 도달하는 데 필요한 전부라고 주장하면서 문제를 제기했다. 한편 OpenAI 등은 고급 자연어 처리 및 이미지 생성을 위해 대규모 비지도 딥 러닝을 추구하고 있다.

 

모두가 동의하는 것은 아니다. 일부는 딥 러닝이 벽에 부딪힐 것이며 상징적 AI와 같은 다른 접근 방식과 쌍을 이루어야 한다고 믿는다. 그러나 이 분야의 개척자 세 명(Geoffrey Hinton, Yoshua Bengio, Yann LeCun)은 최근에 반대를 주장하는 논문을 공동 저술했다. 그들은 유연성 부족과 비효율성을 포함하여 딥 러닝의 단점을 인정하지만 다른 분야에 의존하지 않고 문제를 극복할 것이라고 믿는다.

 

철학적 논쟁은 제쳐 두고, 좁은 AI는 이미 큰 영향을 미치고 있다.

 

DeepMind는 최근 단백질의 모양을 예측하는 AlphaFold 알고리즘으로 많은 것을 보여주었다. 조직은 인체의 거의 모든 단백질을 포함하여 350,000개 단백질의 예측된 모양을 발표했다. 그들은 또 다른 1억 명이 진행 중이라고 말했다.

 

이를 고려하여 과학자들은 수십 년 동안 약 180,000개의 단백질 구조를 알아냈다. DeepMind의 단백질 드롭은 한 번에 거의 두 배의 수치를 기록했다. 새로 생성된 단백질 라이브러리는 과학자들에 의해 엄격하게 확인되지는 않았지만 과학자들에게 귀중한 도구가 될 것이다. 백지 상태에서 시작하는 대신 작업할 템플릿(아마도 훨씬 더)을 갖게 된다.

 

인공 일반 지능에 대한 탐구가 무엇이든지 간에, 더 많은 직업을 가진 선구자들을 위해 출마할 여지가 아직 많이 남아 있는 것 같다.

 

이미지 출처: DeepMind

 

 
인공지능, AI, 일반 인공 지능, DeepMind, AlphaFold 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AI바이오제약 수명연장 많이 본 기사