[로봇훈련, 개처럼 훈련] 개처럼 로봇을 훈련시키면 빨리 모든 것을 배운다. 개 훈련시 며칠만에 트릭을 마스터하듯이 로봇도 순식간에 훈련이 된다.

개 훈련시 한 달이 필요하지 않고 강화학습을 통해 단 며칠 만에 새로운 "트릭"을 마스터했다.

트릭을위한 치료는 개 훈련을 위해 작동하며 AI로봇도 마찬가지로 개처럼 훈련하면 손쉽게 훈련이 된다.

Johns Hopkins의 새로운 연구에서 얻은 내용이다. 연구원들은 개가 새로운 트릭을 배우는 방식을 모방하여 로봇이 실제 세계에서 다단계 작업을 수행하는 방법을 빠르게 학습 할 수있는 새로운 교육시스템을 개발했다.

강화 학습

언젠가는 AI 로봇이 우리 집을 청소하고, 노인을 돌보고, 우리가 하고 싶지 않은 지루하고 더럽고 위험한 일을 모두 할 수있게된다.

그러나 현실 세계는 복잡하다. 개발자는 작업에서 배우도록 로봇을 교육해야한다. 예를 들어 가능한 모든 더러운 접시를 인식하도록 접시청소로봇을 프로그래밍하는 것은 불가능하지만 익숙하지 않은 접시가 싱크대에 발견되면 어떻게해야하는지 훈련시키면 간단하다.

개발자가 AI를 교육하는 한 가지 방법은 가상세계를 탐험하고 올바른 일을 할 때 "보상"하는 것이다. 이 기술을 강화학습이라고한다. 우리가 개를 훈련시키는 방법과 다르지 않다. 개는 속임수를 사용하고 치료를받고 보상을 받는다.

효과적 일 수 있지만 강화학습은 시간이 많이 걸릴 수도 있다. AI는 보상가치가있는 트릭에 착수하기 전에 많은 일을 시도 할 수 있다.

이러한 한계를 극복하기 위해 JHU팀은 긍정적인 작업일정 (SPOT)이라고 부르는 새로운 강화학습 프레임워크를 개발했다.

"여기서 질문은 우리가 로봇이 기술을 배우게하는 방법이었다. " 주 저자 Andrew Hundt는 보도자료에서 "나는 개를 키웠기 때문에 보상이 효과가 있다는 것을 알고 있으며 이것이 제가 학습알고리즘을 설계한 방법에 대한 영감이었다."

SPOT 스택보기

SPOT 프레임워크에서 로봇의 "보상"은 맛있는 음식이 아니라 숫자 점수이다. 한편 "트릭"은 여러 블록을 서로 쌓아 올리는 것이다.

연구자들은 훈련시간을 단축하는 한 가지 방법은 "하위작업"을 수행한 AI에 대해 보상하는 것이었다. 이것은 개가 앉도록 훈련시키고 엉덩이를 낮추기 시작하면 보상을 주는 것과 동일하다. 개는 원하는대로 정확히 하지 않았지만 올바른 경로에 있다.

“100% 정확도를 달성하는 데 보통 한 달이 걸리지만 이틀 만에 할 수있었다.”

또한 AI가 블록을 쌓은 후 넘어뜨리는 것과 같이 이전 진행상황을 부정하는 작업을 수행하여 점수를 잃는 경우에도 도움이되었다. 이를 "진행 반전"이라고한다.

그들은 또한 AI에 상식을 코딩하여 막다른 골목에서 시간을 낭비하지 않고 더 빨리해야 할 일을 인식하기 위해 직감으로 미리 프로그래밍했다.

Hundt는 Freethink에“(G) 허공에서 긁는 것은 로봇의 시간만큼 가치가 없지만 (이후) 로봇은 시행착오를 통해 학습하므로 일반적으로 이러한 직관을 갖지 못했을 것이다. "우리는 로봇이 이 상식적 지식을 안전점검에 통합 할 수있는 실용적인 방법을 개발했다. 이 방법은 시도할 가치가없는 작업을 건너 뛰었다."

SPOT 프레임 워크의 미래

전체적으로 그들의 프레임워크를 통해 가상세계의 AI뿐만 아니라 실제 로봇을 훈련시켜 다른 일반적인 강화 학습 방법보다 훨씬 빠르게 다단계 작업을 정확하게 완료 할 수있었다.

Hundt는 보도자료에서 “(로봇)은 최고의 보상을 받기 위해 올바른 행동을 빠르게 학습한다. “사실, 로봇이 100% 정확도를 달성하는 데는 한 달의 연습이 필요했지만 이틀 만에 할 수있었다.”

그의 희망은 SPOT프레임워크가 언젠가는 AI개발자가 블록쌓기보다 훨씬 더 복잡한 작업을 수행하도록 로봇을 훈련시키는 데 도움이 될 수 있다는 것이다.

"우리는 추가 개발을 통해 이 기술이 재택 간호 및 수술에서 창고 보관, 심지어 자율주행자동차에 이르기까지 다양한 산업을 더 나은 방향으로 바꿀 잠재력이 있다고 믿는다."라고 그는 Freethink에 말했다. FreeThink.com