시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.04.19 [12:25]

세상을 바꾸자
AI바이오제약 수명연장
자율차,드론, 교통, 에너지,기후
유투브
신기술&메타버스AR/VR
AiMindbot과 미래 우주
챗GPT와 AI, 로봇
라이프,거버넌스, 조직, 유망직종

AI바이오제약 수명연장

보상을 통해 AI는 최고의 동작을 외워서 가장 어려운 아타리(Atari) 게임을 깬다. UberAI와 OpenAI의 연구원들은 AI에 이 재능을 부여하기 위해 팀을 구성했다.

https://singularityhub.com/2021/03/02/how-teaching-ai-to-remember-its-past-helps-it-solve-more-complex-problems/

JM Kim | 기사입력 2021/03/04 [00:10]

AI바이오제약 수명연장

보상을 통해 AI는 최고의 동작을 외워서 가장 어려운 아타리(Atari) 게임을 깬다. UberAI와 OpenAI의 연구원들은 AI에 이 재능을 부여하기 위해 팀을 구성했다.

https://singularityhub.com/2021/03/02/how-teaching-ai-to-remember-its-past-helps-it-solve-more-complex-problems/

JM Kim

| 입력 : 2021/03/04 [00:10]

보상을 통해 배우는 것이 가장 간단한 것 같다. 나는 커피를 만들고, 커피를 마시고, 행복하다. 내 두뇌는 "커피를 끓이는 것"을 보상으로 이끄는 행동으로 등록한다.

이것이 바로 Atari의 게임 카탈로그 대부분을 부수고 Go와 같은 전략 게임에서 인간을 제치고 승리한 것으로 유명한 알고리즘 군인 심층 강화 학습에 대한 지침이다. 여기에서 AI "에이전트"는 게임을 탐색하고 다양한 작업을 시도하고 승리할 수 있는 작업을 등록한다.

그다지 간단하지 않다는 점만 빼면 말이다. “커피 브루잉”은 하나의 행동이 아니다. 몇 분에 걸친 일련의 작업으로 끝날 때만 보상을 받는다. 최종 제품을 맛보는 것만으로도 분쇄 거칠기, 물 대 커피 비율, 추출 온도 및 그로 인한 보상을 초래하는 무수히 많은 기타 요인을 미세 조정하는 방법을 배우는 방법은 무엇일까?

그것이 우리의 지저분하고 복잡한 세상에서 아이러니하게도 매우 풍부한 "희소한 보상"의 문제이다. 우리는 우리의 행동으로부터 즉시 피드백을 받지는 않는다. 비디오 게임 스타일의 소리나 커피 원두를 갈기위한 포인트가 없다. 그러나 어떻게 든 반쯤 자면서 팔과 손 동작의 전체 시퀀스를 배우고 수행할 수 있다.

이번 주에 UberAI와 OpenAI의 연구원들은 AI에 이 재능을 부여하기 위해 팀을 구성했다.

비결은 AI 에이전트가 성공적인 솔루션을 약속하는 이전 단계로 '돌아가도록'장려하는 것이다. 그런 다음 에이전트는 해당 상태의 기록을 유지하고 다시 로드 한 다음 다시 분기하여 첫 번째 이동에서 남겨졌을 수 있는 다른 솔루션을 의도적으로 탐색한다. 비디오 게이머는 이 아이디어에 익숙할 것이다. 라이브, 죽기, 저장된 포인트 다시 로드, 다른 작업 시도, 완벽한 실행을 위해 반복한다.

'Go-Explore'라고 적절하게 명명된 새로운 알고리즘 제품군은 이전의 AI가 해결할 수 없었던 Montezuma’s Revenge와 같은 악명 높은 Atari 게임을 부수고 그 과정에서 인간의 성능을 방해했다.

게임과 디지털 재미만이 아니다. 로봇 팔의 컴퓨터 시뮬레이션에서 팀은 Go-Explore를 "두뇌"로 설치하면 매우 희박한 보상이 주어졌을 때 어려운 일련의 작업을 해결할 수 있음을 발견했다. 가장 중요한 아이디어는 매우 간단하기 때문에 저자는 약물 설계 또는 언어 학습과 같은 다른 실제 문제에 적용 및 확장될 수 있다고 말한다.

성장통

알고리즘에 대해 어떻게 보상할까?

보상은 제작하기가 매우 어렵다고 저자는 말한다. 로봇에게 냉장고에 가도록 요청하는 문제를 생각해보라. 희소한 보상은 로봇이 목적지에 도달할 경우에만 "행복 포인트"를 줄 것이다. 이는 공간과 위험에 대한 개념이 없는 아기에게 잠재적인 장난감 지뢰밭과 냉장고를 향한 기타 장애물을 기어 가도록 요청하는 것과 유사하다.

"실제로 강화 학습은 매우 잘 작동한다. 피드백이 매우 풍부하다면 '이게 좋다, 그 움직임이 나쁘다, 이 움직임이 좋다, 움직임이 나쁘다'고 말할 수 있다면" 이라고 연구 저자인 Joost Huinzinga는 말했다. 그러나 피드백이 거의 제공되지 않는 상황에서는 보상이 의도적으로 막 다른 골목으로 이어질 수 있다. 무작위로 공간을 탐험하는 것은 그것을 자르지 않는다."

다른 극단은 더 조밀한 보상을 제공하는 것이다. 동일한 로봇 대 냉장고 예에서 봇이 여정을 진행하면서 자주 보상을 받을 수 있으며, 본질적으로 성공을 위한 정확한 레시피를 "매핑"하는 데 도움이 된다. 하지만 그것도 문제가 된다. AI의 손을 과도하게 잡고 있으면 경로에 새로 추가된 항목 (예: 애완 동물)을 무시하는 매우 단단한 로봇이 되어 위험한 상황을 초래할 수 있다. 단순한 환경에서는 효과적이지만 현실에서는 충돌하는 기만적인 AI 솔루션이다.

우리에게 필요한 것은 두 가지 문제를 모두 해결할 수 있는 AI 에이전트라고 팀은 말했다.

지능형 탐사

열쇠는 과거로 돌아가는 것이다.

AI의 경우 동기 부여는 일반적으로 "새롭거나 비정상적인 상황을 탐색"에서 비롯된다. 효율적이지만 상당한 단점이 있다. 첫째, AI 에이전트는 이미 좋은 솔루션을 찾았다고 생각하기 때문에 유망한 영역으로 돌아가는 것을 조기에 멈출 수 있다. 또 다른 경우에는 문제의 다음 단계를 조사하는 방법의 메커니즘 때문에 이전 결정 지점을 잊을 수 있다.

복잡한 작업의 경우 최종 결과는 잠재적으로 더 나은 솔루션을 무시하면서 솔루션을 향해 무작위로 우연히 발견되는 AI이다.

Huinzinga는 "보상을 받은 후 이전에 방문했던 장소에서 분리하는 것은 어려운 게임에서 작동하지 않는다. 중요한 단서를 생략할 수 있기 때문이다."고 Huinzinga는 설명했다.

Go-Explore는 첫 번째로 돌아온 다음 탐색하는 간단한 원칙으로 이러한 문제를 해결한다. 본질적으로 이 알고리즘은 이전에 시도한 다양한 접근 방식을 저장하고 한 번 더 승리로 이어질 가능성이 더 높은 유망한 세이브 포인트를 로드하여 추가로 탐색한다.

조금 더 깊이 파고들면 AI는 게임의 화면 캡을 저장한다. 그런 다음 저장된 지점을 분석하고 다시 돌아갈 가능성이 있는 "저장 지점"과 유사한 이미지를 그룹화한다. 헹구고 반복한다. AI는 게임에서 최종 점수를 최대화하려고 시도하고 새로운 기록 점수를 달성하면 세이브 포인트를 업데이트한다. Atari는 일반적으로 사람들이 임의의 지점을 다시 방문하는 것을 허용하지 않기 때문에 팀은 Atari 시스템을 모방하지만 언제든지 저장 및 다시 로드와 같은 맞춤 기능을 갖춘 일종의 소프트웨어인 에뮬레이터를 사용했다.

트릭은 마술처럼 작동했다. 현재 강화 학습 알고리즘을 벤치마킹하는 데 일반적으로 사용되는 OpenAI 체육관에서 55개의 Atari 게임과 경쟁했을 때 Go-Explore는 85% 이상의 시간 동안 최첨단 AI 경쟁자를 제압했다.

또한 이전에는 AI가 이길 수 없었던 게임을 분쇄했다. 예를 들어 몬테 주마의 복수는 함정과 적과 같은 장애물을 피하고 보석을 수집하면서 지하 사원의 미로를 통과하는 블록 주인공 페드로를 이동시켜야 한다. 한 번의 잘못된 점프는 다음 단계로 가는 길을 탈선시킬 수 있다. 희소한 보상의 완벽한 예이다. 보상을 받으려면 일련의 좋은 조치가 필요하다.

Go-Explore는 AI 최초로 게임의 모든 수준을 이긴 것이 아니다. 또한 낮은 수준의 강화 학습 알고리즘에 대한 이전 기록보다 높은 점수를 받았으며 인간 세계 기록을 무너뜨렸다.

게임 환경 밖에서도 Go-Explore는 시뮬레이션 된 로봇 팔의 성능을 높일 수 있었다. 인간이 "이 선반에 컵을 찬장에 넣어"와 같은 높은 수준의 지침을 따르는 것은 쉽지만 로봇은 컵을 잡는 것부터 찬장을 인식하는 것, 장애물을 피하면서 그쪽으로 이동하는 것, 그리고 동작을 배우는 것까지 명시적인 훈련이 필요한 경우가 많다. 내려 놓을 때 컵을 부수지 말라.

여기에서 현실 세계와 유사하게 디지털 로봇 팔은 가능한 4개의 선반 중 올바른 선반에 컵을 놓을 때만 보상을 받았다. 다른 알고리즘과 비교했을 때 Go-Explore는 컵을 놓는 데 필요한 움직임을 빠르게 파악했으며 경쟁업체는 컵을 안정적으로 집는 데 어려움을 겪었다.

힘의 결합

Go-Explore의 이면에 있는 "첫 번째 귀환 후 탐색"아이디어는 그 자체만으로도 이미 강력하다. 팀은 더 잘할 수 있다고 생각한다.

한 가지 아이디어는 세이브 포인트의 메커니즘을 변경하는 것이다. 에뮬레이터를 통해 저장된 상태를 다시 로드 하는 대신 저장된 상태를 다시 시작할 필요없이 동일한 작업을 수행하도록 신경망을 학습시킬 수 있다. 팀은 동일한 문제를 반복해서 해결하는 대신 한 번의 장애물을 극복하는 방법을 '학습'할 수 있기 때문에 AI를 더욱 스마트하게 만들 수 있는 잠재적인 방법이라고 말했다. 단점? 훨씬 더 계산 집약적이다.

또 다른 아이디어는 Go-Explore를 "모방 학습"이라고하는 대체 학습 형식과 결합하는 것이다. 여기에서 AI는 인간의 행동을 관찰하고 일련의 행동을 통해 모방한다. 연구 저자인 Adrien Ecoffet는 Go-Explore와 결합하면 현실 세계의 모든 복잡성과 지저분함을 처리할 수 있는 보다 강력한 로봇을 만들 수 있다고 말했다.

팀에게 의미는 Go-Explore를 훨씬 뛰어 넘는다. “처음 돌아온 다음 탐구”라는 개념은 특히 강력해 보이며“일반적으로 학습의 기본 기능이 될 수 있다.”고 제안한다. 팀은 "이러한 통찰력을 활용하는 것은… 일반적으로 지능적인 에이전트를 만드는 데 필수적일 수 있다."고 말했다.

이미지 출처: Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley 및 Jeff Clune

JM Kim의 다른기사보기

인공지능, 보상 관련기사목록

[세계미래보고서]시리즈, 판매제품

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

[소멸직종 15] 소멸직종 15가지 2030년 여행사와 직원, 캐시어 점원, 패스트푸드 요리사, 우체부, 은행원, 섬유 노동자, 인쇄소, 보석상, 배달원, 텔레마케터, 어민, 법무비서관, 조립제작사,

[AI반려봇 시대가 온다 (3)] 그러면 이제 AI반려봇으로 돈을 벌어야 하나? 그렇다. 에이아이마인드봇(주) (대표이사 배영훈)라는 회사가 이미 설립되어서 AI반려봇 제작, 생산, 국내외 판매를 준비

유투브[피터디아만디스-로봇택시 등장으로 인한 운전 해방으로 연간 216시간 되돌려 받는다: Tesla 및 WAYMO] 로봇 운전사의 시대가 도래함으로 운전으로부터 해방된 이 시간은 휴식, 생산성, 심지어 여가의 시간으로 바뀔 수 있다.

T[2024년 세계 대학 순위 1위 움직임] QS 세계 대학 순위는 오랫동안 세계에서 가장 영향력 있는 대학 순위 지표 중 하나였다. 이 순위는 학술적 명성, 연구 영향력, 교육 품질 등을 기반으로 대학을 평가했다. 하지만 올해에는 지속 가능성, 고용 결과, 국제 연구 네트워크라는 세 가지 새로운 지표가 추가되었다.

[충격 흡수 소재] 금속처럼 강하지만 폼처럼 가벼운 새로운 충격 흡수 소재. 존스홉킨스대학의 연구원들은 초경량이지만 금속을 보호하는 새로운 충격 흡수 재료를 개발했다. 이 재료는 더 가볍고 강하며 무엇보다도 재사용이 가능한 헬멧, 갑옷 및 차량 부품을 만들 수 있다.

[휴머노이드 로봇, 비즈니스 혁신 촉진] 글로벌 컨설팅 기업 골드만삭스(GoldmanSachs)의 조사에 따르면, 휴머노이드 시장규모는 2035년까지 380억달러로 성장할 전망

[양자 컴퓨팅: 얼어붙은 상태에서 벗어나기] Google, IBM 및 PsiQuantum과 같은 회사는 이러한 거대한 컴퓨팅을 수용하기 위해 냉각 시스템으로 가득 찬 거대한 창고를 구상

유투브 책[2023년에 얼마나 많은 사람들이 YouTube를 사용하나 각종 통계들] 2006년 20억으로 구글이 사들인 유투브는 2005년 2월 14일에 설립, 첫비디오는 4월 23일에 게시, 지금은 20억명이 넘는 사용자보유, 인터넷사용자 43%가 매일 유투브를 본다.

마인드봇[반려로봇의 시대가 온다] 대부분의 가정에서 적어도 한 대 이상의 반려로봇을 보유하게 되는 시대는 2040년대 초반에 접어들 것으로 예상된다.

마인드봇[선택받은 가족의 등장: 사촌의 쇠퇴와 친족관계의 확장을 탐색하다] 사촌의 감소는 두드러진다. 연구 결과, 미래 세대는 과거 세대에 비해 살아있는 사촌의 수가 크게 줄어들 것으로 예상된다. 이는 어린이들이 성장하면서 형성하는 사회적 네트워크와 가족 관계에 상당한 영향을 미칠 수 있다.

AI바이오제약 수명연장 많이 본 기사

[치아 재생에 대한 레졸빈의 잠재력] 손상된 치아 치수를 재생하는 놀라운 능력을 지닌 레졸빈이라는 분자의 사용에 중점을 두고 있으며, 이는 근관 치료 및 치과 불편에 직면한 환자에게 희망을 제공한다.

[AI를 사용하여 의사가 환자에 대한 임상 메모를 자동으로 생성하도록 한다] 임상 기록 및 일반적인 서류 작업은 의사의 시간 중 엄청나게 많은 부분을 차지한다. 의사가 휴대폰에서 앱을 재생하면 프로그램이 환자와의 대화를 녹음하고 전체 임상 노트를 자동으로 생성한다. 임상 문서화를 자동화함으로써 효율성을 높이는 동시에 각 진료 중에 캡처 된 임상 데이터의 품질을 향상시킬 수 있다.

[노화역전, 주사 한방에 젊어진다.] 스탠포드 과학자들은 나이든 쥐에게 더 젊게 작용하는 면역체계를 제공하는 일회성 항체 치료법을 개발했으며, 이것이 사람에게도 효과가 있을 것으로 생각하고 있다. 이 하나의 항체가 노인들이 건강을 유지하는 열쇠가 될 수 있다.

[RF(저전력 무선주파수) AI 기반 인간 활동 모니터링의 발전] 인공 지능(AI)에 의해 추진되는 머신 비전은 이미지를 해석하는 능력에 혁명을 일으켜 자율 주행에서 의료 진단에 이르기까지 다양한 작업을 용이하게

[유전자 길이의 역할 해명] 노스웨스턴 메디슨(Northwestern Medicine)의 과학자들은 노화의 근본적인 메커니즘을 밝히는 획기적인 발견. 유전학 동향(Trends in Genetics)에 발표된 그들의 연구는 유전자 길이가 노화 과정의 중추적인 요인임을 확인

최신기사

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

S[중국 도시 토지의 45%가 인공 개발로 인해 급속히 가라앉고 있다] 중국의 가장 인구 밀도가 높은 지역들이 해수면 상승과 급격한 토지 침하라는 이중의 위협에 직면해 있다. 과학자들은 현재의 추세가 지속된다면, 2120년까지 침수되는 도시 지역이 세 배로 늘어나 최대 1억 2,800만 명의 인구가 영향을 받을 수 있다고 경고

S[돈 벌려면 미국으로, AI취업 핫스팟] 산호세, 시애틀, 샌프란시스코 등 서해안 3개 도시가 미국 AI 핫스팟 중 가장 높은 순위를 차지했다. 2024년 1분기에는 시애틀에서만 거의 3,000개의 새로운 AI 일자리가 게시되었다. 한편 산호세에서는 신규 일자리의 약 7.5%가 AI와 관련이 있다.

S[AI가 세계 언어에 어떤 영향을 미칠 것인가] 인터넷의 언어 불균형: AI 시대의 소수 언어 위기. 전세계 웹사이트의 90%는 단 10개 언어로 작성된다. 영어 중심 모델은 사람들이 모국어를 버리고 대신 온라인에서 더 일반적인 언어를 사용

마인드봇[인간형로봇] 이 로봇은 당신이 언제 웃을지 예측하고 신호에 맞춰 다시 웃어. 로봇의 경우, 진정한 미소를 찾으려는 시도는 인간과 비슷할 정도로 가깝지만 약간의 불안감을 주는 불쾌한 계곡에 빠지는 경우가 많다

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 직원게시판 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

AI넷ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AI넷. All rights reserved. (This is a non-profit organization/a free newspaper.)