마인드봇[RethinkX- 더 저렴하고, 더 빠르고, 더 나은: 로봇공학과 AI의 융합 기술이 혁신을 위한 엄청난 기회를 제공하는 방식] 가격이 빠르게 하락하고 기능이 증가하는 새로운 기술(인공지능(AI), 리튬이온 배터리, 적외선 카메라, 라이더 레이저 거리 감지기, 액추에이터, 3D프린팅 등)이 모두 동시에 융합되어 우리가 막 엿보기 시작한 완전히 새로운 용도가 열리고 있다.
마인드봇[RethinkX- 더 저렴하고, 더 빠르고, 더 나은: 로봇공학과 AI의 융합 기술이 혁신을 위한 엄청난 기회를 제공하는 방식] 가격이 빠르게 하락하고 기능이 증가하는 새로운 기술(인공지능(AI), 리튬이온 배터리, 적외선 카메라, 라이더 레이저 거리 감지기, 액추에이터, 3D프린팅 등)이 모두 동시에 융합되어 우리가 막 엿보기 시작한 완전히 새로운 용도가 열리고 있다.
더 저렴하고, 더 빠르고, 더 나은: 로봇공학과 AI의 융합 기술이 혁신을 위한 엄청난 기회를 제공하는 방식
파괴는 기술의 융합에서 비롯된다. 예를 들어 자동차는 주로 내연 기관과 자전거 부품에서 탄생했다. 최초의 상용 자동차인 칼 벤츠의 1885년 특허 모터 왜건 사진을 보라. 당시 자전거와 동일한 부품으로 만들어졌다. 즉, 관형 강철, 단단한 고무 스포크 타이어, 체인 및 기어 구동 장치이다. 자동차를 발명하기 위해 바퀴를 다시 발명할 필요는 없다. 기존 자전거 부품과 엔진을 모터화된 마차 형태로 조립하는 방법만 찾으면 된다.
벤츠의 1885년 특허 모터 왜건, 출처: 위키피디아
더 좋고, 더 빠르고, 더 저렴하다.
새로운 기술은 기존 제품보다 근본적으로 더 나은 가치를 제공하면 종종 빠르게 채택된다. 벤츠의 첫 번째 자동차는 2/3의 마력을 제공했다. 이후 버전은 1.5마력을 제공하는 더 큰 엔진을 장착했다. 한 대를 소유하는 것은 말을 소유하는 것과 별반 다르지 않다. 약 25대만 판매되었다. 하지만 20년 후, 헨리 포드의 모델 T에는 두 마리의 말보다 10배 더 나은 20마력을 제공하는 엔진이 장착되었다. 그는 1,500만 대를 판매했다.
이제 살충제 살포에서 창문 청소에 이르기까지 모든 용도로 드론을 사용하는 데 비슷한 성능 배수가 나타나고 있다. 이러한 기계는 자동차 산업이 말을 파괴한 것만큼 빠르게 각자의 산업을 재편할 수 있다.
사우스 플로리다 선-센티넬은 "브로워드[플로리다 남동부의 카운티]가 이제 드론을 사용하여 접근하기 어려운 곳의 모기를 퇴치하고 있다"고 보도했다. 이 기사는 드론 없이 "2~4일 동안" 사람이 해야 할 일을 "드론으로 4시간 만에" 처리할 수 있다고 보도했다. 약 1/4~1/8의 시간, 약 절반의 비용으로 말이다. 나에게는 모델 T처럼 들린다.
마찬가지로 Skyline Robotics와 같은 회사는 창문 청소 로봇인 Ozmo로 고층 빌딩을 유지하는 과제를 해결하고 있다. AI, 머신러닝, 라이더(레이저 기반 거리 측정) 및 고급 로봇 기술을 결합하여 전통적으로 위험한 직업에서 노동력 부족과 근로자 안전 문제를 해결하고 있다. 그리고 그들은 그들의 기술이 "기존 방법보다 3배 더 빠르게 결과를 제공한다"고 주장한다.
더 나은 것, 다른 것
기술의 융합은 단순히 더 저렴하고 빠르게 일을 처리하는 데 그치지 않고 새로운 가능성을 창출하고 새로운 고객에게 시장을 확대한다. 3D 이미징, 머신러닝, 정밀 로봇 기술을 결합한 Perceptive 로봇 치과 의사의 제작자는 인간 치과 의사보다 더 빠르고 정확하게 시술을 수행할 수 있다고 주장한다. IEEE Spectrum은 "일반적으로 몇 시간과 여러 차례의 방문이 필요한 치과 시술"을 로봇이 "단 한 번의 방문으로 몇 분 만에" "더 나은 결과"로 완료할 수 있다고 보고한다. 이러한 로봇은 더 빠를 뿐만 아니라 현재 충분히 제공되지 않는 시장의 큰 부분을 제공함으로써 치과 서비스 시장을 확대할 수 있다. 즉, 인간 치과 의사의 잠재적 판단에 노출되기에는 치아의 질이 너무 부끄러운 사람들이다.
뉴욕에 본사를 둔 Aescape는 개인화된 마사지 치료사를 이와 비슷하게 포지셔닝하고 있다. 인간 치료사를 대체하는 것이 아니라 현재 충족되지 않은 서비스 수요를 충족할 수 있는 장치이다. Fast Company와의 인터뷰에서 회사 설립자는 "Aescape의 목표는 마사지 치료사를 대체하는 것이 아니라, 극심하게 서비스가 부족한 공간을 보완하는 것"이라고 말했다. 즉, 마사지 치료사의 일정에 여유 시간이 있는 시점이 아니라 고객이 필요할 때 주문형 마사지를 제공하는 것이다.
하지만 휴머노이드 로봇만큼 시장을 확대할 잠재력이 있는 기술은 거의 없다. 로봇 가정부는 수십 년 동안 공상과학의 주요 소재였지만, 이제 소비자가 구매할 수 있는 상용화된 기기를 볼 수 있는 시점에 이르렀다. 노르웨이의 1X와 같은 회사는 NEO와 같이 인간과 안전하게 상호 작용할 수 있는 휴머노이드 로봇을 개발하고 있다. 이는 고토크 저속 모터, 라이더와 같은 고급 센서, AI의 조합으로 가능하다. 이러한 로봇과 이와 유사한 로봇은 단순히 더욱 진보된 산업용 팔이 아니라 공장과 사무실에서 인간과 함께 일하고 집안일을 도울 수 있는 새로운 종류의 기계이다. 휴머노이드 로봇이 대신 손으로 설거지를 할 수 있다면 전용 식기 세척기를 소유할 사람이 있을까? 로봇 팀이 빠르고 저렴하게 당신의 소지품을 포장하고 새로운 집에서 짐을 푸는 것을 도울 수 있다면 임대료가 낮은 아파트로 이사하는 것은 정말 매력적으로 들릴 수 있다.
최근 블로그 게시물인 "인간형 로봇에 얼마나 투자해야 할까?"에서 RethinkX의 연구 책임자인 아담도르(Adam Dorr)는 인간형 로봇의 가격과 생산성에 대한 매우 합리적인 가정 하에 노동이 GDP에 미치는 영향이 엄청날 수 있음을 보여주는 간단한 인간형 로봇 ROI 계산기를 제시했다.
산업용 드론, 전담 고기술 로봇, 범용 인간형 로봇과 같은 이러한 기술은 최근 AI, 리튬 이온 배터리, 라이더 등의 기반 기술에서 비용이 엄청나게 떨어지고 성능이 향상되면서 지금에야 가능해지고 있다.
RethinkX의 공동 설립자인 토니 세바(Tony Seba)는 수년 전에 이러한 기술이 어디로 향하고 있는지 알았다. 2016년, 불과 몇 년 전만 해도 라이더 장비의 가격이 수만 달러에 불과했던 시기에 그는 "차세대 [라이더]는 90달러에 판매될 예정이며 우표 크기일 것이다. iPhone에서 사용할 수 있을 것이다."라고 말했다. Apple은 불과 몇 년 후에 자사 기기에 라이더를 포함하기 시작했다.
이제 1X의 NEO와 같은 로봇은 라이더를 사용하여 가정 환경에서 안전하게 작동할 수 있다. 그리고 저렴한 라이더는 Waymo가 고객 서비스 측면에서 빠르게 확장하고 있는 자율 주행 택시 서비스를 가능하게 한다. Waymo는 최근 주당 10만 명 이상의 고객에게 서비스를 제공하고 있다고 밝혔는데, 이는 불과 몇 달 전에 보고한 수치의 두 배이다.
(자사 자동차의 자율 주행 기능을 가능하게 하기 위해 라이더 대신 카메라를 사용하는 Tesla는 아마도 10월에 예정된 이벤트에서 로보택시 서비스를 공개할 것이다.)
가장 빠른 생존
최근 몇 년 동안 이러한 모든 기반 기술의 성능 대 비용 비율이 놀랍게 향상되어 더 긴 범위, 더 오래 지속되는, 더 빠르고 더 유능한 드론과 차량이 가능해졌다. 그러나 이러한 기계 중 많은 경우 핵심 지표는 들어올릴 수 있는 화물의 양, 차량의 범위 또는 최고 속도가 아니라 개발자가 얼마나 빨리 반복하고 적응할 수 있는지이다.우크라이나에서 진행 중인 갈등은 드론과 로봇 전쟁의 새롭고 끔찍한 세계를 위한 실제 실험실이 되었다. 양측은 상용 기성품 구성 요소와 오픈 소스 기술을 활용하여 새로운 드론 기능을 신속하게 개발하고 배포했다.
예를 들어 1인칭 시점(FPV) 드론 항공기의 진화를 살펴보겠다. 초기 모델은 본질적으로 원격 제어 장난감 헬리콥터였다. 그러나 고급 센서와 AI가 통합되면서 다재다능한 도구로 빠르게 변모했다. FPV는 단순히 더 나은 정찰 도구가 아니다. 그들은 완전히 새로운 종류의 무기로, 전통적인 무기의 비용의 일부만으로 의심치 않는 적에게 정밀한 타격으로 수류탄을 투하할 수 있다.
저렴한 열화상 카메라 덕분에 드론이 밤에 적을 발견하기가 더 쉬워졌다. 그리고 우리는 적과 아군의 제복을 자동으로 인식하는 AI 기반 아군 식별 기술이 탑재된 드론을 보았다.
그리고 이 새롭게 개발된 드론 기술은 갈등 중과 갈등 후에 다른 용도로 사용될 수 있다.
Euromaidan Press는 "인간보다 4배 빠른 4시간 만에 1헥타르를 스캔하는 자율 지뢰 탐지 드론"인 ST-1에 대해 보도했다. 이것은 플로리다 브로워드 카운티의 모기 퇴치 드론과 매우 흡사하며, 다른 해충에 적용된 것이다.
하지만 새로운 전장 기술은 드론에만 국한되지 않는다. 사람들은 카메라, 3D 프린팅, 심지어 마이크 네트워크를 사용하여 빠르고 근본적으로 새로운 방식으로 조각들을 조립하고 있다. 우크라이나는 들어오는 드론을 감지하기 위해 휴대전화와 페어링된 수천 개의 마이크를 배치했다. "스카이 포트리스(Sky Fortress)"라는 별칭이 붙은 이 시스템은 구축 비용이 저렴할 뿐만 아니라, 임무 수행에 매우 효과적인 것으로 입증되었다.
문제를 찾고 있는가?
로봇과 AI 기술의 급속한 융합은 혁신을 위한 엄청난 기회를 제공한다. 기본 기술의 발전은 종종 다른 기술의 발전을 촉진한다. AI는 로봇의 설계와 제어를 개선하는 반면, 더 나은 센서와 액추에이터는 더 유능한 AI 시스템을 가능하게 한다. 3D 프린팅(플라스틱 조각뿐만 아니라 로켓 모터와 같은 복잡한 금속 부품도 가능)은 신속한 프로토타입 제작과 사용자 정의를 가능하게 하여 전체 개발 주기를 가속화한다.
자체 강화 피드백 루프에 의해 주도되는 이러한 기술 발전의 상호 연결된 특성은 발전이 점점 더 빠른 속도로 이루어질 가능성이 있음을 의미한다. 핵심은 이러한 새로운 기능으로 해결할 수 있는 문제 또는 "문제"를 찾는 것이다. 문제를 찾고 있는가?
AI, 고급 센서, 리튬 이온 배터리, 액추에이터 및 3D 프린팅의 융합은 로봇과 드론에서 새로운 가능성을 열어준다. 전장에서 치과 의자에 이르기까지 이러한 혁신은 단순한 점진적인 개선이 아니라 문제를 해결하는 근본적으로 새로운 접근 방식이다. 혁신가들은 "문제"를 찾음으로써 다음 단계의 파괴를 주도할 수 있다. 이러한 기술이 계속 진화하고 상호 작용함에 따라, 우리는 산업, 전쟁 및 일상 생활을 근본적으로 바꿀 의미를 지닌 새로운 시대의 로봇 역량의 문턱에 서 있다.
분리형 로봇 손이 손가락 다리로 기어다닌다.
핸드크롤러는 팔이 닿지 않는 곳까지 가서도 물건을 잡을 수 있다.
우리가 움켜쥐는 로봇을 생각할 때, 우리는 어떤 종류의 팔 끝에 달린 어떤 종류의 조작기를 생각합니다. 물론 우리는 그렇게 합니다. (대부분의 사람들이) 그렇게 만들어졌고, 그런 사고방식으로 우리는 주변 세계를 최적화했습니다. 하지만 로봇의 장점 중 하나는 우리의 제약에 얽매일 필요가 없다는 것입니다. 이번 주 로테르담에서 열린 ICRA@40 에서 우리는 스위스 EPFL의 로봇공학자들이 설계한 팔에서 분리된 다음 기어다니며 그렇지 않으면 닿을 수 없는 물건을 잡을 수 있는 새로운 것을 보았습니다 .
근본적으로 로봇 손과 기어다니는 로봇은 몸통과 튀어나와서 뭔가를 하는 꿈틀거리는 부분을 포함하여 많은 유사점을 공유합니다. 하지만 대부분의 로봇 손은 기어다니기보다는 잡기 위해 설계되었으며, 제가 아는 한, 두 가지를 동시에 하도록 설계된 로봇 손은 없습니다. 두 가지 기능 모두 중요하기 때문에 반드시 전통적인 잡기 중심의 손 디자인을 고수하고 싶지는 않습니다. 연구원들은 유전 알고리즘 과 시뮬레이션을 사용하여 다양한 구성을 테스트하여 물건을 잡고 움직이는 능력을 최적화했습니다.
손가락이 앞으로뿐만 아니라 뒤로도 구부러지는 것을 알 수 있는데, 이는 손(또는 "핸드크롤러")이 물건을 잡을 수 있는 방식을 효과적으로 두 배로 늘립니다. 그리고 비디오에서 알아내기는 조금 어렵지만, 핸드크롤러는 정렬을 위해 자석을 사용하여 손목에 부착되고 손을 제자리에 고정하기 위해 확장되는 나사와 함께 부착됩니다.
"무서운 영화에서 보긴 하지만, 로봇공학에 이 아이디어를 도입한 건 우리가 처음이라고 생각해요."—샤오 가오, EPFL
비디오에서 전체 시스템은 수동으로 제어되지만, 수석 저자인 샤오 가오는 실험실에서 이미 자율 버전(외부 위치 파악 포함)을 작동시키고 있다고 말합니다. 사실, 그들은 핸드크롤러가 팔에서 분리되고, 팔이 닿지 않는 위치로 기어가고, 물건을 집어 올리고, 돌아와서 다시 팔에 부착되는 전체 움켜잡기 시퀀스를 자율적으로 실행하는 데 성공했습니다.
EPFL 및 MIT의 Xiao Gao, Kunpeng Yao, Kai Junge, Josie Hughes, Aude Billard가 공동 집필한 '수동적 민첩성을 넘어서: 움켜쥐고 기어갈 수 있는 다지각 로봇 손 설계'라는 주제의 논문이 이번 주 로테르담에서 열린 ICRA@40에서 발표되었습니다.
로보틱스를 위한 최첨단 카메라 솔루션 공개
카메라는 다양한 로보틱스 응용 분야를 위해 빠르게 발전하고 있으며, e-con Systems는 이러한 기술 발전의 최첨단 기법을 보유하고 있다. 독일 슈투트가르트에서 개최되는 VISION 2024 행사에서 이 회사는 농업, 의료, 소매, 보안산업 및 스마트 시티와 같은 산업 전반에 걸쳐 성능을 최적화하도록 설계된 최신 카메라 시스템을 선보일 예정이다.
2003년부터 e-con Systems는 특정 산업 요구에 맞는 OEM 카메라를 설계, 개발 및 제조해 왔다. 다양한 포트폴리오에는 ToF(Time-of-Flight) 카메라, MIPI 카메라 모듈, GMSL 카메라, USB 3.1 Gen 1 카메라, 스테레오 카메라, GigE 카메라 및 저조도 카메라가 포함된다. 이러한 고급 시스템은 전 세계 350개 이상의 고객 제품에 내장되어 있다.
e-con Systems는 VISION 2024에서 정밀 농업 및 스포츠 추적을 위한 카메라 기술의 다양성을 강조하는 몇 가지 대화형 데모를 제공할 계획이다.
정밀 농업을 위한 5MP 글로벌 셔터 카메라: 이 데모는 잡초 감지를 위한 카메라의 고품질 이미징을 강조하여 잡초의 정확한 식별 및 관리를 보장한다. 이 기술은 작물 성장을 개선하고 농업 효율성을 높이도록 설계되어 스마트 농업의 미래를 보여준다.
스포츠 자세 분석을 위한 3MP 글로벌 셔터 카메라: 참석자는 이미징을 활용하여 자세와 움직임을 고정밀도로 분석하는 농구 추적 기술을 경험할 수 있다. 이 카메라는 스포츠에서 모션 추적 및 성능 평가의 발전을 가속화하고 있다. 10H60 부스 방문객들은 카메라의 기능을 사용하여 농구 기술을 테스트할 수도 있다.
이 행사는 초분광 이미징, 딥 러닝 및 임베디드 비전 기술을 포함한 머신 비전 혁신에 중점을 둘 것이다. 참석자는 e-con 시스템 전문가와의 일대일 토론을 예약하여 이러한 카메라 시스템을 특정 애플리케이션에 맞게 사용자 정의할 수 있는 방법을 알아볼 수 있다. 또한 등록된 참석자는 샘플 구매 시 20% 할인을 받을 수 있으며 프로모션 코드는 회사 부스에서 사용할 수 있다.
Markets & Markets에 따르면 글로벌 로봇 비전 시장은 2023년 26억 달러에서 2028년 40억 달러로 성장할 것으로 예상되며, 연평균 성장률(CAGR)은 9.1%에 달할 것으로 예상한다. 이러한 성장은 자동화 및 안전검사 시스템에 대한 수요 증가와 최소한의 재프로그래밍이 필요한 복합 태스킹 로봇의 개발에 의해 주도되고 있다.
2023년 5월, e-con Systems는 임베디드 비전 시스템을 추가로 개발하기 위해 1,300만 달러의 자금을 확보했다. 이후 엔비디아는 3MP HDR 저조도 USB 카메라인 See3CAM CU31과 엔비디아 젯슨 AGX 오린(NVIDIA Jetson AGX Orin)과 호환되는 3MP HDR GMSL2 카메라인 스터드캠(STURDeCAM34)을 포함한 혁신적인 제품을 출시했다.
미국과 한국에 200만 대 이상의 카메라를 출하한 e-con Systems는 캘리포니아주 리버사이드, 미주리주 세인트루이스, 영국, 일본, 싱가포르, 인도, 독일 및 한국에 지사를 두고 글로벌 입지를 계속 확장하고 있다.
e-con Systems는 임베디드 비전 기술의 경계를 지속적으로 넓혀 로봇 공학, 자동화 및 머신 비전의 미래를 주도하는 데 도움을 주고 있다. (Impact Lab)
GR-2 휴머노이드: 이전 모델보다 더 크고, 더 무겁고, 훨씬 더 강합니다. 게다가, 새로운 손!
푸리에
떠오르는 휴머노이드 공간에서 가장 흥미롭고 독특한 로봇 중 하나가 예상치 못한 업그레이드를 받았습니다. 상하이의 Fourier Intelligence가 방금 GR-2를 출시했습니다. GR-1보다 키가 크고, 무겁고, 똑똑하고, 더 민첩하고, 훨씬 더 강합니다.
또한 이 모델은 작년 7월에 본 첫 번째 모델 보다 훨씬 더 완성된 것처럼 보입니다. 첫 번째 모델 은 이상하게 뼈대만 남은 듯한 깡마른 모습이었고, 육중한 300Nm(221lb-ft) 엉덩이 액추에이터와는 완전히 대조적이었습니다. 이 액추에이터 덕분에 GR-1은 시중에서 가장 무거운 물건을 들어올릴 수 있는 안드로이드 중 하나가 되었고, 거의 55kg(121lb)의 무게를 들어올릴 수 있었습니다.
손으로 들어올리지는 않았지만, 손이 없었습니다. 하지만 골반 부위에 보라색 플라스틱 난간이 있습니다. Fourier는 GR 시리즈 휴머노이드를 노인과 장애인 환자를 위한 가정 도우미로 구상했습니다. 특히 인구 고령화가 빠르게 진행되고 사람들이 침대와 휠체어에서 오르내릴 때 인간 근로자가 곁에 있어 도와줄 것이라는 보장이 없는 국가에서요. 보라색 난간이 약간 의료/재활용처럼 보인다면, 그게 이유입니다.
이제 키가 5피트 9인치인 GR-2는 매끈한 차체 덕분에 좀 더 괜찮아졌습니다.
푸리에
몇 시간 전에 출시된 새로운 GR-2는 비슷한 난간 세트를 갖추고 있지만, 가장 큰 모터는 이제 최대 380Nm(280lb-ft)의 토크를 낼 수 있습니다. 따라서 Fourier는 리프팅 용량을 발표하지 않았지만 GR-1보다 한 단계 업그레이드될 것입니다.
GR-2는 경쟁하는 많은 휴머노이드 로봇보다 키가 큽니다. 키가 175cm(5피트 9인치)로 어른처럼 보이고, 대부분의 내장이 세련된 플라스틱 차체에 싸여 있어 무게는 63kg(139파운드)입니다.
각 손/팔은 최대 3kg(6.6파운드)만 들어올릴 수 있으므로, 현재 형태로는 Figure , Tesla , Agility 휴머노이드 와 같은 상자 기수나 공장의 뮬처럼 디자인된 것은 아닙니다 .
12도의 손 움직임 자유도는 GR-2를 인간의 손과 같은 수준으로 끌어올리지 못합니다. 인간의 손은 혼란스러워 보이는 뼈와 근육 구조 덕분에 약 27도의 자유도를 제공합니다. 그리고 실제로 경쟁자는 훨씬 더 가까워지기 위해 노력하고 있으며, "올해 말"이라는 엘론-타스틱 출시일이 있습니다.
GR-2는 아직 소비자용 제품과는 거리가 멀지만 Fourier는 GR-1을 대량으로 생산하여 개발 파트너에게 보내고 있습니다. 이는 상업 및 학술 로봇 개발 프로그램을 위한 학습 플랫폼입니다.
따라서 ROS, Mujoco, nVidia의 Isaac Lab을 비롯한 일반적인 오픈 소스 로봇 개발 소프트웨어 도구와 함께 작동하도록 설계되었습니다.
탑재된 AI 시스템은 지켜보거나 행동함으로써 학습하도록 설계되었으며, 팔과 손은 VR 원격 존재감, 직접 명령을 통해 제어되거나, 말 그대로 부속물을 잡아 움직여 "리드스루 프로그래밍"이라 불리는 기술로 무엇을 해야 하는지 보여줌으로써 제어할 수 있습니다.
손에 12도의 자유도가 있으며, 이동 중에도 그립을 조정할 수 있는 촉각 감지 기능도 제공합니다.
푸리에
AI 기반 휴머노이드가 얼마나 빨리 발전하고 있는지 보는 것은 분명 놀라운 일입니다. 현실적으로 볼 때, 선두 주자 대부분은 현재 로봇 몸체가 실제 세계에서 매우 유용할 만큼 이미 충분히 좋아 보이지만, 앞으로 몇 개월, 몇 년 안에 엄청나게 개선될 것은 분명합니다.
어려운 부분은 여전히 동일하다. 구현된 AI가 주변 세계와 유용하고 효과적이며 무엇보다 안전한 방식으로 상호 작용하도록 훈련하는 것이다. 특히, 이러한 AI가 취약 계층의 집에 들어가 그들의 이동을 돕는 역할을 한다면 더욱 그렇다.
하지만 충분한 훈련 데이터와 충분한 성능, 충분한 컴퓨팅 파워가 제공되면 현대 AI 기술은 이미 놀라운 성과를 이루고 있으며, 내가 기억하는 이전의 모든 첨단 기술보다 더 빠른 속도로 발전하고 있습니다.
이제 런던에 있는 Stephen James의 Robot Learning Lab의 연구자들은 새로운 목적, 즉 로봇을 위한 훈련 데이터를 만드는 데 이미지 생성 AI 모델을 사용하고 있습니다. 그들은 Genima 라는 새로운 시스템을 개발했는데 , 이 시스템은 이미지 생성 AI 모델인 Stable Diffusion을 미세 조정하여 로봇의 움직임을 그려 시뮬레이션과 실제 세계에서 로봇을 안내하는 데 도움을 줍니다. 이 연구는 다음 달에 열리는 Conference on Robot Learning(CoRL)에서 발표될 예정입니다.
이 시스템은 기계 팔에서 인간형 로봇, 무인 자동차에 이르기까지 다양한 유형의 로봇이 작업을 완료하도록 훈련하는 것을 더 쉽게 만들 수 있습니다. 또한 복잡한 작업을 거의 감독 없이 수행할 수 있는 차세대 AI 도구인 AI 웹 에이전트가 스크롤링과 클릭을 더 잘하는 데 도움이 될 수 있다고 이 프로젝트에 참여한 로봇 조작을 전문으로 하는 연구 과학자인 모히트 쉬리다르는 말합니다.
"로봇공학에서 할 수 있는 거의 모든 일을 이미지 생성 시스템을 사용하여 할 수 있습니다."라고 그는 말합니다. "우리는 확산에서 일어나는 이 모든 놀라운 일을 가져와 로봇공학 문제에 사용할 수 있는지 알아보고 싶었습니다."
로봇에게 작업을 완료하도록 가르치기 위해 연구자들은 일반적으로 로봇 앞에 있는 이미지에 신경망을 훈련합니다. 그런 다음 네트워크는 다른 형식으로 출력을 내보냅니다. 예를 들어 앞으로 이동하는 데 필요한 좌표입니다.
제니마의 접근 방식은 입력과 출력이 모두 이미지이기 때문에 다르며, 이는 기계가 학습하기 더 쉽다고 로봇 학습을 전문으로 하지만 이 연구에는 참여하지 않은 임페리얼 칼리지 런던의 박사과정 학생인 이반 카펠류크는 말한다.
"또한 사용자에게도 정말 좋습니다. 로봇이 어디로 움직일지, 무엇을 할지 볼 수 있기 때문입니다. 해석하기 쉽게 만들어 주고, 실제로 배포할 경우 로봇이 벽이나 다른 것을 통과하기 전에 볼 수 있습니다."라고 그는 말한다.
제니마(Genima)는 Stable Diffusion의 패턴 인식 기능(예를 들어, 머그잔 이미지로 학습되었기 때문에 머그잔이 어떻게 생겼는지 아는 기능)을 활용하여 모델을 일종의 에이전트, 즉 의사 결정 시스템으로 전환합니다.
모히트 쉬리다르, 얏 롱(리치) 로, 스티븐 제임스 로봇 학습 연구실
먼저, 연구진은 안정적인 Diffusion을 미세 조정하여 로봇 센서의 데이터를 카메라가 찍은 이미지에 중첩시켰습니다.
시스템은 상자 열기, 스카프 걸기, 노트북 집어 올리기와 같은 원하는 동작을 이미지 위의 일련의 색깔 있는 구체로 렌더링합니다. 이 구체는 로봇에게 1초 후에 관절이 어디로 움직여야 하는지 알려줍니다.
프로세스의 두 번째 부분은 이러한 구체를 행동으로 변환합니다. 팀은 동일한 데이터에 매핑된 ACT라는 또 다른 신경망을 사용하여 이를 달성했습니다. 그런 다음 Genima를 사용하여 로봇 팔을 사용하여 25개의 시뮬레이션과 9개의 실제 조작 작업을 완료했습니다. 평균 성공률은 각각 50%와 64%였습니다.
이러한 성공률은 특별히 높지 않지만, Shridhar와 팀은 로봇의 속도와 정확도가 향상될 수 있다고 낙관하고 있습니다. 그들은 특히 Genima를 비디오 생성 AI 모델에 적용하는 데 관심이 있는데, 이는 로봇이 하나가 아닌 일련의 미래 행동을 예측하는 데 도움이 될 수 있습니다.
이 연구는 특히 세탁물 접기, 서랍 닫기 및 기타 가사 작업을 위해 가정용 로봇을 훈련하는 데 유용할 수 있습니다. 그러나 일반화된 접근 방식은 특정 종류의 기계에 국한되지 않는다는 것을 의미합니다. 워싱턴 대학교 박사 과정생인 조이 첸은 이전에도 Stable Diffusion을 사용하여 로봇에 대한 훈련 데이터를 생성했지만 이 연구에는 참여하지 않았다고 말합니다.
"이것은 정말 흥미로운 새로운 방향입니다." 그녀는 말한다. "저는 이것이 모든 종류의 로봇에 대한 데이터를 훈련하는 일반적인 방법이 될 수 있다고 생각합니다."