마인드봇[로봇은 비디오를 보면서 수술 기술을 배우고 인간의 정밀도 와 일치] 엔비디아, 초소형 AI로 인간형 로봇 제어에 성공, 로봇팔 제어하는 ChatGPT] 로봇 개발의 새로운 지평 열어 작지만 강하다! 1.5M 매개변수의 위력.
로봇은 비디오를 보면서 수술 기술을 배우고 인간의 정밀도 와 일치한다
로봇 교육의 이러한 돌파구는 모방 학습을 사용하여 수술 로봇 프로그래밍 프로세스를 크게 단순화한다. 이 접근 방식은 각 움직임을 코딩하는 대신 시각적 입력을 사용함으로써 로봇이 복잡한 수술을 자율적으로 수행할 수 있는 가능성을 높인다.
선임 저자인 악셀 크리거(Axel Krieger)는 "이 모델을 가지고 있다는 것은 정말 마법 같은 일이며, 우리가 하는 일은 카메라 입력을 제공하는 것뿐이며 수술에 필요한 로봇 움직임을 예측할 수 있습니다"라고 말했다. "우리는 이것이 의료 로봇 공학의 새로운 지평을 향한 중요한 진전을 의미한다고 믿습니다."
뮌헨에서 열린 로봇 학습 컨퍼런스에서 강조된 이 연구는 존스 홉킨스 대학과 스탠포드 대학의 협력을 보여준다. 이 팀은 다빈치 수술 시스템(da Vinci Surgical System)을 훈련시켰는데, 이 시스템은 널리 사용되지만 정밀도가 제한되는 것으로 알려져 있어 바늘 조작, 조직 리프팅, 봉합 등의 작업을 수행할 수 있었다.
정밀하고 단계별 프로그래밍이 필요한 기존 훈련과 달리 이 모델은 ChatGPT와 유사한 기계 학습을 사용한다. 언어를 처리하는 대신 이 모델은 운동학적 데이터를 해석하여 로봇 동작을 수학적 표현으로 분해한다.
연구원들은 수술 중 다빈치 로봇에서 녹화된 수백 개의 손목 카메라를 사용하여 모델을 훈련시켰다. 수술 후 분석을 위해 전 세계적으로 수집된 이러한 기록은 모방 학습을 위한 방대한 데이터 세트를 제공한다. 전 세계 약 7,000개 병동에 사용되고 있으며 50,000명 이상의 외과의에게 친숙한 다빈치 시스템은 충분한 비디오 데이터를 제공했다.
혁신은 상대 동작을 인식하고 실행하도록 모델을 훈련시켜 절대 동작과 관련된 부정확성을 피하는 데 있다. "우리에게 필요한 것은 이미지 입력이며, 그러면 이 AI 시스템이 올바른 동작을 찾습니다"라고 수석 저자인 Ji Woong "Brian" Kim은 설명했다. 단 몇 백 번의 시연만으로도 모델은 새로운 환경을 학습하고 적응할 수 있다.
로봇은 인간의 기술 수준을 반영하여 선택한 수술 작업을 수행하는 데 능숙함을 보여주었다. 놀랍게도, 떨어뜨린 바늘을 자율적으로 집는 것과 같은 예상치 못한 상황에 적응했다. "이 모델은 우리가 가르치지 않은 것들을 배우는 것이 매우 훌륭합니다"라고 Krieger는 지적했다.
연구진은 다양한 수술 절차를 위한 신속한 훈련을 기대하고 있으며, 이는 이전에 긴 수작업 코딩이 필요했던 것과는 대조적이다. "매우 제한적입니다"라고 Krieger는 말했다. "여기서 새로운 점은 다양한 절차의 모방 학습만 수집하면 며칠 안에 로봇이 학습하도록 훈련시킬 수 있다는 것이다. 이를 통해 자율성이라는 목표를 가속화하는 동시에 의료 오류를 줄이고 보다 정확한 수술을 달성할 수 있습니다."
이 팀은 현재 완전한 수술을 위해 로봇을 훈련시키기 위해 이 방법을 확장하기 위해 노력하고 있다. Johns Hopkins의 기여자로는 박사 과정 학생인 Samuel Schmidgall, 부연구 엔지니어인 Anton Deguet, 부교수인 Marin Kobilarov가 있다. 스탠포드 연구팀에는 박사 과정 학생인 Tony Z. Zhao가 포함되어 있었다. (Energy Daily)
ChatGPT는 이제 로봇 팔을 제어할 수 있다.
UC 버클리와 ETH 취리히의 두 연구원은 OpenAI의 GPT-4o 대규모 언어 모델의 힘을 활용하여 저렴한 로봇 팔이 유출물을 청소하도록 가르쳤다. OpenAI의 인기 있는 AI 챗봇 ChatGPT와 같은 AI 언어 모델이 표면적으로는 언어와 거의 관련이 없는 작업을 수행하는 데 어떻게 활용될 수 있는지 보여주는 똑똑한 시연이었다.
두 명의 로봇 공학자는 일반 스펀지에만 접근할 수 있는 로봇 팔이 근처에 유출된 것을 식별하는 방법을 가르치는 데 단 4일밖에 걸리지 않았다. UC 버클리의 로봇 공학자인 Jannik Grothusen이 공유한 비디오는 로봇이 자기 앞에 무엇을 보는지 묻는 것을 보여준다. "스펀지와 표면에 작은 엎질러진 것이 보입니다." 로봇은 완벽한 영어로 대답했다. "당신이 하는 일을 설명하고 테이블을 치우십시오." 연구원이 지시했다. "로봇 팔을 사용해서 테이블 표면을 청소할게요." 로봇이 도움이 된다는 듯이 대답했다. "먼저 스펀지를 집어 테이블을 닦을 수 있는 모션 기술을 확인한 다음, 엎질러진 것을 청소하는 시퀀스를 실행합니다." 한 치의 망설임도 없이 로봇 팔이 행동에 나서 약속한 일을 정확히 수행한다. Grothusen에 따르면 팔의 움직임은 약 100개의 데모를 통해 훈련되었다. 팔 자체는 완전히 오픈 소스이며 YouTube 재생 목록을 사용하여 집에서 만들 수 있다. 랭체인(LangChain)이라는 컨텍스트 인식 '멀티모드 에이전트'는 강화 훈련을 통해 LLM의 입력과 출력을 로봇 움직임으로 변환하는 프레임워크 역할을 했다. Grothusen은 LinkedIn 게시물에서 이 실험이 "인간-로봇 상호 작용, 추론 및 조정을 위한 시각적 언어 모델"을 포함하는 "로봇 제어 아키텍처에 대한 개념 증명"이라고 주장했다. 또한 로봇 팔의 저렴한 가격표와 완전한 오픈 소스 학습 알고리즘을 감안할 때 "오픈 소스가 로봇 분야를 민주화하기 시작하는 방법을 보여줍니다." 그러나 이 개념이 집에 엎질러진 물을 닦아낼 수 있는 본격적인 청소 로봇으로 바뀔 수 있을지는 불분명하다. (Futurism)
엔비디아, 초소형 AI로 인간형 로봇 제어에 성공… 로봇 개발의 새로운 지평 열어
엔비디아가 놀라운 성과를 발표했다. 바로 1.5M 매개변수라는 초소형 신경망, HOVER를 통해 다양한 방식으로 인간형 로봇을 자유자재로 제어하는 데 성공한 것. 이는 기존의 대규모 AI 모델 중심의 흐름에 반하는 이례적인 성과로, 로봇 개발 분야에 새로운 가능성을 제시하고 있다.
작지만 강하다! 1.5M 매개변수의 위력HOVER는 일반적인 AI 모델에 비해 무려 수천 배나 작은 모델이다. 하지만 이 작은 모델은 특수 컨트롤러를 훨씬 뛰어넘는 성능을 보여주었다. 엔비디아는 자체 개발한 시뮬레이터인 '아이작 시뮬레이터'를 활용하여 HOVER를 훈련시켰는데, 이를 통해 1년 동안 진행해야 할 로봇 훈련을 단 하나의 GPU에서 50분 만에 끝낼 수 있었다. 이는 개발 시간과 비용을 획기적으로 절감할 수 있는 획기적인 결과이다.
다양한 입력 방식 지원, 실제 로봇으로의 원활한 전환HOVER는 VR 헤드셋, 모션 캡처, 외골격, 조이스틱 등 다양한 입력 방식을 지원한다. 즉, 사용자는 자신에게 편한 방식으로 로봇을 조작할 수 있다. 또한, 시뮬레이션 환경에서 훈련된 HOVER는 추가적인 미세 조정 없이도 실제 로봇에 바로 적용될 수 있다는 점이 큰 장점이다. 이는 개발 과정을 간소화하고, 로봇 개발의 문턱을 낮추는 데 기여할 것으로 기대된다. 작은 모델, 큰 가능성… 로봇 개발의 민주화AI 분야에서는 더 큰 모델이 더 좋은 성능을 낸다는 인식이 지배적이었다. 하지만 HOVER는 작은 모델도 충분히 뛰어난 성능을 발휘할 수 있음을 보여주었다. 특히, 최소한의 컴퓨팅 자원으로 다양한 제어 모드를 지원한다는 점은 로봇 개발의 민주화를 앞당길 수 있는 중요한 요소이다. 이제 개인 개발자나 중소기업들도 더욱 쉽게 정교한 휴머노이드 시스템을 개발할 수 있게 될 것.
시사점엔비디아의 HOVER는 단순히 로봇 기술의 발전을 의미하는 것을 넘어, AI 개발의 새로운 패러다임을 제시합니다. 더 이상 큰 모델만이 정답은 아니다. 작지만 효율적인 모델을 통해서도 놀라운 성과를 낼 수 있다는 것을 HOVER는 증명했다. 이는 다양한 분야에서 AI 기술의 활용 가능성을 더욱 확대할 것으로 기대된다.
결론엔비디아의 HOVER는 로봇 개발의 새로운 지평을 열었습니다. 작지만 강력한 성능을 바탕으로 다양한 입력 방식을 지원하고, 실제 로봇에 쉽게 적용될 수 있는 HOVER는 로봇 개발의 문턱을 낮추고, 더욱 다양하고 창의적인 로봇 개발을 가능하게 할 것이다. 앞으로 HOVER와 같은 혁신적인 기술들이 등장하며 로봇 기술이 어떻게 발전해 나갈지 기대된다.
소형 AI 모델, 인간형 제어에 성공, 요약 이미지 출처: NVIDIA 요약: 엔비디아는 다양한 모드와 입력 방법을 통해 전신 로봇의 움직임을 효과적으로 제어할 수 있는 1.5M 매개변수의 소형 신경망인 HOVER를 선보이는 새로운 연구를 발표했다. 세부 정보: 일반적인 AI 모델보다 수천 배 더 작음에도 불구하고 이 모델은 특수 컨트롤러와 비교해 더 뛰어난 성능을 발휘한다. 엔비디아는 '아이작 시뮬레이터'로 시스템을 훈련시켰는데, 이를 통해 1년치 로봇 훈련을 단 하나의 GPU에서 단 50분으로 압축할 수 있었다. 이 시스템은 VR 헤드셋, 모션 캡처, 외골격, 조이스틱을 포함한 다양한 입력 방법과 원활하게 작동한다. HOVER는 추가적인 미세 조정 없이도 시뮬레이션에서 실제 로봇으로 직접 전환된다. 중요한 이유: AI 세계가 더 큰 모델을 향해 경쟁하는 동안 HOVER는 더 작은 시스템이 여전히 더 나은 성과를 낼 수 있음을 보여준다. 최소한의 컴퓨팅 요구 사항으로 여러 제어 모드에서 작업할 수 있는 능력은 고급 로봇 제어를 민주화하는 데 도움이 될 수 있으며, 정교한 휴머노이드 시스템을 구축하는 것을 더 접근 가능하고 실용적으로 만들 수 있다.
로봇은 인간 을 관찰하여 유연한 청소 기술을 배운다
로봇은 오랫동안 반복적이거나 바람직하지 않은 작업을 위한 이상적인 도우미로 구상되어 왔지만, 세면대를 철저히 닦는 것과 같은 복잡한 청소 작업을 로봇이 처리할 수 있도록 하는 것은 중요한 과제이다. 특히 모양이 불규칙하거나 가변적인 압력이 필요한 경우 로봇 팔을 조작하여 수조의 모든 부분에 도달하기 위한 정밀한 프로그래밍은 시간이 많이 걸리고 복잡하다.
비엔나 공과대학(TU Wien)의 연구원들은 대안적인 방법을 추구했다. 규칙을 엄격하게 코딩하는 대신, 그들은 교육 접근법을 채택했다: 인간이 특별히 준비된 스폰지를 사용하여 싱크대 가장자리를 문지르면서 로봇에게 청소 과정을 여러 번 시연한다. 이를 관찰한 로봇은 세척 과정을 모방하는 방법을 학습한 다음 다양한 모양의 물체에 적응할 수 있다. 이 혁신적인 접근 방식은 아부다비에서 열린 선도적인 글로벌 로보틱스 컨퍼런스인 IROS 2024에서 발표되었다.
단순한 세척 그 이상: 표면 처리에 대한 로봇 접근 방식 청소는 샌딩, 연마 및 페인팅과 같은 다른 산업 공정과 유사점을 공유하는 표면 처리 작업의 한 예일 뿐이다. "카메라로 세면대의 모양을 캡처하는 것은 간단하지만 로봇에게 움직임, 속도, 각도 및 압력을 조정하는 방법을 가르치는 것은 훨씬 더 복잡합니다"라고 TU Wien의 자동화 및 제어 연구소의 Andreas Kugi 교수는 말한다.
TU Wien의 산업용 로봇 그룹 책임자인 Christian Hartl-Nesic은 관찰과 경험을 통해 이러한 뉘앙스를 자연스럽게 배운다고 설명한다. "견습 과정에서는 멘토가 누군가를 지도하면서 '여기에 더 많은 압력을 가하라'고 말할 수 있습니다. 우리는 로봇이 비슷하게 학습할 수 있는 방법을 개발하는 것을 목표로 했습니다."
이를 위해 팀은 힘 센서와 추적 마커가 있는 특수 스펀지를 만들었다. 이 도구를 사용하면 인간이 싱크대의 앞쪽 가장자리만 반복적으로 청소할 수 있으므로 로봇이 적절한 청소 기술을 해석하고 이해할 수 있는 광범위한 데이터를 생성할 수 있다.
데이터 기반 모델링을 통한 학습 TU Wien 팀은 여러 기계 학습 방법을 통합하는 고유한 데이터 처리 접근 방식을 활용했다. 시스템은 먼저 시연 데이터를 통계적으로 처리하여 특정 움직임 패턴 또는 "모션 프리미티브"에 대해 신경망을 훈련시킨다. 그런 다음 이 프레임워크를 사용하면 로봇 팔이 복잡한 표면에서 스펀지를 최적으로 조종할 수 있다.
로봇은 싱크대 가장자리 하나만 청소하는 것을 관찰하지만 전체 싱크대 및 기타 복잡한 표면에 이 기술을 적용하는 방법을 배운다. "이 로봇은 표면 윤곽에 따라 스펀지의 그립과 압력을 조정하여 곡면 영역에는 더 많은 힘을 가하고 평평한 표면에는 더 적은 힘을 가합니다"라고 Industrial Robotics 그룹의 박사 과정 학생인 Christoph Unger는 말한다.
작업장 로봇을 위한 협업의 미래 이 팀의 발전은 청소를 넘어 목재 샌딩, 차체 연마 또는 판금 용접을 포함한 다양한 산업 분야의 잠재적 응용 분야로 확장된다. 결국에는 이 학습 알고리즘을 장착한 로봇이 모바일 플랫폼에서 작동하여 다양한 작업장에서 유연한 보조 역할을 할 수 있게 될 것이다.
TU Wien은 미래를 내다보며 지식을 공유할 수 있는 로봇 네트워크를 구상하고 있다. "여러 작업장에서 샌딩 및 페인팅과 같은 작업을 위해 자가 학습 로봇을 사용하는 것을 상상해 보십시오. 각 로봇은 로컬에서 학습할 수 있지만 중요한 통찰력을 다른 로봇과 공유하여 개인 데이터를 보존하면서 집단 지성을 발전시킬 수 있습니다"라고 Kugi 교수는 설명한다. "연합 학습"으로 알려진 이 개념을 통해 워크샵은 로봇 경험의 공유 풀을 활용하여 로봇의 기능을 향상시킬 수 있다. (Energy Daily)
<저작권자 ⓒ ainet 무단전재 및 재배포 금지>
|
많이 본 기사
유투브 많이 본 기사
최신기사
|