마인드봇[물리적으로 시뮬레이션된 휴머노이드를 위한 통합 전신 제어] 자연스럽게 움직이고 다양한 제어 입력에 지능적으로 반응하는 인터랙티브 시뮬레이션 휴머노이드를 만드는 것은 컴퓨터 애니메이션 및 로보틱스에서 가장 어려운 문제 중 하나
물리적으로 시뮬레이션된 휴머노이드를 위한 통합 전신 제어
자연스럽게 움직이고 다양한 제어 입력에 지능적으로 반응하는 인터랙티브 시뮬레이션 휴머노이드를 만드는 것은 컴퓨터 애니메이션 및 로보틱스에서 가장 어려운 문제 중 하나이다. 엔비디아 아이작 심(Isaac Sim)과 같은 고성능 GPU 가속 시뮬레이터와 엔비디아 아이작 랩(Isaac Lab)을 활용한 로봇 정책 트레이닝은 인터랙티브 휴머노이드 트레이닝에서 상당한 진전을 이룰 수 있다. Adversarial Motion Priors와 Human2Humanoid는 시뮬레이션 로봇과 실제 로봇에 대한 중요한 도약을 제시하는 최근의 예이다. 그러나 그들은 또한 휴머노이드가 제어되는 방식을 변경하려면 새로운 전문 컨트롤러를 재훈련해야 한다는 공통된 함정을 공유한다. 이 게시물에서는 모션 인페인팅의 렌즈를 통해 전신 휴머노이드 제어를 통합하는 프레임워크인 MaskedMimic을 소개한다. 마스크미믹(MaskedMimic)은 일반화된 휴머노이드 로봇의 개발을 지원하기 위한 NVIDIA 프로젝트 GR00T의 일부이다. 이 연구 작업은 전신 제어를 위한 고급 모션 계획 및 제어 라이브러리, 모델, 정책 및 참조 워크플로우 제품군인 GR00T-Control에 기여한다. 동영상 1. MaskedMimic 모션 인페인터 소개 작업별 통제 극복휴머노이드 제어에 대한 전통적인 접근 방식은 본질적으로 작업 특정 특성에 의해 제한된다. 경로 추종에 특화된 컨트롤러는 머리와 손의 좌표 추적이 필요한 원격 조작 작업을 처리할 수 없다. 마찬가지로, 시연자의 전신 움직임을 추적하도록 훈련된 컨트롤러는 키포인트의 하위 집합을 추적해야 하는 시나리오에 적응할 수 없다. 이 전문화는 다음과 같은 중요한 문제를 야기한다.
모션 인페인팅은 통일된 솔루션을 제공한다.최근 제너레이티브 AI의 발전은 텍스트, 이미지, 심지어 애니메이션과 같은 여러 영역에서 인페인팅을 사용하여 놀라운 성공을 거두었다. 이러한 방법은 마스킹된(불완전한) 또는 부분 보기에서 전체 데이터를 재구성하는 학습을 통해 학습한다는 점에서 일반적이고 강력한 개념을 공유한다. MaskedMimic은 이 강력한 패러다임을 전신 휴머노이드 제어 작업에 적용한다. MaskedMimic은 다양한 유형의 부분 모션 설명을 허용한다.
MaskedMimic의 작동 방식MaskedMimic 훈련은 인간의 움직임, 텍스트 설명 및 장면 정보에 대한 대규모 데이터 세트를 활용하는 2단계 파이프라인에서 이루어진다. 이 데이터는 인간이 어떻게 움직이는지 보여주지만 시뮬레이션된 로봇이 이러한 움직임을 재현하는 데 필요한 모터 작동이 부족하다. 파이프라인의 첫 번째 단계에는 전신 동작 추적 작업에 대한 강화 학습 에이전트를 훈련시키는 것이 포함된다. 이 모델은 로봇의 고유 수용 감각, 주변 지형 및 가까운 장래에 어떤 동작을 수행해야 하는지 관찰한다. 그런 다음 시연된 모션을 재구성하는 데 필요한 모터 작동을 예측합니다. 이것은 주변 지형에 적응하는 역 모델로 볼 수 있다. 교육의 두 번째 단계는 온라인 교사-학생 증류 과정입니다. 첫 번째 단계의 모델은 전문가로 사용되며 더 이상 훈련되지 않는다. 훈련 중에 휴머노이드는 무작위 동작에서 무작위 프레임으로 초기화됩니다. 전문가가 손대지 않은 미래의 시연을 관찰하는 동안, 학생에게는 무작위로 가면을 쓴 버전이 제공된다. 마스크는 매우 조밀하여 학생 모델에 모든 정보(모든 프레임의 모든 관절, 텍스트 및 장면 정보)를 제공할 수 있다. 또한 매우 희박할 수도 있습니다(예: 텍스트만 표시되거나 몇 초 후의 머리 위치). 학생(MaskedMimic)의 목표는 모션 인페인팅이다. 부분적인(마스킹된) 모션 설명이 제공되면 MaskedMimic은 전문가의 동작을 성공적으로 예측하는 임무를 맡게 되며, 이는 다시 원래의 마스킹되지 않은 모션 데모를 재현한다. 모션 재구성제어 및 모션 생성을 인페인팅 문제로 보면 다양한 기능이 열립니다. 예를 들어, MaskedMimic은 시뮬레이션된 가상 세계 내에서 사용자의 시연을 재구성할 수 있다. 카메라에서 추론할 때 모션에는 모든 신체 키 포인트가 포함될 수 있다. 동영상 2. 전신 추적 반면에, 가상 현실 시스템은 종종 추적 센서의 하위 집합만 포함한다. Oculus 및 Apple Vision Pro와 같은 일반적인 시스템은 머리와 손 좌표를 모두 제공한다. 동영상 3. 불규칙한 지형에서 대상의 머리와 손 위치에서 재구성 동작 VR 트래킹을 위해 성공률과 트래킹 오차도 측정된다. 경험적 결과는 이 작업을 위해 특별히 최적화된 특수 컨트롤러와 비교할 때 큰 성능 향상을 보여준다. 작업별 교육이나 미세 조정이 필요 없는 통합 MaskedMimic 컨트롤러는 이전의 특수 방법보다 성능이 뛰어나다.
표 1. 보이지 않는 AMASS 테스트 세트에서 추출한 VR 신호(머리 및 손 위치) 추적 성공률 대화식 제어이 동일한 제어 체계를 재사용하여 사용자 입력에서 새로운 동작을 생성할 수 있다. 하나의 통일된 MaskedMimic 정책은 광범위한 작업을 해결할 수 있으며, 이는 이전 작업에서 여러 개의 서로 다른 전문 컨트롤러를 훈련시켜 해결했던 문제이다. 루트의 미래 위치와 방향을 지정함으로써 MaskedMimic은 조이스틱 컨트롤러로 조종된다. 동영상 4. MaskedMimic은 조이스틱 컨트롤러로 조종된다. 마찬가지로, 머리 위치와 높이를 모두 조절하여 MaskedMimic은 경로를 따라가도록 지시받는다. 동영상 5. MaskedMimic은 경로를 따라가라는 지시를 받는다. 또 다른 중요한 기능은 장면 상호 작용이다. 객체에 대한 MaskedMimic의 컨디셔닝은 "해당 객체와 자연스럽게 상호 작용"하도록 지시하는 것과 같다. 동영상 6. 컨디셔닝: 객체에 대한 MaskedMimic (Nvidia) <저작권자 ⓒ ainet 무단전재 및 재배포 금지>
|
많이 본 기사
챗GPT와 AI, 로봇 많이 본 기사
최신기사
|