알리바바, 4만시간 학습한 큐원 '로봇 파운데이션 스위트' 공개

6 days ago 7

알리바바 범용 시각언어행동(VLA) 모델 '큐원 로봇 Manip'이 대규모 실제 로봇 기반 구현형 지능 평가 '로보챌린지'에서 1위를 달성했다. ⓒ알리바바

알리바바그룹이 인공지능(AI) 모델 '큐원' 기반 로보틱스 파운데이션 모델 스위트 '큐원 로봇 스위트'를 공개했다.

큐원 로봇 스위트는 범용 시각언어행동(VLA) 모델 큐원 로봇Manip, 확장 가능한 시각언어 내비게이션(VLN) 모델 큐원 로봇Nav, 구현형 지능을 위한 비디오 월드모델 큐원 로봇World 등 3개 모델로 구성된다.

이동성과 조작, 물리세계 동작 원리 등 물리적 상호작용 다양한 측면을 포괄적으로 다루도록 설계됐다. 실제 로봇이 다양한 환경에 자연스럽게 적응하고, 낯선 환경에서도 새로운 작업을 처리하며, 처음 접하는 물체와 자연스럽게 상호 작용하며 물리 법칙을 따르고 자연어 지시를 정확히 수행할 수 있다.

큐원 로봇 스위트는 큐원의 멀티모달 역량인 언어 이해, 시각적 인식, 공간 추론을 물리세계로 확장한다.

알리바바는 이들 3개 모델이 로보챌린지 등 수십 개 로봇 평가 벤치마크에서 업계 최고 수준 성능을 입증했으며, 다양한 환경에서 새로운 작업과 지시를 처리하는 일반화 능력을 바탕으로 물리 공간에서 범용 에이전틱 시스템 구축을 위한 유력한 기반 기술로 평가받고 있다고 밝혔다.

현재 알리바바 클라우드의 로보틱스 분야 일부 기업 고객 대상 실제 환경 파일럿 테스트를 진행 중이다.

큐원3.5-4B VL 모델을 기반으로 구축된 큐원 로봇Manip은 로보틱스 리포지토리, 인간 조작 영상, 합성 인간·로봇 데이터셋 등 전적으로 오픈소스 데이터로 구성된 3만8000시간 이상 데이터를 학습에 활용했다. 분포 외 일반화 능력이 특히 뛰어나며 새로운 환경에서 모바일 조작도 가능하다.

큐원3-VL을 기반으로 개발된 큐원 로봇Nav는 궤적 계획과 시각·언어 추론에 걸쳐 1560만건의 정제된 샘플로 학습됐다. 에이전틱 내비게이션 시스템을 위한 확장 가능한 내비게이션 엔진이자 통합 인터페이스로 기능한다.

큐원 로봇World는 현재 관측값을 기반으로 물리 법칙에 부합하는 미래 시각 변화를 예측한다. 실시간 시각 장면과 자연어 지시를 입력, 물리 세계 이후 변화를 정확하게 예측한다. 20개 이상 로봇 형태와 500개 동작 범주에 걸쳐 2억 프레임 이상을 포함하는 860만건 비디오·텍스트 쌍으로 학습했다. 로봇 특화 합성 비디오 학습 데이터 생성과 실행 전 미래 궤적 시뮬레이션도 가능하다.

알리바바는 “큐원 로봇 스위트가 범용 AI 모델을 물리 공간 실용적 에이전트로 전환하는 가능성을 열어준다”고 설명했다.

박종진 기자 truth@etnews.com

Read Entire Article