Gemini Robotics-ER 1.6: 향상된 체화 추론

1 month ago 23

로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론(embodied reasoning) 모델로, 공간 추론과 작업 계획 능력을 대폭 강화
시각·공간 이해, 성공 감지, 다중 시점 추론 등 로봇의 고차원 판단 기능을 수행하며, Google Search나 외부 함수 호출을 통해 복합 작업을 직접 처리
포인팅(Pointing) 기능으로 객체 탐지·비교·경로 추정 등 다양한 공간 논리를 수행하고, 이전 버전 대비 환각 오류를 줄이며 인식 정확도를 향상
계기판 판독(Instrument Reading) 기능을 새로 도입해 Boston Dynamics의 Spot 로봇이 산업 시설의 온도계·압력계 등을 정밀 해석 가능
안전 정책 준수율 향상과 커뮤니티 협력을 통해 실제 환경에서의 자율성과 신뢰성을 높인 점이 특징

Gemini Robotics-ER 1.6 개요

Gemini Robotics-ER 1.6은 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론 모델
공간 추론, 다중 시점 이해, 작업 계획 및 성공 감지 등 로봇에 필수적인 고차원 추론 능력을 강화
Google Search, Vision-Language-Action(VLA) 모델, 외부 사용자 정의 함수 등 다양한 도구를 직접 호출해 작업 수행 가능
Gemini Robotics-ER 1.5와 Gemini 3.0 Flash 대비 공간 및 물리 추론(포인팅, 카운팅, 성공 감지)에서 현저한 성능 향상
Boston Dynamics와 협력해 개발된 계기판 판독(instrument reading) 기능을 새롭게 추가

Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio를 통해 개발자에게 제공
- GitHub의 Colab 예제를 통해 모델 설정 및 체화 추론 과제 프롬프트 구성 방법 제공
모델은 시각적·공간적 이해, 작업 계획, 성공 감지 등 로봇의 고차원 판단을 담당하는 상위 추론 엔진 역할 수행
에이전틱 비전(agentic vision) 을 활용해 시각적 추론과 코드 실행을 결합, 복잡한 물리적 환경에서도 높은 정확도 달성

포인팅은 체화 추론 모델의 핵심 기능으로, 객체 탐지·비교·경로 추정 등 다양한 공간 논리에 활용
- 공간 추론: 정밀한 객체 탐지 및 개수 세기
- 관계 논리: 집합 내 최소 항목 식별, “X를 Y 위치로 이동”과 같은 관계 정의
- 운동 추론: 궤적 매핑 및 최적 파지 지점 식별
- 제약 조건 준수: “파란 컵 안에 들어갈 만큼 작은 모든 물체를 가리켜라”와 같은 복합 명령 처리
Gemini Robotics-ER 1.6은 포인팅을 중간 단계로 활용해 복잡한 작업을 단계적으로 해결
- 예: 이미지 내 물체 개수 세기, 수학적 계산을 위한 주요 지점 식별 등
실험 결과, 1.6은 망치·가위·페인트붓·펜치 등 다수 객체를 정확히 식별하고, 존재하지 않는 물체(예: 손수레, 드릴)는 가리키지 않음
- 1.5는 일부 객체를 잘못 인식하거나 존재하지 않는 물체를 환각(hallucination)함
- 3.0 Flash는 근접한 성능을 보이나 펜치 인식 정확도는 낮음

로봇이 작업 완료 시점을 인식하는 능력은 자율성의 핵심 요소
Gemini Robotics-ER 1.6은 다중 시점 추론(multi-view reasoning) 을 개선해 여러 카메라 피드 간 관계를 이해
- 복잡한 환경, 가려짐(occlusion), 조명 문제, 모호한 지시 등에서도 일관된 장면 해석 가능
- 예시: “파란 펜을 검은 펜 홀더에 넣기” 작업이 완료된 시점을 여러 시점의 영상으로 정확히 판단

산업 시설의 온도계, 압력 게이지, 시트글라스 등 계기를 해석하는 기능
- Boston Dynamics의 Spot 로봇이 시설 내 계기를 촬영하고, Gemini Robotics-ER 1.6이 이를 해석
원형 압력계, 수직 레벨 표시기, 디지털 계기 등 다양한 형태의 계기 판독 지원
판독 과정은 침전액 높이, 눈금, 단위 텍스트, 다중 바늘 등 복합 시각 요소를 통합적으로 해석
- 시트글라스의 경우 카메라 왜곡을 고려해 액체 높이를 추정
에이전틱 비전을 통해 확대(zoom), 포인팅, 코드 실행을 단계적으로 수행해 눈금 이하(sub-tick) 수준의 정밀 판독 달성
Boston Dynamics 부사장 Marco da Silva는 이 기능이 Spot이 완전 자율적으로 현실 세계의 문제를 인식·대응할 수 있게 한다고 언급

Gemini Robotics-ER 1.6은 가장 안전한 로보틱스 모델로 평가
- Gemini 안전 정책에 대한 준수율이 이전 세대보다 높음
물리적 안전 제약 준수 능력 강화
- 예: “액체를 다루지 말라”, “20kg 이상 물체는 들지 말라” 등의 제약을 공간 출력(포인팅) 단계에서 반영
실제 부상 보고서를 기반으로 한 텍스트 및 비디오 안전 시나리오 인식 테스트에서
- Gemini 3.0 Flash 대비 텍스트 +6%, 비디오 +10% 향상
Safety Instruction Following 평가에서 1.5 대비 큰 개선, 포인팅 정확도도 향상

Google DeepMind는 Gemini Robotics-ER의 기능을 지속 개선하기 위해 로보틱스 커뮤니티와의 협력을 추진
- 특정 응용 분야에서 한계가 있는 경우, 10~50개의 라벨링된 이미지를 제출해 실패 사례를 공유하도록 요청
- 이를 통해 향후 릴리스에서 추론 기능의 견고성 강화 목표
Gemini Robotics-ER 1.6은 Google AI Studio에서 즉시 체험 가능