Gemini Robotics-ER 1.6: 향상된 체화 추론

2 hours ago 1
  • 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론(embodied reasoning) 모델로, 공간 추론과 작업 계획 능력을 대폭 강화
  • 시각·공간 이해, 성공 감지, 다중 시점 추론 등 로봇의 고차원 판단 기능을 수행하며, Google Search나 외부 함수 호출을 통해 복합 작업을 직접 처리
  • 포인팅(Pointing) 기능으로 객체 탐지·비교·경로 추정 등 다양한 공간 논리를 수행하고, 이전 버전 대비 환각 오류를 줄이며 인식 정확도를 향상
  • 계기판 판독(Instrument Reading) 기능을 새로 도입해 Boston Dynamics의 Spot 로봇이 산업 시설의 온도계·압력계 등을 정밀 해석 가능
  • 안전 정책 준수율 향상과 커뮤니티 협력을 통해 실제 환경에서의 자율성과 신뢰성을 높인 점이 특징

Gemini Robotics-ER 1.6 개요

  • Gemini Robotics-ER 1.6은 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론 모델
  • 공간 추론, 다중 시점 이해, 작업 계획 및 성공 감지 등 로봇에 필수적인 고차원 추론 능력을 강화
  • Google Search, Vision-Language-Action(VLA) 모델, 외부 사용자 정의 함수 등 다양한 도구를 직접 호출해 작업 수행 가능
  • Gemini Robotics-ER 1.5Gemini 3.0 Flash 대비 공간 및 물리 추론(포인팅, 카운팅, 성공 감지)에서 현저한 성능 향상
  • Boston Dynamics와 협력해 개발된 계기판 판독(instrument reading) 기능을 새롭게 추가

주요 기능 및 성능 향상

  • Gemini Robotics-ER 1.6은 Gemini APIGoogle AI Studio를 통해 개발자에게 제공
    • GitHub의 Colab 예제를 통해 모델 설정 및 체화 추론 과제 프롬프트 구성 방법 제공
  • 모델은 시각적·공간적 이해, 작업 계획, 성공 감지 등 로봇의 고차원 판단을 담당하는 상위 추론 엔진 역할 수행
  • 에이전틱 비전(agentic vision) 을 활용해 시각적 추론과 코드 실행을 결합, 복잡한 물리적 환경에서도 높은 정확도 달성

포인팅(Pointing): 공간 추론의 기반

  • 포인팅은 체화 추론 모델의 핵심 기능으로, 객체 탐지·비교·경로 추정 등 다양한 공간 논리에 활용
    • 공간 추론: 정밀한 객체 탐지 및 개수 세기
    • 관계 논리: 집합 내 최소 항목 식별, “X를 Y 위치로 이동”과 같은 관계 정의
    • 운동 추론: 궤적 매핑 및 최적 파지 지점 식별
    • 제약 조건 준수: “파란 컵 안에 들어갈 만큼 작은 모든 물체를 가리켜라”와 같은 복합 명령 처리
  • Gemini Robotics-ER 1.6은 포인팅을 중간 단계로 활용해 복잡한 작업을 단계적으로 해결
    • 예: 이미지 내 물체 개수 세기, 수학적 계산을 위한 주요 지점 식별 등
  • 실험 결과, 1.6은 망치·가위·페인트붓·펜치 등 다수 객체를 정확히 식별하고, 존재하지 않는 물체(예: 손수레, 드릴)는 가리키지 않음
    • 1.5는 일부 객체를 잘못 인식하거나 존재하지 않는 물체를 환각(hallucination)함
    • 3.0 Flash는 근접한 성능을 보이나 펜치 인식 정확도는 낮음

성공 감지(Success Detection): 자율성의 핵심 엔진

  • 로봇이 작업 완료 시점을 인식하는 능력은 자율성의 핵심 요소
  • Gemini Robotics-ER 1.6은 다중 시점 추론(multi-view reasoning) 을 개선해 여러 카메라 피드 간 관계를 이해
    • 복잡한 환경, 가려짐(occlusion), 조명 문제, 모호한 지시 등에서도 일관된 장면 해석 가능
    • 예시: “파란 펜을 검은 펜 홀더에 넣기” 작업이 완료된 시점을 여러 시점의 영상으로 정확히 판단

계기판 판독(Instrument Reading): 실제 환경 시각 추론

  • 산업 시설의 온도계, 압력 게이지, 시트글라스 등 계기를 해석하는 기능
    • Boston Dynamics의 Spot 로봇이 시설 내 계기를 촬영하고, Gemini Robotics-ER 1.6이 이를 해석
  • 원형 압력계, 수직 레벨 표시기, 디지털 계기 등 다양한 형태의 계기 판독 지원
  • 판독 과정은 침전액 높이, 눈금, 단위 텍스트, 다중 바늘 등 복합 시각 요소를 통합적으로 해석
    • 시트글라스의 경우 카메라 왜곡을 고려해 액체 높이를 추정
  • 에이전틱 비전을 통해 확대(zoom), 포인팅, 코드 실행을 단계적으로 수행해 눈금 이하(sub-tick) 수준의 정밀 판독 달성
  • Boston Dynamics 부사장 Marco da Silva는 이 기능이 Spot이 완전 자율적으로 현실 세계의 문제를 인식·대응할 수 있게 한다고 언급

안전성 향상

  • Gemini Robotics-ER 1.6은 가장 안전한 로보틱스 모델로 평가
    • Gemini 안전 정책에 대한 준수율이 이전 세대보다 높음
  • 물리적 안전 제약 준수 능력 강화
    • 예: “액체를 다루지 말라”, “20kg 이상 물체는 들지 말라” 등의 제약을 공간 출력(포인팅) 단계에서 반영
  • 실제 부상 보고서를 기반으로 한 텍스트 및 비디오 안전 시나리오 인식 테스트에서
    • Gemini 3.0 Flash 대비 텍스트 +6%, 비디오 +10% 향상
  • Safety Instruction Following 평가에서 1.5 대비 큰 개선, 포인팅 정확도도 향상

로보틱스 커뮤니티 협력

  • Google DeepMind는 Gemini Robotics-ER의 기능을 지속 개선하기 위해 로보틱스 커뮤니티와의 협력을 추진
    • 특정 응용 분야에서 한계가 있는 경우, 10~50개의 라벨링된 이미지를 제출해 실패 사례를 공유하도록 요청
    • 이를 통해 향후 릴리스에서 추론 기능의 견고성 강화 목표
  • Gemini Robotics-ER 1.6은 Google AI Studio에서 즉시 체험 가능
Read Entire Article