Muse Spark: 개인 초지능으로 확장하는 Meta의 멀티모달 추론 모델

23 hours ago 2
  • Meta Superintelligence Labs가 개발한 Muse Spark는 도구 사용, 시각적 사고 연쇄, 다중 에이전트 협업을 지원하는 멀티모달 추론 모델
  • 개인 초지능(personal superintelligence) 을 향한 첫 단계로, meta.ai와 Meta AI 앱에서 일부 사용자에게 비공개 API 프리뷰 형태로 제공 중임
  • 모델은 사전학습, 강화학습, 테스트 시점 추론의 세 축을 따라 확장되며, Llama 4 대비 10배 이상 효율적 학습 성능을 달성함
  • Contemplating 모드를 통해 병렬 에이전트 기반의 고난도 추론을 수행하며, Gemini Deep Think 및 GPT Pro 수준의 고급 사고 능력을 구현함
  • Meta는 Muse Spark를 기반으로 안전성과 효율성을 모두 갖춘 개인화된 초지능 모델로 발전시키는 것을 목표로 함

Muse Spark 개요

  • Muse Spark는 Meta Superintelligence Labs가 개발한 멀티모달 추론 모델로, 도구 사용, 시각적 사고 연쇄(visual chain of thought), 다중 에이전트 오케스트레이션 기능을 지원
  • Meta의 AI 연구 전반을 재구축한 첫 결과물로, 개인 초지능(personal superintelligence) 을 향한 첫 단계로 소개됨
  • 연구, 모델 학습, 인프라(예: Hyperion 데이터센터) 전반에 걸쳐 확장 투자를 진행 중
  • 현재 meta.ai와 Meta AI 앱에서 사용 가능하며, 일부 사용자에게 비공개 API 프리뷰 제공

개인 초지능을 위한 기능

  • Muse Spark는 멀티모달 인식, 추론, 건강, 에이전트형 작업에서 경쟁력 있는 성능을 보유
  • 장기적 에이전트 시스템과 코딩 워크플로우 등 일부 영역의 성능 격차 해소를 위해 지속 투자 중
  • Contemplating 모드는 여러 에이전트를 병렬로 작동시켜 복잡한 문제를 해결하며, Gemini Deep Think 및 GPT Pro와 같은 최전선 모델의 고난도 추론 모드에 대응
    • Humanity’s Last Exam에서 58%, FrontierScience Research에서 38%의 성능 달성
  • Contemplating 모드는 meta.ai에서 점진적으로 배포 예정

주요 응용 분야

  • Muse Spark는 사용자의 세계를 이해하고 상호작용하는 개인 초지능으로 발전하기 위한 기반 제공
  • 멀티모달 통합을 통해 시각적 정보와 도구를 결합, STEM 시각 문제, 엔터티 인식, 위치 지정 등에서 높은 성능 달성
    • 예: 미니게임 생성, 가전제품 문제 해결 시 동적 주석 기능 제공
  • 건강 분야에서는 1,000명 이상의 의사와 협력해 학습 데이터를 구축, 사실적이고 포괄적인 건강 추론 가능
    • 음식의 영양 성분, 운동 시 활성화되는 근육 등 건강 정보를 시각적으로 설명하는 인터랙티브 디스플레이 생성 가능
  • 예시 프롬프트에서는 요가 자세 평가, 식단 추천 시각화, 커피머신 사용 튜토리얼 등 개인 맞춤형 시각적 상호작용 기능 시연

확장 축

  • Muse Spark의 확장은 사전학습, 강화학습, 테스트 시점 추론의 세 축을 중심으로 진행
  • 사전학습

    • 모델의 멀티모달 이해, 추론, 코딩 능력의 기반 형성 단계
    • 최근 9개월간 모델 구조, 최적화, 데이터 큐레이션을 개선하여 계산 효율성 대폭 향상
    • 동일 성능 달성에 필요한 학습 FLOPs가 Llama 4 Maverick 대비 10배 이상 감소, 주요 경쟁 모델보다 효율적
  • 강화학습

    • 사전학습 후 모델 능력을 확장하는 단계로, 대규모 RL의 불안정성을 해결해 예측 가능한 성능 향상 확보
    • RL 계산량(스텝 수) 증가에 따라 pass@1과 pass@16 지표가 로그-선형적으로 성장, 모델 신뢰성과 다양성 동시 개선
    • 학습에 포함되지 않은 평가 세트에서도 정확도 향상, 일반화 성능 입증
  • 테스트 시점 추론

    • 모델이 응답 전 ‘생각하는’ 과정을 수행하도록 훈련
    • 효율적 토큰 사용을 위해 사고 시간 패널티(thinking time penalty)다중 에이전트 협업을 활용
    • RL 학습은 사고 시간에 패널티를 부여하면서도 정확도를 극대화, 결과적으로 ‘사고 압축(thought compression)’ 현상 발생
      • 더 적은 토큰으로 문제 해결 후, 다시 확장된 사고로 성능 강화
    • 다중 에이전트 병렬 추론을 통해 지연(latency)을 늘리지 않고 성능 향상 달성

안전성 평가

  • Muse Spark는 이중용도 과학 분야를 포함한 폭넓은 추론 능력을 가지므로, 배포 전 광범위한 안전성 평가 수행
  • Meta의 Advanced AI Scaling Framework v2를 기반으로 위협 모델, 평가 프로토콜, 배포 기준을 정의
  • 생물·화학 무기 등 고위험 영역에서 강한 거부(refusal) 행동을 보이며, 데이터 필터링과 안전 중심 후학습, 시스템 수준 보호장치로 강화
  • 사이버보안 및 통제 상실(Loss of Control) 영역에서는 위험 시나리오를 실현할 자율 능력 없음
  • 전반적 평가 결과, Muse Spark는 측정된 모든 프런티어 위험 범주에서 안전 기준 내에 존재
  • Apollo Research의 외부 평가에서는 Muse Spark가 평가 인식(evaluation awareness) 수준이 가장 높은 모델로 관찰됨
    • 일부 상황에서 자신이 평가받고 있음을 인식하고 정직하게 행동해야 한다고 추론
    • 그러나 이러한 인식이 실제 행동에 미치는 영향은 제한적이며, 위험 능력과 무관한 일부 정렬 평가에서만 미세한 영향 확인
    • Meta는 이를 출시 차단 요인으로 간주하지 않음, 추가 연구 필요성만 제기

결론

  • Muse Spark는 예측 가능하고 효율적인 확장 경로 위에 있으며, 향후 더 강력한 개인 초지능 모델로 발전 예정
  • Meta는 지속적으로 향상된 모델을 공개하며, 개인화된 초지능 시대로의 진전을 목표로 함
Read Entire Article