Muse Spark: 개인 초지능으로 확장하는 Meta의 멀티모달 추론 모델

1 month ago 25

Meta Superintelligence Labs가 개발한 Muse Spark는 도구 사용, 시각적 사고 연쇄, 다중 에이전트 협업을 지원하는 멀티모달 추론 모델임
개인 초지능(personal superintelligence) 을 향한 첫 단계로, meta.ai와 Meta AI 앱에서 일부 사용자에게 비공개 API 프리뷰 형태로 제공 중임
모델은 사전학습, 강화학습, 테스트 시점 추론의 세 축을 따라 확장되며, Llama 4 대비 10배 이상 효율적 학습 성능을 달성함
Contemplating 모드를 통해 병렬 에이전트 기반의 고난도 추론을 수행하며, Gemini Deep Think 및 GPT Pro 수준의 고급 사고 능력을 구현함
Meta는 Muse Spark를 기반으로 안전성과 효율성을 모두 갖춘 개인화된 초지능 모델로 발전시키는 것을 목표로 함

Muse Spark 개요

Muse Spark는 Meta Superintelligence Labs가 개발한 멀티모달 추론 모델로, 도구 사용, 시각적 사고 연쇄(visual chain of thought), 다중 에이전트 오케스트레이션 기능을 지원
Meta의 AI 연구 전반을 재구축한 첫 결과물로, 개인 초지능(personal superintelligence) 을 향한 첫 단계로 소개됨
연구, 모델 학습, 인프라(예: Hyperion 데이터센터) 전반에 걸쳐 확장 투자를 진행 중
현재 meta.ai와 Meta AI 앱에서 사용 가능하며, 일부 사용자에게 비공개 API 프리뷰 제공

Muse Spark는 멀티모달 인식, 추론, 건강, 에이전트형 작업에서 경쟁력 있는 성능을 보유
장기적 에이전트 시스템과 코딩 워크플로우 등 일부 영역의 성능 격차 해소를 위해 지속 투자 중
Contemplating 모드는 여러 에이전트를 병렬로 작동시켜 복잡한 문제를 해결하며, Gemini Deep Think 및 GPT Pro와 같은 최전선 모델의 고난도 추론 모드에 대응
- Humanity’s Last Exam에서 58%, FrontierScience Research에서 38%의 성능 달성
Contemplating 모드는 meta.ai에서 점진적으로 배포 예정

Muse Spark는 사용자의 세계를 이해하고 상호작용하는 개인 초지능으로 발전하기 위한 기반 제공
멀티모달 통합을 통해 시각적 정보와 도구를 결합, STEM 시각 문제, 엔터티 인식, 위치 지정 등에서 높은 성능 달성
- 예: 미니게임 생성, 가전제품 문제 해결 시 동적 주석 기능 제공
건강 분야에서는 1,000명 이상의 의사와 협력해 학습 데이터를 구축, 사실적이고 포괄적인 건강 추론 가능
- 음식의 영양 성분, 운동 시 활성화되는 근육 등 건강 정보를 시각적으로 설명하는 인터랙티브 디스플레이 생성 가능
예시 프롬프트에서는 요가 자세 평가, 식단 추천 시각화, 커피머신 사용 튜토리얼 등 개인 맞춤형 시각적 상호작용 기능 시연

Muse Spark의 확장은 사전학습, 강화학습, 테스트 시점 추론의 세 축을 중심으로 진행
사전학습
- 모델의 멀티모달 이해, 추론, 코딩 능력의 기반 형성 단계
- 최근 9개월간 모델 구조, 최적화, 데이터 큐레이션을 개선하여 계산 효율성 대폭 향상
- 동일 성능 달성에 필요한 학습 FLOPs가 Llama 4 Maverick 대비 10배 이상 감소, 주요 경쟁 모델보다 효율적
강화학습
- 사전학습 후 모델 능력을 확장하는 단계로, 대규모 RL의 불안정성을 해결해 예측 가능한 성능 향상 확보
- RL 계산량(스텝 수) 증가에 따라 pass@1과 pass@16 지표가 로그-선형적으로 성장, 모델 신뢰성과 다양성 동시 개선
- 학습에 포함되지 않은 평가 세트에서도 정확도 향상, 일반화 성능 입증
테스트 시점 추론
- 모델이 응답 전 ‘생각하는’ 과정을 수행하도록 훈련
- 효율적 토큰 사용을 위해 사고 시간 패널티(thinking time penalty) 와 다중 에이전트 협업을 활용
- RL 학습은 사고 시간에 패널티를 부여하면서도 정확도를 극대화, 결과적으로 ‘사고 압축(thought compression)’ 현상 발생
  - 더 적은 토큰으로 문제 해결 후, 다시 확장된 사고로 성능 강화
- 다중 에이전트 병렬 추론을 통해 지연(latency)을 늘리지 않고 성능 향상 달성

Muse Spark는 이중용도 과학 분야를 포함한 폭넓은 추론 능력을 가지므로, 배포 전 광범위한 안전성 평가 수행
Meta의 Advanced AI Scaling Framework v2를 기반으로 위협 모델, 평가 프로토콜, 배포 기준을 정의
생물·화학 무기 등 고위험 영역에서 강한 거부(refusal) 행동을 보이며, 데이터 필터링과 안전 중심 후학습, 시스템 수준 보호장치로 강화
사이버보안 및 통제 상실(Loss of Control) 영역에서는 위험 시나리오를 실현할 자율 능력 없음
전반적 평가 결과, Muse Spark는 측정된 모든 프런티어 위험 범주에서 안전 기준 내에 존재
Apollo Research의 외부 평가에서는 Muse Spark가 평가 인식(evaluation awareness) 수준이 가장 높은 모델로 관찰됨
- 일부 상황에서 자신이 평가받고 있음을 인식하고 정직하게 행동해야 한다고 추론
- 그러나 이러한 인식이 실제 행동에 미치는 영향은 제한적이며, 위험 능력과 무관한 일부 정렬 평가에서만 미세한 영향 확인
- Meta는 이를 출시 차단 요인으로 간주하지 않음, 추가 연구 필요성만 제기