'1500억원 보너스' 주고 인재 모은 메타, 구글·오픈AI 맞먹는 모델 내놨다

1 month ago 21

메타, 첫 폐쇄형 AI모델 '뮤즈 스파크' 출시
범용 추론 능력은 구글·오픈AI 등과 비슷
의료 추론 앞서지만 코딩 실력은 저조
1년여 조직개편 결과 … AI 경쟁 복귀

메타가 천문학적인 자금을 들여 설립한 인공지능(AI) 연구조직 '메타초지능연구소(MSL)'가 9개월 만에 첫 결과물을 내놨다. 폐쇄형 AI모델 '뮤즈 스파크'다. 구글·앤스로픽 경쟁사와 맞먹는 성능을 내 "메타가 AI 경쟁에 복귀했다"는 평가가 나왔다.

폐쇄형 AI 첫 결과물

8일(현지시간) 메타가 출시한 뮤즈 스파크는 회사의 첫 폐쇄형 AI 모델이다. 이전까지 메타는 AI 학습에 사용한 가중치를 공개하는 개방형 모델 '라마'를 주력으로 내세웠다. 이 전략은 메타가 초지능에 가까운 AI모델을 개발하면서 바뀌었다. 마크 저커버그 최고경영자(CEO)는 지난해 7월 "어떤 모델을 오픈소스로 공개할지는 신중히 결정하겠다"고 말했다.

모델 성능은 단숨에 빅테크 최상위권에 진입했다. 뮤즈 스파크는 수학·물리·화학 등 전문가 수준의 문제 2500개를 맞히는 '인류의 마지막 시험(HLE)'에서 42.8%의 정답률을 기록해 구글 제미나이3.1프로(45.4%), 오픈AI GPT-5.4(43.9%) 등 정상급 AI모델과 비슷한 성적을 냈다.

뮤즈 스파크에는 여러 AI에이전트가 병렬적으로 추론해 답변 수준을 높이는 '숙고(contemplation)' 기능도 들어갔다. 숙고 기능을 썼을 때 뮤즈 스파크의 HLE 정답률은 50.2%로 제미나이 3.1의 딥싱크(48.4%) GPT-5.4 프로(43.9%)보다 높았다.

의료 추론 능력은 다른 AI모델을 앞질렀다. 의사와 환자 간 대화 5000건을 바탕으로 의료 지식을 평가하는 '헬스벤치 하드' 성능 지표에서 뮤즈 스파크는 GPT-5.4(40.1점), 제미나이3.1프로(20.6점), 앤스로픽 오퍼스 4.6(14.8점)보다 높은 42.8점을 기록했다. 1000명이 넘는 의사와 협력해 학습 데이터를 구축한 결과다. 메타는 "사용자가 자신의 건강에 대해 배우고 개선하도록 돕는 것은 개인 초지능의 주요 응용 분야"라고 설명했다.

다만 코딩 능력을 측정하는 'SWE-벤치 프로', '터미널-벤치 2.0' 등 지표에서는 타사 대비 저조한 성과를 냈다. 앤스로픽 클로드 코드, 오픈AI 코덱스 등이 터미널(개발자 작업창)에 직접 연동되는 반면 뮤즈 스파크는 챗봇 형태로만 작동한다는 점이 한계로 지목된다. 메타 한 임원은 악시오스 인터뷰에서 "뮤즈 스파크가 첨단 기술을 선도하지는 않지만 멀티모달(여러 형태의 데이터 처리)이나 건강 정보 등에 경쟁력이 있다"고 자평했다.

"딥시크에 밀린다" 메타의 설욕

그간 AI모델 경쟁력에서 뒤처졌다는 평가를 받은 메타는 뮤즈 스파크를 통해 자존심을 되살리게 됐다. 메타가 2024년 4월 출시한 라마4는 구글·오픈AI 등 국내 경쟁사뿐만 아니라 중국 딥시크 등에도 성능이 밀린다는 지적을 받았다. 성능 지표 점수를 조작했다는 의혹도 제기됐다.

이후 저커버그 CEO는 지난해 1년간 AI 조직개편에 몰두했다. AI 데이터 분류기업 스케일AI를 148억달러(약 22조원)에 인수해 CEO였던 알렉산드르 왕을 영입했고, 그를 메타 AI부문 총책임자로 앉혔다. 저커버그 CEO는 구글 딥마인드·오픈AI 등 핵심 연구원에게 직접 이메일을 보내며 인재 확보에 나섰다. 업계에 따르면 최대 1억달러(약 1500억원) 규모의 계약 보너스와 수억달러의 주식 보상을 제시한 것으로 알려졌다.

테크전문매체 와이어드는 "메타의 새로운 AI모델은 저커버그 CEO에게 주요 인사의 자리(Big kid's table)에 합류할 기회를 줬다"고 평가했다. 이날 메타 주가는 전날보다 6.5% 오른 612.4달러에 거래를 마쳤다.

실리콘밸리=김인엽 특파원 inside@hankyung.com

Read Entire Article