Mercury 2: 확산(diffusion) 기반 초고속 추론 LLM

1 month ago 17

확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델
한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로, 5배 이상 빠른 응답 속도를 달성
1,009토큰/초 처리 속도, 128K 컨텍스트, JSON 출력, 도구 사용 기능 등으로 실시간 애플리케이션에 최적화
코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인 등 지연(latency)에 민감한 환경에서 효율성 입증
OpenAI API와 완전 호환, 기존 인프라 수정 없이 바로 통합 가능

Mercury 2 개요

Mercury 2는 세계에서 가장 빠른 추론 언어 모델로 소개됨
- 목표는 프로덕션 AI 환경에서 즉각적인 반응성을 제공하는 것
기존 LLM의 병목은 자동회귀적 순차 디코딩(one token at a time) 구조임
- 이로 인해 반복 루프형 AI 워크플로우에서 지연이 누적되는 문제 존재

확산 기반 실시간 추론 구조

Mercury 2는 순차 디코딩 대신 병렬 정제(parallel refinement) 방식을 채택
- 여러 토큰을 동시에 생성하고, 소수 단계 내에서 수렴
- “타자기”가 아닌 “편집자”처럼 전체 초안을 반복 수정하는 형태
결과적으로 5배 이상 빠른 생성 속도와 새로운 속도 곡선을 구현
확산 기반 추론은 지연(latency)과 비용을 최소화하면서 고품질 추론을 가능하게 함

성능 및 사양

속도: NVIDIA Blackwell GPU에서 1,009 토큰/초
가격: 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75
품질: 주요 속도 최적화 모델과 경쟁 가능한 수준
기능: 조정 가능한 추론(tunable reasoning), 128K 컨텍스트, 도구 사용, JSON 스키마 정렬 출력
지연 최적화: p95 지연, 고동시성 환경에서의 일관된 응답성, 안정적 처리량 유지
NVIDIA 관계자는 Mercury 2가 NVIDIA AI 인프라와 결합해 1,000토큰/초를 초과 달성했다고 언급

프로덕션 활용 사례

1. 코딩 및 편집

자동완성, 리팩터링, 코드 에이전트 등 개발자 루프 내에서 즉각적 응답 제공
Zed 공동창업자 Max Brunsfeld는 “생각의 일부처럼 빠른 제안 속도”를 강조

2. 에이전트 루프

다단계 추론 호출이 필요한 에이전트 워크플로우에서 호출 지연 감소
Viant는 Mercury 2를 활용해 실시간 캠페인 최적화 및 자율 광고 시스템 강화
Wispr Flow는 실시간 대화 및 전사 정제에서 Mercury 2의 속도를 평가 중
Skyvern은 “GPT-5.2보다 최소 두 배 빠르다”고 언급

3. 실시간 음성 및 상호작용

음성 인터페이스는 가장 엄격한 지연 한계를 가짐
Happyverse AI는 Mercury 2로 자연스러운 실시간 대화형 아바타 구현
OpenCall은 낮은 지연과 높은 품질로 더 반응성 높은 음성 에이전트 구축 가능성을 언급

4. 검색 및 RAG 파이프라인

다중 검색·재순위·요약 과정의 누적 지연을 줄여 실시간 추론 가능
SearchBlox는 Mercury 2와의 협업으로 실시간 검색 AI를 구현,
고객지원·리스크·전자상거래 등 다양한 분야에서 초단위 인텔리전스 제공

배포 및 통합

Mercury 2는 즉시 사용 가능, OpenAI API와 완전 호환
기존 시스템에 코드 수정 없이 통합 가능
엔터프라이즈 평가 시 워크로드 적합성, 성능 검증, 평가 설계 지원 제공
공식 문구: “Mercury 2 is live. Welcome to diffusion.”

Read Entire Article