Mercury 2: 확산(diffusion) 기반 초고속 추론 LLM

2 days ago 5

  • 확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델
  • 한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로, 5배 이상 빠른 응답 속도를 달성
  • 1,009토큰/초 처리 속도, 128K 컨텍스트, JSON 출력, 도구 사용 기능 등으로 실시간 애플리케이션에 최적화
  • 코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인 등 지연(latency)에 민감한 환경에서 효율성 입증
  • OpenAI API와 완전 호환, 기존 인프라 수정 없이 바로 통합 가능

Mercury 2 개요

  • Mercury 2는 세계에서 가장 빠른 추론 언어 모델로 소개됨
    • 목표는 프로덕션 AI 환경에서 즉각적인 반응성을 제공하는 것
  • 기존 LLM의 병목은 자동회귀적 순차 디코딩(one token at a time) 구조임
    • 이로 인해 반복 루프형 AI 워크플로우에서 지연이 누적되는 문제 존재

확산 기반 실시간 추론 구조

  • Mercury 2는 순차 디코딩 대신 병렬 정제(parallel refinement) 방식을 채택
    • 여러 토큰을 동시에 생성하고, 소수 단계 내에서 수렴
    • “타자기”가 아닌 “편집자”처럼 전체 초안을 반복 수정하는 형태
  • 결과적으로 5배 이상 빠른 생성 속도새로운 속도 곡선을 구현
  • 확산 기반 추론은 지연(latency)과 비용을 최소화하면서 고품질 추론을 가능하게 함

성능 및 사양

  • 속도: NVIDIA Blackwell GPU에서 1,009 토큰/초
  • 가격: 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75
  • 품질: 주요 속도 최적화 모델과 경쟁 가능한 수준
  • 기능: 조정 가능한 추론(tunable reasoning), 128K 컨텍스트, 도구 사용, JSON 스키마 정렬 출력
  • 지연 최적화: p95 지연, 고동시성 환경에서의 일관된 응답성, 안정적 처리량 유지
  • NVIDIA 관계자는 Mercury 2가 NVIDIA AI 인프라와 결합해 1,000토큰/초를 초과 달성했다고 언급

프로덕션 활용 사례

1. 코딩 및 편집

  • 자동완성, 리팩터링, 코드 에이전트 등 개발자 루프 내에서 즉각적 응답 제공
  • Zed 공동창업자 Max Brunsfeld는 “생각의 일부처럼 빠른 제안 속도”를 강조

2. 에이전트 루프

  • 다단계 추론 호출이 필요한 에이전트 워크플로우에서 호출 지연 감소
  • Viant는 Mercury 2를 활용해 실시간 캠페인 최적화 및 자율 광고 시스템 강화
  • Wispr Flow는 실시간 대화 및 전사 정제에서 Mercury 2의 속도를 평가 중
  • Skyvern은 “GPT-5.2보다 최소 두 배 빠르다”고 언급

3. 실시간 음성 및 상호작용

  • 음성 인터페이스는 가장 엄격한 지연 한계를 가짐
  • Happyverse AI는 Mercury 2로 자연스러운 실시간 대화형 아바타 구현
  • OpenCall은 낮은 지연과 높은 품질로 더 반응성 높은 음성 에이전트 구축 가능성을 언급

4. 검색 및 RAG 파이프라인

  • 다중 검색·재순위·요약 과정의 누적 지연을 줄여 실시간 추론 가능
  • SearchBlox는 Mercury 2와의 협업으로 실시간 검색 AI를 구현,
    고객지원·리스크·전자상거래 등 다양한 분야에서 초단위 인텔리전스 제공

배포 및 통합

  • Mercury 2는 즉시 사용 가능, OpenAI API와 완전 호환
  • 기존 시스템에 코드 수정 없이 통합 가능
  • 엔터프라이즈 평가 시 워크로드 적합성, 성능 검증, 평가 설계 지원 제공
  • 공식 문구: “Mercury 2 is live. Welcome to diffusion.

Read Entire Article