-
Qwen3-Omni-Flash-2025-12-01은 텍스트, 이미지, 오디오, 비디오를 동시에 처리하고 실시간 스트리밍으로 텍스트와 음성 출력을 생성하는 차세대 멀티모달 모델
- 오디오·비주얼 명령 이해력과 대화 안정성이 크게 향상되어 자연스럽고 일관된 음성-영상 상호작용 구현
-
시스템 프롬프트 완전 제어 기능으로 인격 스타일, 말투, 출력 길이 등 세부 조정 가능
-
119개 언어 텍스트, 19개 언어 음성 인식, 10개 언어 음성 합성을 지원하며 다국어 일관성 문제 해결
- 논리 추론, 코드 생성, 시각·음성 이해 등 전 영역에서 성능이 향상되어 자연스럽고 정밀한 AI 상호작용 경험 제공
Qwen3-Omni-Flash-2025-12-01 개요
-
Qwen3-Omni는 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 처리하고 실시간으로 텍스트와 자연스러운 음성 출력을 생성하는 네이티브 멀티모달 대형 모델
- 이번 버전 Qwen3-Omni-Flash-2025-12-01은 기존 Qwen3-Omni를 기반으로 한 전면 업그레이드 버전
- 모델 성능과 효율성을 전반적으로 개선하여 더 빠르고 정확한 멀티모달 처리 능력 제공
주요 기능 향상
-
오디오-비주얼 상호작용 강화
- 음성·영상 명령 이해와 실행 능력이 크게 향상되어 일상적 구어 상황에서의 지능 저하 문제 해결
- 다회차 오디오-비주얼 대화의 안정성과 일관성이 높아져 자연스러운 상호작용 가능
-
시스템 프롬프트 제어 강화
- 시스템 프롬프트를 완전히 사용자 정의할 수 있어 모델 행동을 정밀하게 제어 가능
- 인격 스타일(예: 달콤한, 쿨한, 애니메이션풍), 말투, 출력 길이 등 세부 요소를 세밀하게 조정
-
다국어 지원 신뢰성 향상
- 텍스트 기반 상호작용 119개 언어, 음성 인식 19개 언어, 음성 합성 10개 언어 지원
- 이전 버전의 언어 불안정 문제가 해결되어 정확하고 일관된 다국어 성능 확보
-
자연스러운 음성 합성
- 발화 속도, 멈춤, 억양을 텍스트 맥락에 따라 자동 조정하여 인간과 유사한 음성 품질 구현
- 느리거나 기계적인 음성을 제거하고 표현력 있는 자연스러운 음성 출력 제공
성능 향상 지표
-
텍스트 이해 및 생성 능력 강화
- 논리 추론 ZebraLogic +5.6, 코드 생성 LiveCodeBench-v6 +9.3, MultiPL-E +2.7, 글쓰기 품질 WritingBench +2.2 향상
- 복잡한 다단계 지시 수행의 신뢰도 향상
-
음성 이해 정확도 향상
-
Fleurs-zh에서 단어 오류율 감소, VoiceBench +3.2 개선
- 실제 대화 환경에서의 음성 이해력 강화
-
음성 합성 품질 개선
- 중국어 및 다국어 환경에서 자연스러운 억양과 리듬 구현
- 인간 음성과 유사한 발화 품질 확보
-
이미지 이해력 강화
- 시각적 추론 과제에서 MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 향상
- 다이어그램, 수학적 도형 등 복잡한 시각 콘텐츠 해석 능력 강화
-
비디오 이해력 개선
-
MLVU +1.6 향상으로 비디오 의미 이해력 강화
- 오디오-비주얼 동기화 개선으로 실시간 영상 대화 기반 강화
향후 계획
- 사용자 피드백과 Qwen3-Omni 기반 혁신적 응용 사례 수집 예정
- 향후 다화자 음성 인식(ASR) , 비디오 OCR, 오디오-비디오 자율 학습, 에이전트 기반 워크플로 및 함수 호출 지원 등 기능 확장 예정
인용 정보