Gemini 3.1 Flash TTS - 자연어로 음성 스타일을 제어하는 차세대 AI 음성 모델
4 hours ago
2
- Google이 새롭게 출시한 텍스트-투-스피치 모델로, 기존 대비 향상된 자연스러움과 표현력을 갖추고 있으며 개발자·기업·일반 사용자 모두를 위한 AI 음성 애플리케이션 구축 지원
- 새롭게 도입된 오디오 태그 기능으로 자연어 명령을 텍스트에 직접 삽입해 음성 스타일, 속도, 전달 방식을 세밀하게 제어 가능
- Artificial Analysis TTS 리더보드에서 Elo 점수 1,211을 기록했으며, 고품질 음성 생성과 낮은 비용의 이상적 조합으로 평가
- 70개 이상 언어를 지원하고, 네이티브 다중 화자 대화 기능 내장
- 모든 생성 오디오에 SynthID 워터마크가 적용되어 AI 생성 콘텐츠의 신뢰성 있는 탐지와 허위정보 방지 가능
출시 및 제공 채널
- Gemini 3.1 Flash TTS는 최신 텍스트-투-스피치 모델로, 향상된 제어성, 표현력, 품질을 제공
- 현재 다음 채널을 통해 프리뷰로 제공 중:
- 개발자 대상: Gemini API 및 Google AI Studio
- 기업 대상: Vertex AI
- Workspace 사용자 대상: Google Vids
향상된 음성 품질 및 제어성
- 전체적인 음성 품질이 개선되어 현재까지 가장 자연스럽고 표현력 있는 모델
- Artificial Analysis TTS 리더보드에서 수천 건의 블라인드 인간 선호도 평가를 기반으로 Elo 1,211점 달성
- Artificial Analysis가 Gemini 3.1 Flash TTS를 고품질 음성 생성과 낮은 비용의 이상적 조합으로 "most attractive quadrant"에 배치
- 네이티브 다중 화자 대화, 70개 이상 언어 지원, 자연어 기반 세밀한 창작 제어 기능으로 차별화
오디오 태그를 통한 표현력 강화
- 새로운 오디오 태그 기능 도입으로 음성 스타일, 속도, 전달 방식을 직관적으로 제어 가능
- 텍스트 입력에 자연어 명령을 직접 삽입하여 AI 음성 출력을 세밀하게 조정
- 기업은 Vertex AI 내에서 오디오 태그를 활용해 차세대 엔터프라이즈 애플리케이션 구축 가능
- Google AI Studio에서 개발자를 "감독석(director's chair)"에 앉히는 구성 가능한 컨트롤 제공:
- Scene direction: 환경을 정의하고 구체적인 대사 지시를 설정하여 캐릭터가 여러 턴에 걸쳐 자연스럽게 반응하도록 월드빌딩 컨텍스트 제공
- Speaker-level specificity: 고유한 Audio Profile로 캐릭터를 캐스팅하고, Director's Notes로 속도·톤·억양을 조절하며, 인라인 태그를 통해 문장 중간에도 표현 전환 가능
- Seamless export: 완성된 파라미터를 Gemini API 코드로 내보내기 가능하여 다양한 프로젝트와 플랫폼에서 일관된 음성 유지
- 이러한 구성을 통해 개발자는 기억에 남는 캐릭터와 몰입감 있는 오디오 경험 구현 가능
글로벌 스케일 지원
- 70개 이상 언어에서 고충실도 음성과 정밀한 제어 제공
- 주요 시장에 대한 고급 스타일, 속도, 억양 제어를 통해 로컬라이즈된 음성 경험 구축 가능
- 초기 테스터인 개발자와 기업들은 3.1 Flash TTS의 인상적인 제어성과 표현력을 높이 평가
- 오디오 태그가 새로운 수준의 창작 정밀도를 제공하며, 단순 텍스트를 고충실도 보컬 퍼포먼스로 변환한다는 피드백
SynthID 워터마킹
- Gemini 3.1 Flash TTS가 생성하는 모든 오디오에 SynthID 워터마크 적용
- 인지할 수 없는 워터마크가 오디오 출력에 직접 삽입되어 AI 생성 콘텐츠의 신뢰성 있는 탐지 가능
- 허위정보 방지를 위한 안전장치로 기능하며, 모델 카드를 통해 안전성과 책임에 대한 상세 정보 제공
-
Homepage
-
개발자
- Gemini 3.1 Flash TTS - 자연어로 음성 스타일을 제어하는 차세대 AI 음성 모델