Gemini 3.1 Flash TTS - 자연어로 음성 스타일을 제어하는 차세대 AI 음성 모델

1 month ago 24

Google이 새롭게 출시한 텍스트-투-스피치 모델로, 기존 대비 향상된 자연스러움과 표현력을 갖추고 있으며 개발자·기업·일반 사용자 모두를 위한 AI 음성 애플리케이션 구축 지원
새롭게 도입된 오디오 태그 기능으로 자연어 명령을 텍스트에 직접 삽입해 음성 스타일, 속도, 전달 방식을 세밀하게 제어 가능
Artificial Analysis TTS 리더보드에서 Elo 점수 1,211을 기록했으며, 고품질 음성 생성과 낮은 비용의 이상적 조합으로 평가
70개 이상 언어를 지원하고, 네이티브 다중 화자 대화 기능 내장
모든 생성 오디오에 SynthID 워터마크가 적용되어 AI 생성 콘텐츠의 신뢰성 있는 탐지와 허위정보 방지 가능

출시 및 제공 채널

Gemini 3.1 Flash TTS는 최신 텍스트-투-스피치 모델로, 향상된 제어성, 표현력, 품질을 제공
현재 다음 채널을 통해 프리뷰로 제공 중:
- 개발자 대상: Gemini API 및 Google AI Studio
- 기업 대상: Vertex AI
- Workspace 사용자 대상: Google Vids

전체적인 음성 품질이 개선되어 현재까지 가장 자연스럽고 표현력 있는 모델
Artificial Analysis TTS 리더보드에서 수천 건의 블라인드 인간 선호도 평가를 기반으로 Elo 1,211점 달성
Artificial Analysis가 Gemini 3.1 Flash TTS를 고품질 음성 생성과 낮은 비용의 이상적 조합으로 "most attractive quadrant"에 배치
네이티브 다중 화자 대화, 70개 이상 언어 지원, 자연어 기반 세밀한 창작 제어 기능으로 차별화

새로운 오디오 태그 기능 도입으로 음성 스타일, 속도, 전달 방식을 직관적으로 제어 가능
텍스트 입력에 자연어 명령을 직접 삽입하여 AI 음성 출력을 세밀하게 조정
기업은 Vertex AI 내에서 오디오 태그를 활용해 차세대 엔터프라이즈 애플리케이션 구축 가능
Google AI Studio에서 개발자를 "감독석(director's chair)"에 앉히는 구성 가능한 컨트롤 제공:
- Scene direction: 환경을 정의하고 구체적인 대사 지시를 설정하여 캐릭터가 여러 턴에 걸쳐 자연스럽게 반응하도록 월드빌딩 컨텍스트 제공
- Speaker-level specificity: 고유한 Audio Profile로 캐릭터를 캐스팅하고, Director's Notes로 속도·톤·억양을 조절하며, 인라인 태그를 통해 문장 중간에도 표현 전환 가능
- Seamless export: 완성된 파라미터를 Gemini API 코드로 내보내기 가능하여 다양한 프로젝트와 플랫폼에서 일관된 음성 유지
이러한 구성을 통해 개발자는 기억에 남는 캐릭터와 몰입감 있는 오디오 경험 구현 가능

70개 이상 언어에서 고충실도 음성과 정밀한 제어 제공
주요 시장에 대한 고급 스타일, 속도, 억양 제어를 통해 로컬라이즈된 음성 경험 구축 가능
초기 테스터인 개발자와 기업들은 3.1 Flash TTS의 인상적인 제어성과 표현력을 높이 평가
- 오디오 태그가 새로운 수준의 창작 정밀도를 제공하며, 단순 텍스트를 고충실도 보컬 퍼포먼스로 변환한다는 피드백