Pocket TTS: CPU에 목소리를 부여하는 고품질 TTS

3 weeks ago 11

1억 개의 파라미터로 구성된 Pocket TTS는 음성 복제 기능을 갖춘 경량 텍스트-음성 변환 모델로, 일반 노트북 CPU에서도 실시간 실행 가능
기존의 대형 LLM 기반 TTS(10억 개 이상 파라미터) 와 소형 Kokoro TTS(8,200만 파라미터) 사이의 성능 격차를 줄이며, 고품질과 효율성을 동시에 달성
약 5초 분량의 음성 샘플만으로 화자의 음색, 감정, 억양, 음향 조건 등을 정확히 복제
Continuous Audio Language Model 기반 구조를 사용해 이산 토큰 대신 연속 잠재 벡터를 직접 예측, 품질 저하 없이 모델 크기를 축소
MIT 라이선스 오픈소스로 공개되어, CPU 환경에서도 고품질 음성 합성을 실현하는 경량 TTS 기술의 새로운 기준 제시

Pocket TTS 개요

Pocket TTS는 1억 개 파라미터의 텍스트-음성 변환 모델로, 음성 복제(voice cloning) 기능을 지원
- 노트북 CPU에서도 실시간으로 실행 가능
- 명령어 uvx pocket-tts serve 또는 uvx pocket-tts generate로 로컬 실행 가능
Kyutai가 개발했으며, MIT 라이선스로 오픈소스 공개
- 학습 데이터는 공개 영어 음성 데이터셋만 사용
- 추가적인 비공개 데이터로의 확장 가능성 언급

기존 TTS 모델과의 비교

현재 TTS 기술은 두 가지로 나뉨
- 대형 LLM 기반 모델: 예) Kyutai TTS 1.6B (약 16억 파라미터)
  - 다양한 음성, 감정, 음향 조건을 모델링 가능하지만 GPU 필요
- 소형 특화 모델: 예) Kokoro TTS (8,200만 파라미터)
  - 고정된 음성 세트와 수작업 파이프라인을 사용해 효율적이지만 유연성 제한
Pocket TTS는 이 두 접근법의 중간 지점을 차지하며, CPU에서도 고품질 음성 합성 가능

성능 평가

Librispeech test-clean 세트로 평가 수행
- 오디오 입력은 Adobe Enhance Speech로 정제해 24kHz 품질 확보
비교 대상: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
평가 지표:
- Word Error Rate (WER)
- 오디오 품질(ELO)
- 화자 유사도(ELO)
결과 요약:
- Pocket TTS는 WER 1.84로 가장 낮은 오류율
- 오디오 품질은 F5-TTS 및 DSM보다 우수
- 화자 유사도는 기준 음성과 동등 수준
- CPU에서 실시간보다 빠르게 실행 가능한 유일한 모델

모델 파라미터 수 WER ↓ 오디오 품질(ELO) ↑ 화자 유사도(ELO) ↑ CPU 실시간 실행

F5-TTS	336M	2.21	1949 ± 27	1946 ± 26	✗
Kyutai TTS 1.6B	750M	1.84	1959 ± 25	2037 ± 21	✗
Chatterbox Turbo	350M	3.24	2055 ± 23	2012 ± 22	✗
Kokoro	82M	1.93	음성 복제 없음	음성 복제 없음	✓
Pocket TTS	100M	1.84	2016 ± 25	1898 ± 26	✓

Intel Core Ultra 7 165H 및 Apple M3 CPU에서 테스트 시, Pocket TTS와 Kokoro만 실시간 합성 가능

아키텍처

Pocket TTS는 Continuous Audio Language Model 연구를 기반으로 설계
- 기존 방식은 이산 오디오 토큰을 예측했으나, Pocket TTS는 연속 잠재 벡터(latent) 를 직접 예측
- 이를 통해 RQ-transformer 병목 제거 및 모델 경량화 달성

Neural Audio Codec

Mimi 코덱 기반으로 설계
- Mimi는 이산 토큰으로 압축하지만, Pocket TTS는 연속 잠재 표현 사용
- 정규분포로 정규화된 VAE 학습 적용
- WavLM을 코사인 유사도 손실로 내재 표현에 증류(distillation)
- RVQ 단계를 제거하고 전체 잠재 표현에 증류 손실 적용

Generative Model

Masked Autoregressive(MAR) 프레임워크 기반
- Causal Transformer 백본과 MLP 샘플러로 구성
- Lagrangian Self-Distillation(LSD) 손실을 사용해 1-step 샘플링 구현
- 추론 시, 예측된 잠재 벡터를 자동회귀적으로 피드백

음성 및 텍스트 조건화

모델 입력은 음성 프롬프트(몇 초) 와 텍스트를 결합
- 음성은 코덱 인코더로, 텍스트는 SentencePiece 토크나이저로 임베딩

모델 크기 구성

생성 모델(Transformer + MLP) : 9천만 파라미터
코덱 디코더: 1천만 파라미터
코덱 인코더: 1,800만 파라미터 (음성 샘플 인코딩 시 1회만 사용)

학습 데이터

전부 공개 영어 음성 데이터셋으로 구성, 총 88,000시간
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

주요 기술 기여

Head Batch Multiplier

Transformer의 연산 병목을 완화하기 위해 z 벡터를 여러 번 재사용
- 각 입력 시퀀스에 대해 z를 한 번 계산 후 8회 손실 계산에 재활용
- 효율성 향상 및 학습 안정화 효과

Gaussian Temperature Sampling

연속 공간에서도 샘플링 온도 조절을 적용
- 가우시안 노이즈 분산 축소로 품질 향상
- 온도 0.7에서 좋은 결과 확인

Latent Classifier-Free Guidance (Latent CFG)

기존 CFG를 잠재 변수(z) 수준에서 적용
- 조건부/비조건부 출력을 선형 결합해 품질 향상
- α=1.5 사용
- SoundReactor 연구에서도 유사 개념 등장

Distillation

CFG 모델을 교사 모델로 사용해 경량 학생 모델로 증류
- 교사 모델의 MLP 헤드를 고정하고, 학생 모델이 L2 손실로 z를 학습
- 24층 교사 모델 → 6층 학생 모델로 축소 가능

결론

Pocket TTS는 CPU에서도 실시간 고품질 음성 합성이 가능한 경량 TTS 모델
연속 잠재 공간 기반 구조, 효율적 학습 기법, 음성 복제 기능을 결합
오픈소스 MIT 라이선스로 공개되어, 개발자와 연구자에게 재현성과 확장성을 제공

Read Entire Article