Pocket TTS: CPU에 목소리를 부여하는 고품질 TTS

3 weeks ago 11

  • 1억 개의 파라미터로 구성된 Pocket TTS는 음성 복제 기능을 갖춘 경량 텍스트-음성 변환 모델로, 일반 노트북 CPU에서도 실시간 실행 가능
  • 기존의 대형 LLM 기반 TTS(10억 개 이상 파라미터) 와 소형 Kokoro TTS(8,200만 파라미터) 사이의 성능 격차를 줄이며, 고품질과 효율성을 동시에 달성
  • 5초 분량의 음성 샘플만으로 화자의 음색, 감정, 억양, 음향 조건 등을 정확히 복제
  • Continuous Audio Language Model 기반 구조를 사용해 이산 토큰 대신 연속 잠재 벡터를 직접 예측, 품질 저하 없이 모델 크기를 축소
  • MIT 라이선스 오픈소스로 공개되어, CPU 환경에서도 고품질 음성 합성을 실현하는 경량 TTS 기술의 새로운 기준 제시

Pocket TTS 개요

  • Pocket TTS는 1억 개 파라미터의 텍스트-음성 변환 모델로, 음성 복제(voice cloning) 기능을 지원
    • 노트북 CPU에서도 실시간으로 실행 가능
    • 명령어 uvx pocket-tts serve 또는 uvx pocket-tts generate로 로컬 실행 가능
  • Kyutai가 개발했으며, MIT 라이선스로 오픈소스 공개
    • 학습 데이터는 공개 영어 음성 데이터셋만 사용
    • 추가적인 비공개 데이터로의 확장 가능성 언급

기존 TTS 모델과의 비교

  • 현재 TTS 기술은 두 가지로 나뉨
    • 대형 LLM 기반 모델: 예) Kyutai TTS 1.6B (약 16억 파라미터)
      • 다양한 음성, 감정, 음향 조건을 모델링 가능하지만 GPU 필요
    • 소형 특화 모델: 예) Kokoro TTS (8,200만 파라미터)
      • 고정된 음성 세트수작업 파이프라인을 사용해 효율적이지만 유연성 제한
  • Pocket TTS는 이 두 접근법의 중간 지점을 차지하며, CPU에서도 고품질 음성 합성 가능

성능 평가

  • Librispeech test-clean 세트로 평가 수행
    • 오디오 입력은 Adobe Enhance Speech로 정제해 24kHz 품질 확보
  • 비교 대상: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • 평가 지표:
    • Word Error Rate (WER)
    • 오디오 품질(ELO)
    • 화자 유사도(ELO)
  • 결과 요약:
    • Pocket TTS는 WER 1.84로 가장 낮은 오류율
    • 오디오 품질은 F5-TTS 및 DSM보다 우수
    • 화자 유사도는 기준 음성과 동등 수준
    • CPU에서 실시간보다 빠르게 실행 가능한 유일한 모델
모델 파라미터 수 WER ↓ 오디오 품질(ELO) ↑ 화자 유사도(ELO) ↑ CPU 실시간 실행
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M 1.93 음성 복제 없음 음성 복제 없음
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • Intel Core Ultra 7 165HApple M3 CPU에서 테스트 시, Pocket TTS와 Kokoro만 실시간 합성 가능

아키텍처

  • Pocket TTS는 Continuous Audio Language Model 연구를 기반으로 설계
    • 기존 방식은 이산 오디오 토큰을 예측했으나, Pocket TTS는 연속 잠재 벡터(latent) 를 직접 예측
    • 이를 통해 RQ-transformer 병목 제거모델 경량화 달성

Neural Audio Codec

  • Mimi 코덱 기반으로 설계
    • Mimi는 이산 토큰으로 압축하지만, Pocket TTS는 연속 잠재 표현 사용
    • 정규분포로 정규화된 VAE 학습 적용
    • WavLM코사인 유사도 손실로 내재 표현에 증류(distillation)
    • RVQ 단계를 제거하고 전체 잠재 표현에 증류 손실 적용

Generative Model

  • Masked Autoregressive(MAR) 프레임워크 기반
    • Causal Transformer 백본MLP 샘플러로 구성
    • Lagrangian Self-Distillation(LSD) 손실을 사용해 1-step 샘플링 구현
    • 추론 시, 예측된 잠재 벡터를 자동회귀적으로 피드백

음성 및 텍스트 조건화

  • 모델 입력은 음성 프롬프트(몇 초)텍스트를 결합
    • 음성은 코덱 인코더로, 텍스트는 SentencePiece 토크나이저로 임베딩

모델 크기 구성

  • 생성 모델(Transformer + MLP) : 9천만 파라미터
  • 코덱 디코더: 1천만 파라미터
  • 코덱 인코더: 1,800만 파라미터 (음성 샘플 인코딩 시 1회만 사용)

학습 데이터

  • 전부 공개 영어 음성 데이터셋으로 구성, 총 88,000시간
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

주요 기술 기여

Head Batch Multiplier

  • Transformer의 연산 병목을 완화하기 위해 z 벡터를 여러 번 재사용
    • 각 입력 시퀀스에 대해 z를 한 번 계산 후 8회 손실 계산에 재활용
    • 효율성 향상학습 안정화 효과

Gaussian Temperature Sampling

  • 연속 공간에서도 샘플링 온도 조절을 적용
    • 가우시안 노이즈 분산 축소로 품질 향상
    • 온도 0.7에서 좋은 결과 확인

Latent Classifier-Free Guidance (Latent CFG)

  • 기존 CFG를 잠재 변수(z) 수준에서 적용
    • 조건부/비조건부 출력을 선형 결합해 품질 향상
    • α=1.5 사용
    • SoundReactor 연구에서도 유사 개념 등장

Distillation

  • CFG 모델을 교사 모델로 사용경량 학생 모델로 증류
    • 교사 모델의 MLP 헤드를 고정하고, 학생 모델이 L2 손실로 z를 학습
    • 24층 교사 모델 → 6층 학생 모델로 축소 가능

결론

  • Pocket TTS는 CPU에서도 실시간 고품질 음성 합성이 가능한 경량 TTS 모델
  • 연속 잠재 공간 기반 구조, 효율적 학습 기법, 음성 복제 기능을 결합
  • 오픈소스 MIT 라이선스로 공개되어, 개발자와 연구자에게 재현성과 확장성을 제공

Read Entire Article