Ask GN: 일전에 한국어 다중화자 관련 질문을 올렸는데요! 그 후속 진행사항 업데이트!

7 hours ago 2

이게 ASK GN에 맞는지는 모르겠네요..! 근데 뉴스나 Show는 아닌거 같아서 여기에 올립니다.

일전에 주셨던 의견들 기반으로 만들어보고 있습니다.
우연히도 같이 근무하는 사업 담당자 친구도 그런 아이디어가 있어서 비개발자 둘이서 MVP 해보자고 삽질 중이예요.
(클로드 코드 5X + API 비용 모두 자비부담 중입니다.. 사업담당자 친구는 술과 음식을 주고있어요..ㅎㅎ)

드라마/예능/영화 등 콘텐츠를 기준으로 만들고 있다보니, 쓸 수 있는 모델이 제한적이더라구요.
그래서 찾다 찾다가, Whisper(Open AI API) 와 Pyannote, Assembly AI 이렇게 사용하고 있습니다.

pyannote는 무료 기간이 끝나서 결제를 해야하는데 사용량 과금이 아니라 구독 ($19/month)다 보니 패스하고,
Deepgram Nova-3로 테스트 중에 있습니다. (회원 가입하면 $200 줍니다.)

하지만.. 역시 pyannote를 안쓰니 화자 분리가 어려워 replicate.com 에서 meronym/speaker-diarization 이걸로 화자 분리를 하고 있습니다.

최종 결과 보면 그래도 얼추 화자 분리가 되긴 합니다.
Clova랑 비교 할 예정인데, 비교 결과도 공유 드릴께요!

이제 여기서 다음 고민은