Ask GN: 일전에 한국어 다중화자 관련 질문을 올렸는데요! 그 후속 진행사항 업데이트!

7 hours ago 2

이게 ASK GN에 맞는지는 모르겠네요..! 근데 뉴스나 Show는 아닌거 같아서 여기에 올립니다.

일전에 주셨던 의견들 기반으로 만들어보고 있습니다.
우연히도 같이 근무하는 사업 담당자 친구도 그런 아이디어가 있어서 비개발자 둘이서 MVP 해보자고 삽질 중이예요.
(클로드 코드 5X + API 비용 모두 자비부담 중입니다.. 사업담당자 친구는 술과 음식을 주고있어요..ㅎㅎ)

드라마/예능/영화 등 콘텐츠를 기준으로 만들고 있다보니, 쓸 수 있는 모델이 제한적이더라구요.
그래서 찾다 찾다가, Whisper(Open AI API) 와 Pyannote, Assembly AI 이렇게 사용하고 있습니다.

pyannote는 무료 기간이 끝나서 결제를 해야하는데 사용량 과금이 아니라 구독 ($19/month)다 보니 패스하고,
Deepgram Nova-3로 테스트 중에 있습니다. (회원 가입하면 $200 줍니다.)

하지만.. 역시 pyannote를 안쓰니 화자 분리가 어려워 replicate.com 에서 meronym/speaker-diarization 이걸로 화자 분리를 하고 있습니다.

최종 결과 보면 그래도 얼추 화자 분리가 되긴 합니다.
Clova랑 비교 할 예정인데, 비교 결과도 공유 드릴께요!

이제 여기서 다음 고민은

  1. 화자 분리는 오디오 기반으로 진행되는데, 여기에 얼굴인식 기능을 추가하면 더 정교 해질까?
  2. 얼굴인식에 필요한 메타데이터는 어떻게 수집을 해야하나?
  3. 드라마/영화/예능 등의 콘텐츠를 기반으로 한다면, 메타는 어디서 얻지? (네이버, 나무위키 등등)
  4. 메타를 수집하는게 비용과 시간대비 품질이 좋아질까?

혹시 이런 쪽으로 고민 하셨던 선배님들이 계셨다면 많은 조언 부탁드립니다...!!!

Read Entire Article