플리토, '아랍어 음성 데이터 수집 프로젝트' 개시…"글로벌 AI 언어격차 해소"

4 hours ago 1

30개 이상 방언 등 아랍어 사용 환경 반영 고품질 AI 학습용 언어 데이터 구축

[아이뉴스24 윤소진 기자] 인공지능(AI) 데이터 및 솔루션 전문 기업 플리토(대표 이정수)는 AI 모델 다국어 인식률 향상을 위한 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다고 10일 밝혔다.

플리토는 AI 모델 다국어 인식률 향상을 위한 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다. [사진=플리토]플리토는 AI 모델 다국어 인식률 향상을 위한 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다. [사진=플리토]

이번 프로젝트는 음성인식(Speech To Text, STT) 모델의 취약 언어 중 하나로 꼽히는 아랍어의 낮은 인식률을 개선하고, 지역에 따른 방언 차이를 체계적으로 반영하기 위해 기획됐다.

아랍어는 표준어(Modern Standard Arabic, MSA) 외에도 30개 이상의 방언이 존재한다. 구어체에서는 MSA와 방언을 섞어서 사용하는 코드 스위칭(Code-Switching) 현상이 빈번하게 발생해 AI 학습 데이터 구축 난이도가 높다.

플리토는 자사 모바일 애플리케이션 내 음성 데이터 수집 기능인 아케이드(Arcade)를 활용해 아랍어 음성 데이터 수집 이벤트를 오픈하고 아랍어 유저들이 직접 참여하는 자연스러운 음성 데이터를 수집하고 있다.

참여자가 제시된 문장을 읽은 뒤 발음을 녹음하면 AI 시스템은 이를 자동 분석해 발화한 음성이 어떤 유형의 방언인지 판별한다. 방언 유형이 불확실한 경우에는 추가 문장을 제시해 재참여를 안내하고 정확도를 높이는 구조로 설계됐다.

플리토는 이번 아랍어 음성 데이터 수집으로 단순 음성 수집을 넘어, 발화자의 패턴, 억양, 어휘 선택 등 언어적 다양성이 반영된 정교한 학습용 데이터 구축이 가능할 것으로 기대하고 있다. 언어 자원 편차에 따른 AI 학습 편향을 완화하고, 실사용 환경에서도 높은 인식률을 구현할 수 있는 데이터셋으로 발전시킨다는 방침이다.

이정수 플리토 대표는 “아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어지만, 사용 인구에 비해 AI 학습용 데이터가 적은 저자원 언어에 속한다”며 “기술적으로는 여전히 다루기 어려운 언어지만, 이번 프로젝트를 통해 아랍어 고유의 특성과 실제 사용 맥락을 체계적으로 반영한 데이터 구축으로 글로벌 AI 모델의 아랍어 인식 품질을 한층 끌어올리는 데 기여하겠다”고 밝혔다.

/윤소진 기자(sojin@inews24.com)








포토뉴스



Read Entire Article