웨스트문 합성데이터 홍보이미지(엔비디아 인셉션 프로그램)합성데이터(Synthetic Data)는 실제 환경에서 수집한 데이터가 아닌, 인공지능(AI)이나 알고리즘·시뮬레이션을 통해 인공적으로 생성한 데이터를 의미한다. 실제 데이터의 통계적 특성과 구조를 모방해 AI 학습에 활용할 수 있도록 만든 것이 특징이다.
글로벌 시장조사업체 리서치 네스터에 따르면 세계 합성데이터 시장은 2035년까지 연평균 34.7% 성장해 약 87억9000만달러 규모에 이를 전망이다. 지난해 약 4억달러 수준에서 10년 만에 20배 가까이 확대되는 셈이다. 최근 AI 산업 확산과 함께 '필수재'로 자리 잡고 있다.
이 같은 성장 배경에는 데이터 수요 폭증과 규제 환경 변화가 있다. 거대언어모델(LLM), 자율주행, 로봇 등 AI 기술 발전으로 학습 데이터 수요는 급격히 늘었지만 실제 데이터 확보는 비용과 시간 부담이 크다. 또한 GDPR 등 개인정보 관련 글로벌 규제가 강화되면서 실제 데이터를 대체할 수 있는 합성데이터 활용이 빠르게 확산하는 추세다.
합성데이터는 산업 현장에서 이미 폭넓게 활용되고 있다. 자율주행 분야에서는 실제 도로 환경과 유사한 가상 데이터를 생성해 시뮬레이션에 활용하고, 국방 분야에서는 실전 데이터 부족을 보완하는 수단으로 사용된다. 금융과 의료 분야에서도 개인정보 노출 없이 AI 모델을 학습시키는 대안으로 주목받고 있다.
글로벌 빅테크 기업들도 합성데이터를 적극 도입하고 있다. 구글, OpenAI, 엔비디아 등은 AI 모델 성능 개선과 데이터 확보를 위해 합성데이터 활용 비중을 확대하고 있다. 관련 시장에서는 SAS, 데이터젠, 그레텔 등이 주요 플레이어로 부상하고 있다.
다만 한계도 존재한다. 합성데이터는 원본 데이터를 기반으로 생성되기 때문에 기존 데이터의 편향을 그대로 반영할 수 있으며, 실제 환경과 차이가 발생할 경우 AI 모델 정확도를 떨어뜨릴 수 있다. AI가 생성한 데이터를 다시 학습에 활용하는 과정에서 품질이 저하되는 '모델 붕괴' 우려도 제기된다.
박정은 기자 jepark@etnews.com

2 hours ago
1



![[아이숏] 'K-AI 이노베이터' 조찬모임, 이동재 뤼튼테크놀로지스 최고제품책임자(CPO) 인사말 #shorts](https://image.inews24.com/v1/df341941d6969a.jpg)


![[아이숏] 'K-AI 이노베이터' 조찬모임, 양승현 코난테크놀로지 COO 인사말 #shorts](https://image.inews24.com/v1/5669c54acb1f73.jpg)




![[부음] 정병묵(이데일리 산업부 차장)씨 장모상](https://img.etnews.com/2017/img/facebookblank.png)



English (US) ·