제논, 컴퓨터 화면 식별·조작하는 비전 AI '훈민 VLM' 공개

5 days ago 4

제논이 컴퓨터 화면 내 요소를 정밀하게 식별하고 직접 조작할 수 있는 시각언어모델(VLM) '훈민 VLM 235B'를 4일 공개했다.

훈민 VLM 235B는 지난해 7월 선보인 '훈민 32B' 성능을 대폭 강화한 후속 버전이다. 기존 모델의 뛰어난 범용 지능을 유지하며 시각 인지 능력을 향상시켜 실무 환경에서 실행력을 갖춘 게 특징이다.

제논 인공지능(AI) 솔루션 '원에이전트' 업무 수행 역량 극대화 차원에서 컴퓨터 화면을 정확히 식별해 원하는 위치를 클릭하는 '컴퓨터 유즈' 기술, 웹사이트를 넘나들며 복잡한 업무를 수행하는 '브라우저 유즈' 역량 강화에 초점을 맞췄다.

사용자 명령을 이해해 업무 시작부터 완결까지 직접 수행하는 '액셔너블 AI'로 완성도와 실효성을 높였다는 것이다. 단일 그래픽처리장치(GPU) 자원에서 기존 서비스와 동시 구동할 수 있게 설계했다.

훈민 VLM 235B는 범용 모델이 가진 방대한 지식 체계 위에 실무 환경에서 '실행력'을 이식하는 데 집중했다. 알리바바 2350억 파라미터(매개변수) '큐원3-VL' 모델을 기반으로 사용자환경(UI) 이해와 마우스 이동 경로 등 1000여개 시나리오를 학습해 업무 수행 역량을 향상시켰다.

제논은 이번 모델에 적용된 시각 인지 기술을 고도화해 향후 피지컬 AI 영역으로 확장할 계획이다. 공정 자동화 기기나 서비스 로봇을 제어하는 '피지컬 원에이전트' 제공을 목표로 한다.

명대우 제논 부사장(CTO)은 “VLM의 자율 수행 능력을 지속 업데이트할 것”이라며 “액셔너블 AI를 넘어 피지컬 AI까지 기술력을 단계적으로 확장해 산업 현장의 AI 전환(AX)을 실질적으로 이끄는 핵심 기술 기업으로 도약하겠다”고 말했다.

박종진 기자 truth@etnews.com

Read Entire Article