인핸스 로고커머스 인공지능(AI) 에이전트 스타트업 인핸스가 개발한 AI 에이전트가 글로벌 웹 AI 에이전트 평가 벤치마크에서 구글, 오픈AI 등 글로벌 빅테크와 어깨를 나란히 했다.
인핸스는 자사 'ACT-1' 모델이 웹 기반 AI 벤치마크 'Online-Mind2Web'에서 구글 '제미나이 2.5', 오픈AI '오퍼레이터' 모델에 이어 전체 3위를 기록했다고 12일 밝혔다. 4위는 앤트로픽이 차지했다.
Online-Mind2Web은 최근 AI 업계에서 가장 주목받는 웹 기반 AI 벤치마크로, 단순한 문제 풀이가 아닌 현실적인 작업 수행 능력을 평가하는 데 초점을 맞춘다. AI가 실제 웹사이트에서 정보를 탐색하고, 버튼을 클릭하며, 쿠키·팝업 등 다양한 변수를 처리해 목표 결과를 달성할 수 있는지를 검증한다.
기존의 정적 페이지 기반 평가인 'Mind2Web'보다 한 단계 발전한 형태로, 136개 실제 웹사이트와 300개 작업을 통해 AI의 실질적 행동 능력을 테스트한다.
지난 7월 첫 평가에서 인핸스는 45.7점을 받아 오픈AI(61.3), 앤트로픽(56.7)에 이어 3위를 차지했지만, 불과 한 달여 만에 성능을 대폭 개선해 앤트로픽을 제치고 2위에 오르기도 했다.
인핸스가 글로벌 웹 AI 에이전트 평가 벤치마크 'Online-Mind2Web'에서 2위를 기록했던 당시 현황구글이 최근 'Gemini 2.5 Computer Use' 모델을 정식 공개하면서 3위로 밀려났지만, 인핸스는 구글·오픈AI·앤트로픽과 비견되는 수준의 성능을 입증했다. 인핸스는 국내 기업 중 유일하게 해당 리더보드 상위권에 올라 있다.
특히 ACT-1은 애초 커머스 AI 에이전트로 설계된 모델임에도 불구하고, 쇼핑몰뿐만 아니라 여행·검색·예약 등 다양한 범용 웹 작업을 포함한 평가에서도 높은 성능을 보였다. 반복 수행의 안정성과 보안성 면에서 연구용 모델보다 현업 적용성이 높다는 것이 회사 측 설명이다.
인핸스는 이러한 짧은 기간 내 급격한 성능 향상이 모델 조합 개선과 강화학습·튜닝 최적화의 결과라고 밝혔다. 커머스 특화 AI에서 출발해 글로벌 시장에서도 범용 '에이전틱 AI' 모델로 대등하게 경쟁할 수 있음을 보여줬다는 평가다.
김도균 인핸스 최고인공지능책임자(CAIO)는 “ACT-1을 개발할 때 처음부터 가격 변동, 재고 변화, 쿠폰 등 변수가 많은 커머스 환경에서도 안정적으로 동작할 수 있는 구조를 고려했다”며 “이 같은 설계 경험이 결과적으로 글로벌 톱티어 모델들과 대등한 수준으로 경쟁할 수 있는 기반이 됐다”고 말했다.
김명희 기자 noprint@etnews.com

1 month ago
12


![[더존비즈온 원 AI 프리뷰 2026]실무 특화형 '에이전틱 AI'로 승부수…'ONE AI' 적용 확대](https://img.etnews.com/news/article/2025/12/10/news-p.v1.20251210.82dba21a1f964465b88e6123691b187d_P1.jpg)
![[더존비즈온 원 AI 프리뷰 2026]지용구 부사장, “AI가 시스템 다루는 새 동료 된다”](https://img.etnews.com/news/article/2025/12/10/news-p.v1.20251210.8ed20bd7a4d640d9a1fb00ba2b183f39_P1.jpg)
![[더존비즈온 원 AI 프리뷰 2026]조홍래 삼일PwC 파트너 “전통적 ERP, AI 에이전트로 자율 실행”](https://img.etnews.com/news/article/2025/12/10/news-p.v1.20251210.7a56f99f59b947849f69294fcb69bc39_P1.jpg)
![[더존비즈온 원 AI 프리뷰 2026]장창섭 AWS 매니저, “데이터 품질이 AI 성공 좌우”](https://img.etnews.com/news/article/2025/12/10/news-p.v1.20251210.e3bdf01777ca48b2935d86c61089d86f_P1.jpg)









English (US) ·