-
Fara-7B는 70억 개의 파라미터로 구성된 초소형 에이전트형 언어 모델(SLM) 로, 웹 브라우저를 실제로 조작하며 작업을 수행하는 Computer Use Agent 구조
- 마우스와 키보드 입력을 직접 예측해 시각적으로 웹페이지를 인식하고 조작하며, 별도의 접근성 트리나 파싱 모델 없이 인간과 동일한 방식으로 상호작용
-
온디바이스 실행이 가능해 지연시간을 줄이고 개인정보 보호를 강화하며, 평균 16단계 내에 작업을 완료해 동급 모델 대비 효율성 향상
-
WebTailBench 등 다양한 벤치마크에서 동급 및 대형 모델을 능가하는 성능을 기록, 특히 웹 자동화와 다단계 작업에서 높은 성공률 달성
- Microsoft가 공개한 WebTailBench 데이터셋과 함께, 웹 기반 에이전트 평가 및 재현 가능한 실험 환경을 제공해 실제 웹 상호작용 연구의 표준화에 기여
Fara-7B 개요
- Microsoft의 첫 컴퓨터 사용 전용 에이전트형 소형 언어 모델(SLM) 로, 70억 파라미터 규모에서 최신 성능을 달성
-
Qwen2.5-VL-7B를 기반으로, Magentic-One 멀티에이전트 프레임워크를 활용한 합성 데이터(145,000개 경로)로 학습
-
7B 파라미터로 구성되어 로컬 실행 가능, 지연시간 감소 및 데이터 프라이버시 강화
주요 특징
-
시각적 조작 기반으로 웹페이지를 인식하고, 스크롤·클릭·입력 등 실제 사용자 행동을 모방
-
인간과 동일한 입력 모달리티를 사용하며, 별도의 파싱 모델 불필요
-
평균 16단계로 작업을 완료해, 유사 모델(평균 41단계) 대비 효율성 향상
-
온디바이스 배포로 클라우드 의존도 감소 및 개인 데이터 보호 강화
지원 기능
- 웹 검색 및 결과 요약
- 폼 입력, 계정 관리
- 항공권·영화·식당 예약
- 온라인 쇼핑 및 가격 비교
- 구인·부동산 정보 탐색
성능 비교
-
WebVoyager, Online-M2W, DeepShop, WebTailBench 등 4개 벤치마크에서 평가
- Fara-7B는 WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% 의 성공률 기록
- 동급 모델(UI-TARS-1.5-7B) 및 대형 모델(GLM-4.1V-9B)보다 높은 성능
WebTailBench 벤치마크
-
11개 실제 웹 작업 유형을 포함한 609개 과제로 구성
- 단일 사이트 작업(쇼핑, 항공, 호텔 등)과 다단계 작업(비교 쇼핑, 조합형 작업 등)을 포함
- Fara-7B는 모든 범주에서 컴퓨터 사용 모델 중 최고 성능 기록
- 예: 호텔 53.8%, 항공 37.9%, 쇼핑 52.4%, 비교 쇼핑 32.7%
평가 인프라
-
Playwright를 사용해 실제 브라우저 환경을 재현
-
Abstract Web Agent Interface로 다양한 모델 통합 가능
-
Fara-Agent Class를 통해 모델 실행 및 테스트 지원
- 실험적 공개 버전으로, 샌드박스 환경에서의 실행 및 민감 데이터 사용 제한 권장
설치 및 실행
-
pip install -e . 또는 uv sync --all-extras로 설치
-
Playwright 브라우저 설치 필요
-
Azure Foundry를 통한 클라우드 호스팅 또는 VLLM을 이용한 GPU 자가 호스팅 지원
- 명령 예시:
fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
재현성 및 평가 환경
-
WebVoyager와 OnlineMind2Web 평가를 재현할 수 있는 webeval/ 프레임워크 제공
-
BrowserBase 통합으로 안정적인 브라우저 세션 관리
-
시간 민감 작업 업데이트, 환경 오류 처리, 100단계 제한 등 평가 일관성 확보
-
WebVoyager 데이터셋의 불가능한 작업 48개 제거, 미래 날짜 50개 갱신
평가 실행 및 분석
-
webeval/scripts 디렉터리에서 평가 스크립트 실행
-
VLLM 자가 호스팅 또는 Azure Foundry 엔드포인트 방식 선택 가능
- 결과는 gpt_eval/, traj/, screenshot_X.png 등으로 저장
-
Jupyter Notebook을 이용해 평균 점수, 실패 원인, 중단된 경로 분석 가능
향후 계획
-
LLM-as-a-judge 평가용 검증 파이프라인 및 WebTailBench의 공식 인간 주석 데이터 공개 예정
-
BrowserBase와의 협업을 통한 평가 품질 향상
인용 정보
- 연구 사용 시 Microsoft Research의 Fara: Fast and Accurate Web Agent (2025) 논문 인용 권장