Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트형 모델

1 week ago 5

  • Fara-7B는 70억 개의 파라미터로 구성된 초소형 에이전트형 언어 모델(SLM) 로, 웹 브라우저를 실제로 조작하며 작업을 수행하는 Computer Use Agent 구조
  • 마우스와 키보드 입력을 직접 예측해 시각적으로 웹페이지를 인식하고 조작하며, 별도의 접근성 트리나 파싱 모델 없이 인간과 동일한 방식으로 상호작용
  • 온디바이스 실행이 가능해 지연시간을 줄이고 개인정보 보호를 강화하며, 평균 16단계 내에 작업을 완료해 동급 모델 대비 효율성 향상
  • WebTailBench 등 다양한 벤치마크에서 동급 및 대형 모델을 능가하는 성능을 기록, 특히 웹 자동화와 다단계 작업에서 높은 성공률 달성
  • Microsoft가 공개한 WebTailBench 데이터셋과 함께, 웹 기반 에이전트 평가 및 재현 가능한 실험 환경을 제공해 실제 웹 상호작용 연구의 표준화에 기여

Fara-7B 개요

  • Microsoft의 첫 컴퓨터 사용 전용 에이전트형 소형 언어 모델(SLM) 로, 70억 파라미터 규모에서 최신 성능을 달성
  • Qwen2.5-VL-7B를 기반으로, Magentic-One 멀티에이전트 프레임워크를 활용한 합성 데이터(145,000개 경로)로 학습
  • 7B 파라미터로 구성되어 로컬 실행 가능, 지연시간 감소 및 데이터 프라이버시 강화

주요 특징

  • 시각적 조작 기반으로 웹페이지를 인식하고, 스크롤·클릭·입력 등 실제 사용자 행동을 모방
  • 인간과 동일한 입력 모달리티를 사용하며, 별도의 파싱 모델 불필요
  • 평균 16단계로 작업을 완료해, 유사 모델(평균 41단계) 대비 효율성 향상
  • 온디바이스 배포로 클라우드 의존도 감소 및 개인 데이터 보호 강화

지원 기능

  • 웹 검색 및 결과 요약
  • 폼 입력, 계정 관리
  • 항공권·영화·식당 예약
  • 온라인 쇼핑 및 가격 비교
  • 구인·부동산 정보 탐색

성능 비교

  • WebVoyager, Online-M2W, DeepShop, WebTailBench 등 4개 벤치마크에서 평가
  • Fara-7B는 WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% 의 성공률 기록
  • 동급 모델(UI-TARS-1.5-7B) 및 대형 모델(GLM-4.1V-9B)보다 높은 성능

WebTailBench 벤치마크

  • 11개 실제 웹 작업 유형을 포함한 609개 과제로 구성
  • 단일 사이트 작업(쇼핑, 항공, 호텔 등)과 다단계 작업(비교 쇼핑, 조합형 작업 등)을 포함
  • Fara-7B는 모든 범주에서 컴퓨터 사용 모델 중 최고 성능 기록
    • 예: 호텔 53.8%, 항공 37.9%, 쇼핑 52.4%, 비교 쇼핑 32.7%

평가 인프라

  • Playwright를 사용해 실제 브라우저 환경을 재현
  • Abstract Web Agent Interface로 다양한 모델 통합 가능
  • Fara-Agent Class를 통해 모델 실행 및 테스트 지원
  • 실험적 공개 버전으로, 샌드박스 환경에서의 실행 및 민감 데이터 사용 제한 권장

설치 및 실행

  • pip install -e . 또는 uv sync --all-extras로 설치
  • Playwright 브라우저 설치 필요
  • Azure Foundry를 통한 클라우드 호스팅 또는 VLLM을 이용한 GPU 자가 호스팅 지원
  • 명령 예시: fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

재현성 및 평가 환경

  • WebVoyagerOnlineMind2Web 평가를 재현할 수 있는 webeval/ 프레임워크 제공
  • BrowserBase 통합으로 안정적인 브라우저 세션 관리
  • 시간 민감 작업 업데이트, 환경 오류 처리, 100단계 제한 등 평가 일관성 확보
  • WebVoyager 데이터셋의 불가능한 작업 48개 제거, 미래 날짜 50개 갱신

평가 실행 및 분석

  • webeval/scripts 디렉터리에서 평가 스크립트 실행
  • VLLM 자가 호스팅 또는 Azure Foundry 엔드포인트 방식 선택 가능
  • 결과는 gpt_eval/, traj/, screenshot_X.png 등으로 저장
  • Jupyter Notebook을 이용해 평균 점수, 실패 원인, 중단된 경로 분석 가능

향후 계획

  • LLM-as-a-judge 평가용 검증 파이프라인WebTailBench의 공식 인간 주석 데이터 공개 예정
  • BrowserBase와의 협업을 통한 평가 품질 향상

인용 정보

  • 연구 사용 시 Microsoft Research의 Fara: Fast and Accurate Web Agent (2025) 논문 인용 권장

Read Entire Article