Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트형 모델

1 week ago 5

Fara-7B는 70억 개의 파라미터로 구성된 초소형 에이전트형 언어 모델(SLM) 로, 웹 브라우저를 실제로 조작하며 작업을 수행하는 Computer Use Agent 구조
마우스와 키보드 입력을 직접 예측해 시각적으로 웹페이지를 인식하고 조작하며, 별도의 접근성 트리나 파싱 모델 없이 인간과 동일한 방식으로 상호작용
온디바이스 실행이 가능해 지연시간을 줄이고 개인정보 보호를 강화하며, 평균 16단계 내에 작업을 완료해 동급 모델 대비 효율성 향상
WebTailBench 등 다양한 벤치마크에서 동급 및 대형 모델을 능가하는 성능을 기록, 특히 웹 자동화와 다단계 작업에서 높은 성공률 달성
Microsoft가 공개한 WebTailBench 데이터셋과 함께, 웹 기반 에이전트 평가 및 재현 가능한 실험 환경을 제공해 실제 웹 상호작용 연구의 표준화에 기여

Fara-7B 개요

Microsoft의 첫 컴퓨터 사용 전용 에이전트형 소형 언어 모델(SLM) 로, 70억 파라미터 규모에서 최신 성능을 달성
Qwen2.5-VL-7B를 기반으로, Magentic-One 멀티에이전트 프레임워크를 활용한 합성 데이터(145,000개 경로)로 학습
7B 파라미터로 구성되어 로컬 실행 가능, 지연시간 감소 및 데이터 프라이버시 강화

WebVoyager, Online-M2W, DeepShop, WebTailBench 등 4개 벤치마크에서 평가
Fara-7B는 WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% 의 성공률 기록
동급 모델(UI-TARS-1.5-7B) 및 대형 모델(GLM-4.1V-9B)보다 높은 성능

11개 실제 웹 작업 유형을 포함한 609개 과제로 구성
단일 사이트 작업(쇼핑, 항공, 호텔 등)과 다단계 작업(비교 쇼핑, 조합형 작업 등)을 포함
Fara-7B는 모든 범주에서 컴퓨터 사용 모델 중 최고 성능 기록
- 예: 호텔 53.8%, 항공 37.9%, 쇼핑 52.4%, 비교 쇼핑 32.7%

pip install -e . 또는 uv sync --all-extras로 설치
Playwright 브라우저 설치 필요
Azure Foundry를 통한 클라우드 호스팅 또는 VLLM을 이용한 GPU 자가 호스팅 지원
명령 예시: fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";