- 21년전 Selenium을 개발했던 Jason Huggins가 AI 에이전트를 염두에 두고 다시 개발한 브라우저 자동화 오픈소스 프로젝트
-
Vibium은 AI 에이전트를 위한 브라우저 자동화 인프라로, 단일 바이너리로 브라우저 수명주기와 WebDriver BiDi 프로토콜을 관리하고 MCP 서버를 노출함
- 10MB짜리 싱글 Go 바이너리 Clicker 는 Chrome을 자동 감지·실행하며, BiDi 프록시와 MCP 서버를 통해 AI 모델이나 JS 클라이언트가 브라우저를 제어할 수 있게 함
-
JS/TS 클라이언트는 동기·비동기 API를 모두 지원하며, npm install vibium으로 설치 후 즉시 사용 가능
-
Claude Code 같은 LLM 에이전트는 claude mcp add vibium 명령 한 줄로 브라우저 제어 기능을 추가할 수 있음
- AI 자동화와 테스트 자동화 모두에 적합하며, 설정 없는 브라우저 제어 환경을 제공함
Vibium 개요
-
Vibium은 AI 에이전트와 인간 사용자를 위한 브라우저 자동화 인프라스트럭처
- 단일 Go 바이너리로 브라우저 관리, WebDriver BiDi 프록시, MCP 서버 기능을 통합
- Claude Code, Codex, Gemini 등 다양한 LLM 모델과 호환
-
설치 과정 없이 즉시 작동하는 구조로, AI 에이전트나 테스트 자동화 환경에서 활용 가능
구성 요소
-
Clicker: 약 10MB 크기의 Go 바이너리로, 다음 기능을 수행
- Chrome 자동 탐지 및 BiDi 모드 실행
- WebSocket 기반 BiDi 프록시 서버로 명령 전달
-
MCP 서버를 통해 LLM 에이전트와 통신
-
Auto-Wait 기능으로 요소 대기 후 상호작용
-
스크린샷 캡처 기능 제공
-
JS/TS 클라이언트: npm 패키지로 제공되며, 동기(browserSync)와 비동기(browser) API 모두 지원
-
vibe.go(), vibe.find(), vibe.click(), vibe.quit() 등 간단한 명령으로 브라우저 제어
- 스크린샷 저장, 요소 탐색, 클릭 등 기본 자동화 기능 포함
AI 에이전트 통합
-
Claude Code에 브라우저 제어 기능을 추가하는 명령:
claude mcp add vibium -- npx -y vibium
- Chrome이 자동 다운로드되어 별도 설정 불필요
- 제공 명령 목록
-
browser_launch: 브라우저 실행
-
browser_navigate: URL 이동
-
browser_find: CSS 셀렉터로 요소 탐색
-
browser_click: 요소 클릭
-
browser_type: 텍스트 입력
-
browser_screenshot: 뷰포트 캡처
-
browser_quit: 브라우저 종료
인간 사용자를 위한 설치
-
npm install vibium 명령으로 자동 설치
- 플랫폼별로 Clicker 바이너리와 Chrome for Testing, chromedriver를 캐시에 다운로드
- Linux: ~/.cache/vibium/, macOS: ~/Library/Caches/vibium/, Windows: %LOCALAPPDATA%\vibium\
- 환경 변수 VIBIUM_SKIP_BROWSER_DOWNLOAD=1로 브라우저 다운로드 생략 가능
플랫폼 지원
- Linux x64, macOS(Intel/Apple Silicon), Windows x64 모두 지원
빠른 시작
-
라이브러리 사용 예시
import { browser } from "vibium";
const vibe = await browser.launch();
await vibe.go("https://example.com";);
const el = await vibe.find("a");
await el.click();
await vibe.quit();
-
Claude Code 연동 예시
- 설치 후 “Go to example.com and click the first link”와 같은 명령으로 브라우저 조작 가능
로드맵
-
V1: MCP 및 JS 클라이언트를 통한 브라우저 제어에 집중
-
V2 계획
- Python 및 Java 클라이언트
-
Cortex(메모리·내비게이션 계층)
-
Retina(녹화 확장 기능)
- 비디오 녹화, AI 기반 요소 탐색 기능