bigset - 세상의 모든 데이터를 가지고 있다면?
2 hours ago
1
- 자연어 한 문장으로 라이브 웹에서 구조화된 데이터셋을 생성하고, 설정한 주기마다 자동 갱신하는 오픈소스 도구
- 예: "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"
- 입력 문장에서 스키마를 자동 추론 - 컬럼명, 타입, 기본 키, 웹에서 찾을 위치까지 결정
- 자율 에이전트가 라이브 웹을 조사하고, 실제 출처와 대조 검증 후 중복 제거해 표로 반환
- 오케스트레이터 에이전트가 엔티티를 발견하면, 서브 에이전트가 병렬로 분산되어 각 엔티티를 조사·검증
- 결과물은 CSV / XLSX로 다운로드, UI에서 탐색 가능
- 갱신 주기(30분, 6시간, 12시간, 일간, 주간) 설정 시 에이전트가 일정대로 재실행되어 데이터셋을 계속 갱신
- 사람이든 AI 에이전트든 웹과의 모든 상호작용은 결국 데이터로 귀결됨 (가격, 기업, 채용, 연구, 가용성, 재고 등)
- 이 데이터는 여러 페이지에 흩어져있고, 기존 스크래핑/검색 API/LeadGen 도구가 해주지 못하는 카테고리 교차 데이터 수집 을 처리해 줌
— 검색/추출/스키마 설계/중복 제거/검증/크론 작업을 매번 직접하거나 통합 작업을 할 필요 없음
- 터미널 CLI로도 데이터셋 생성·내보내기 가능
- bigset create "..." --rows 30 --wait --csv
- 단, 아직 실험단계로 스키마 추론이 항상 완벽하지는 않음. 공개 데이터에만 적합
- 기술 스택
- 프론트엔드: Next.js 16, React 19, Tailwind 4
- 백엔드: Fastify, TypeScript (에이전트 러너)
- 인증: 로컬 인증(개발), Clerk(클라우드)
- 데이터베이스: Convex(self-hosted)
- 데이터 수집: TinyFish API(Search, Fetch, Browser)
- AI 오케스트레이션: Mastra 워크플로 + Vercel AI SDK + OpenRouter → Claude Sonnet(스키마 추론 + populate 에이전트)
- 테이블 뷰: TanStack Table + react-window 가상화
- 내보내기: CSV(내장) + XLSX(SheetJS, 동적 임포트)
- 분석: PostHog — 이벤트, 세션 리플레이, 오류 추적(선택)
- AGPL-3.0 라이선스
-
Homepage
-
개발자
- bigset - 세상의 모든 데이터를 가지고 있다면?