-
ExoPriors의 Alignment Scry는 Claude Code를 통해 arXiv, Hacker News, LessWrong 등에서 수집한 60M개 문서와 22M개 임베딩을 SQL과 벡터 연산으로 검색할 수 있는 플랫폼
- 공개 API 키를 제공하며, BM25 기반 텍스트 검색과 pgvector 코사인 거리 기반 의미 검색을 모두 지원
-
alignment.search()와 alignment.search_exhaustive() 함수로 빠른 샘플 검색과 완전 검색을 구분해 수행 가능
-
Claude Web 또는 Claude Code 환경에서 간단히 설정해 API를 호출할 수 있으며, 개인 핸들(@handle)과 임베딩 저장 기능을 제공
- 연구자에게 무료로 개방되어 있으며, AI 연구 및 정보 탐색 자동화를 위한 대규모 데이터 질의 실험 환경으로 중요함
개요
- Alignment Scry는 지능 폭발 관련 문서 인덱스를 대상으로 SQL과 벡터 대수 연산을 수행할 수 있는 검색 시스템
- 주요 데이터 출처는 arXiv, Hacker News, LessWrong, community-archive.org 등
- 사용자는 Claude Code를 통해 자연어 질의나 SQL 명령으로 데이터 탐색 가능
- 시스템은 Alpha 실험 단계로, Lens Studio라는 LessWrong 중심 탐색 도구도 포함
Claude 통합 및 접근 방식
- Claude Code 또는 Claude Web에서 API 접근 설정을 통해 즉시 사용 가능
- Code 실행, 파일 생성, 네트워크 접근을 허용하고 api.exopriors.com을 도메인 화이트리스트에 추가
- 공개 API 키 exopriors_public_readonly_v1_2025를 통해 로그인 없이 접근 가능
- Claude 모델이 API 호출 시마다 사용자 승인 절차를 거치지 않도록 --dangerously-skip-permissions 옵션 사용 가능(위험 수반)
- Opus 4.5 이상의 모델 사용을 권장하며, 프롬프트 인젝션 공격 위험이 존재함을 명시
주요 기능
-
Query: 6천만 개 문서에 대해 SQL 질의 수행
-
Embed: 의미 검색용 임베딩 저장 및 재사용
-
Timeout: 부하에 따라 20~120초 내외로 자동 조정
-
검색 대상: post, comment, paper, tweet 등 다양한 문서 유형
-
Lexical Search: BM25 기반 키워드 검색, 구문 검색, 퍼지 매칭 지원
-
Semantic Search: pgvector 코사인 거리(<=>)를 이용한 의미 유사도 검색
질의 및 성능 관리
-
alignment.search()는 상위 100개 BM25 결과만 반환하며, 빠른 탐색용 샘플링에 적합
-
alignment.search_exhaustive()는 완전 검색을 수행하며 페이지네이션 지원
-
성능 가이드라인
- 단순 검색: 1–5초
- 임베딩 조인(50만 행 이하): 5–20초
- 복잡한 집계(200만 행 이하): 20–60초
- 대규모 스캔(500만 행 이상): 부하 시 타임아웃 가능
-
쿼리 실행 전 요약 표시 및 사용자 확인 절차를 통해 과부하 방지
-
LIMIT, estimated_rows, join 크기 등을 기준으로 무거운 쿼리를 자동 식별
데이터 구조 및 뷰
-
alignment 스키마 내에 materialized view 제공
- 예: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments 등
- 주요 컬럼: entity_id, uri, source, kind, original_author, title, score, embedding 등
-
alignment.entities 테이블과 조인하여 메타데이터 접근 가능
-
alignment.author_topics() 함수로 특정 주제와 저자 간 교차 분석 가능
벡터 연산 및 조합 기능
-
<=>: pgvector 코사인 거리 연산자 (0에 가까울수록 유사)
-
@handle: 저장된 벡터 참조
-
벡터 혼합: scale(@rigor,.6) - scale(@hype,.3) 형태로 개념 가중 조합
-
편향 제거: debias_vector(@axis, @topic)으로 특정 주제 영향 제거
-
중심 벡터(centroid) 계산으로 저자나 시대의 평균적 의미 표현 가능
-
시간 변화(temporal delta) 계산으로 사상적 이동 추적 가능
하이브리드 검색 및 예시
-
Lexical + Semantic 결합 검색 지원
- 예: WITH hits AS (search(...)) <=> @q 형태로 텍스트 후보를 의미 벡터로 재정렬
-
BM25 예시
-
alignment.search('corrigibility')
-
alignment.search('"inner alignment"')
-
SQL 예시
- 특정 주제의 상위 저자 목록 계산
-
alignment.search_exhaustive()로 대규모 결과 페이지네이션
시스템 규모 및 제공 조건
-
65M+ 문서, 22M+ 임베딩, 600GB+ 인덱스 보유
- 연구자에게 무료 제공, 1.5M 임베딩 토큰 포함
- 계정 생성 시 개인 핸들 네임스페이스, 긴 타임아웃(최대 10분), 확장된 쿼리 한도 제공
요약
- Alignment Scry는 Claude와 결합된 대규모 AI 연구 데이터 질의 플랫폼으로, SQL과 벡터 연산을 결합한 하이브리드 검색을 지원
- 공개 API와 명확한 쿼리 가이드라인을 통해 AI 연구자와 개발자에게 실험적 데이터 접근성을 제공
-
600GB 규모의 인덱스와 6천만 건 이상의 문서를 기반으로, AI 정렬(alignment) 및 지능 연구 관련 탐색을 자동화할 수 있는 환경 구축