22GB SQLite에 백업한 해커뉴스의 2006–2025 전체 기사와 댓글

1 month ago 10

  • Hacker Book은 2006년부터 2025년까지의 Hacker News 전체 데이터를 SQLite 형식으로 보존한 프로젝트
  • 46,399,072개의 게시물, 1,637개의 샤드로 구성되어 있으며, HN의 19년 기록을 포함
  • 서버사이드 앱이 아니라 WASM으로 컴파일된 SQLite를 이용하며, 필요시 일부만 샤드로 내려받아서 보여주는 형태
  • 웹 인터페이스를 통해 게시물, 사용자, 댓글을 탐색할 수 있고, HN의 실시간 구조와 유사한 UI를 제공
  • 상위 게시물에는 AI, 오픈소스, 기술사, 사회 이슈 등 다양한 주제가 포함되어 있음
  • 개발자와 연구자에게 인터넷 기술 커뮤니티의 장기적 데이터 분석 기반을 제공하는 자료

Hacker Book 개요

  • Hacker Book은 Hacker News의 전체 데이터를 SQLite 데이터베이스로 제공하는 프로젝트
    • 데이터는 2006년 10월 9일부터 2025년 12월 28일까지의 기간을 포함
    • 46,399,072개의 항목(items) , 1,637개의 샤드(shards) , 8.5GB 용량으로 구성 (페이지 하단의 정보)
  • 웹사이트는 https://hackerbook.dosaygo.com/ 에서 접근 가능
    • 인터페이스는 Hacker News와 유사한 형태로, 게시물 목록, 포인트, 댓글 수, 작성자 정보를 표시

데이터 구조 및 탐색 기능

  • 각 항목은 게시물 제목, 출처 도메인, 포인트, 작성자, 댓글 수, 작성 시각으로 구성
  • 사용자별 페이지(view=user&id=)게시물별 상세 페이지(view=item&id=) 를 통해 탐색 가능
  • ‘More’ 링크를 통해 페이지 단위로 추가 항목을 불러올 수 있음

기술적 세부 정보

  • 데이터는 SQLite 포맷으로 제공되어, 로컬 환경에서 쿼리 및 분석이 가능
  • HN의 전체 기록을 단일 데이터베이스로 통합하여, 연구자나 개발자가 시간대별 트렌드 분석을 수행할 수 있음
  • 데이터 분할(sharding) 구조를 통해 대용량 데이터의 효율적 관리 지원

프로젝트의 의의

  • Hacker News의 19년간 축적된 커뮤니티 지식을 보존하는 디지털 아카이브 역할
  • 오픈 데이터 접근성을 높여, 기술사 연구나 커뮤니티 분석에 활용 가능
  • “All the HN Belong to You” 라는 슬로건처럼, 커뮤니티 전체의 기록을 누구나 탐색할 수 있도록 공개

Read Entire Article