10년 전 해커뉴스 토론을 LLM으로 자동 채점하기

2 hours ago 1

10년 전 해커뉴스 게시물과 댓글을 LLM으로 분석해 ‘예견력’을 평가하는 프로젝트로, 과거 토론의 통찰력을 자동으로 채점함
ChatGPT 5.1 Thinking과 Opus 4.5를 활용해 2015년 12월 한 달간의 해커뉴스 프런트페이지(총 930개 기사)를 수집·분석
각 기사와 댓글 스레드를 기반으로 요약, 실제 결과, 가장 정확·오류가 큰 댓글, 흥미도 점수 등을 자동 생성
결과는 정적 HTML 페이지로 변환되어 karpathy.ai/hncapsule에서 열람 가능하며, ‘Hall of Fame’ 에서는 가장 통찰력 있는 댓글 작성자 순위를 확인할 수 있음
과거 데이터에 대한 LLM의 대규모 회고 분석 가능성과, “미래의 LLM이 우리를 지켜보고 있다”는 메시지를 강조함

프로젝트 개요

2015년 12월의 해커뉴스 프런트페이지를 대상으로 LLM을 이용한 자동 회고 분석 시스템을 구축
- 하루 30개 기사 × 31일 = 총 930개 기사
- 각 기사와 댓글 스레드를 Algolia API로 수집 후, ChatGPT 5.1 Thinking에 분석 요청
분석 결과를 정적 HTML 페이지로 렌더링해 웹사이트에 게시
- 결과 페이지: https://karpathy.ai/hncapsule/
- 원본 데이터(data.zip)도 동일 경로에서 제공

분석 프롬프트 구조

각 기사에 대해 6개 섹션으로 구성된 프롬프트를 사용
1. 기사 및 토론 요약
2. 이후 실제로 일어난 일
3. 가장 정확한 댓글과 가장 틀린 댓글 선정
4. 흥미로운 기타 요소
5. 댓글 작성자별 최종 등급(Final grades) 목록
6. 기사 회고 흥미도 점수(0~10점)
예시 포맷을 엄격히 지정해 프로그램이 자동 파싱 가능하도록 설계
각 계정의 평균 점수를 누적해 가장 예견력 높은 사용자를 식별

구현 및 비용

Opus 4.5로 약 3시간 만에 구현, 일부 오류 외에는 원활히 진행
전체 930건의 LLM 요청 처리 비용은 약 $58, 처리 시간은 약 1시간
GitHub 저장소: karpathy/hn-time-capsule
- 누구나 결과를 재현하거나 수정 가능

주요 예시 스레드

2015년 12월 3일: Swift 오픈소스화
12월 6일: Figma 출시
12월 11일: OpenAI 창립 발표
12월 16일: geohot의 Comma 프로젝트
12월 22일: SpaceX Orbcomm-2 발사
12월 28일: Theranos 문제 보도
각 링크는 해당 날짜별 분석 페이지로 연결되어, 당시 논의와 실제 결과를 비교 가능

Hall of Fame

2015년 12월 해커뉴스에서 가장 통찰력 있는 댓글 작성자를 IMDb식 평균 점수로 정렬
상위 사용자: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
하단에는 ‘HN의 잡음(noise)’ 으로 분류된 낮은 점수 사용자 목록도 포함

철학적 메시지

“Be good, future LLMs are watching” 이라는 문구를 인용하며,
미래의 LLM이 과거 인간 활동을 세밀히 분석할 수 있는 시대가 올 것임을 강조
현재의 온라인 행동이 ‘지능이 너무 저렴해지는’ 미래에서 완전히 복원될 수 있음을 시사
인간의 행위가 ‘보이지 않는 감시’가 아닌, 완전한 기록과 재구성의 대상이 될 가능성을 제시

결론

이 실험은 LLM이 과거 데이터를 대규모로 재평가하는 도구로 활용될 수 있음을 보여줌
역사적 토론의 통찰력 자동 채점이라는 새로운 응용 사례를 제시하며,
AI가 인간 지식의 회고적 분석자로 진화할 가능성을 드러냄

Read Entire Article