- 해커뉴스의 게시물 감정 분석 연구에서 전체의 약 65%가 부정적 감정으로 분류되었으며, 이 게시물들이 평균적으로 더 높은 점수를 기록
- 부정적 게시물의 평균 점수는 35.6점, 전체 평균은 28점으로, 약 27%의 성과 프리미엄이 확인됨
- 분석은 32,000개 게시물과 34만 개 댓글을 대상으로 진행되었으며, 6종의 모델에서 일관된 부정적 편향이 나타남
- 사용된 모델에는 DistilBERT, BERT Multi, RoBERTa, Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B가 포함되며, 최종 대시보드는 효율성을 이유로 DistilBERT 결과를 사용
- 기술 비판, 산업 불만, API 좌절 등 건설적 비판 중심의 부정성이 주를 이루며, 이는 참여도와 논쟁성의 상관관계를 시사함
해커뉴스 감정 분석 결과
- 해커뉴스 게시물의 평균 점수는 28점, 부정적 감정을 띤 게시물은 평균 35.6점으로 더 높은 참여도 기록
- 부정적 게시물의 성과는 전체 평균 대비 27% 높음
- 연구는 HN(해커뉴스) 주목도 동역학을 다루며, 감쇠 곡선, 선호적 부착, 생존 확률, 초기 참여 예측 등을 포함
- 관련 프리프린트 논문은 SSRN에 공개되어 있음
데이터 및 모델 구성
- 분석 대상은 32,000개 게시물과 340,000개 댓글
- 전체의 약 65%가 부정적 감정으로 분류됨
- 연구자는 분류기가 부정적으로 편향되었을 가능성을 언급했으나, 6개 모델 모두에서 동일한 경향이 확인됨
- 사용된 모델은 DistilBERT, BERT Multi, RoBERTa(트랜스포머 기반)와 Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B(LLM 기반)
- 감정 분포는 모델별로 다르지만, 부정적 치우침이 공통적으로 유지됨
- 최종 대시보드는 Cloudflare 기반 파이프라인에서 효율적으로 작동하는 DistilBERT 결과를 사용
부정적 감정의 정의와 특성
- “부정적”으로 분류된 내용은 기술 비판, 발표에 대한 회의, 산업 관행 불만, API 관련 좌절감 등
- 대부분의 부정성은 인신공격이 아닌 실질적 비판으로 구성
- 기술적 비판은 개인적 공격과는 다른 성격을 가짐
- 연구자는 부정성이 참여를 유발하는지, 혹은 논쟁적 콘텐츠가 부정적 표현과 주목을 동시에 끄는지에 대해 양쪽 가능성을 모두 인정
향후 공개 계획
- 연구자는 전체 코드, 데이터셋, HN 아카이버용 대시보드를 곧 공개 예정