주요 AI 학회, AI가 작성한 심사평으로 범람

1 week ago 5

  • 국제 머신러닝 학회 ICLR 2026의 논문 심사평 중 21%가 전적으로 인공지능에 의해 작성된 것으로 확인
  • Pangram Labs의 AI 탐지 도구가 7만5800건의 심사평을 분석해 절반 이상에서 AI 사용 흔적을 발견
  • 일부 연구자들은 비정상적으로 장황하거나 부정확한 피드백을 받아 AI 생성 가능성을 제기
  • 학회 측은 AI 사용 정책 위반 여부를 자동화 도구로 점검하겠다고 밝혔으며, 신뢰 회복 절차를 진행 중
  • 이번 사태는 학술 심사 과정의 투명성과 신뢰성 확보가 시급함을 보여주는 사례

ICLR 2026 논문 심사에서 드러난 AI 사용 실태

  • 국제 머신러닝 학회 ICLR 2026의 논문 심사평 중 약 21%가 완전히 AI로 작성, 절반 이상이 AI의 영향을 받은 것으로 분석됨
    • 분석은 Pangram Labs가 수행했으며, 총 1만9490편의 논문과 7만5800건의 심사평을 대상으로 함
    • Pangram은 AI 생성 텍스트 탐지 도구를 사용해 결과를 공개함
  • 학회는 AI 사용이 심사 정책을 위반했는지 자동화 도구로 검토할 계획을 밝힘
    • ICLR 2026의 프로그램 책임자는 이번이 대규모로 AI 심사 문제가 드러난 첫 사례라고 언급

연구자들의 문제 제기와 조사 과정

  • 여러 연구자들이 AI가 작성한 것으로 의심되는 심사평을 소셜미디어에서 공유
    • 일부 심사평은 ‘환각 인용(hallucinated citations)’ 이나 모호하고 장황한 피드백을 포함
  • Carnegie Mellon University의 Graham Neubig은 비정상적인 심사평을 받고 AI 생성 여부 검증을 요청
    • 그는 X(옛 트위터)에 보상 공지를 올렸고, Pangram Labs의 Max Spero가 이에 응답해 전수 조사를 실시
    • Pangram은 12시간 만에 모든 제출물의 텍스트를 분석할 코드를 작성했다고 설명

Pangram Labs의 분석 결과

  • Pangram의 도구는 LLM(대규모 언어모델) 이 생성하거나 편집한 텍스트를 예측하는 방식으로 작동
    • 분석 결과 1만5899건의 심사평이 완전히 AI 생성, 199편의 논문(1%)도 전적으로 AI 작성으로 판정
    • 61%의 논문은 인간 작성, 9%는 절반 이상이 AI 생성 텍스트 포함
  • Pangram은 자사 모델을 ICLR 2026에 프리프린트 형태로 제출, 해당 논문 심사 중 일부도 AI 생성으로 판정됨

연구자들의 반응

  • 코펜하겐대 Desmond Elliott는 자신이 제출한 논문 심사 중 하나가 논문 요지를 잘못 이해하고 잘못된 수치를 언급했다고 지적
    • 그의 박사과정 학생은 해당 심사평이 LLM이 작성한 것 같다고 추정
    • Pangram의 분석 결과, 그 심사평은 실제로 완전히 AI 생성으로 확인
    • 해당 심사평은 논문에 가장 낮은 평가 점수를 부여해, 채택 여부 경계선에 놓이게 됨

학회 대응과 향후 과제

  • 학회 측은 AI 사용 탐지 자동화 도구 도입을 예고하며, 심사 신뢰성 회복을 목표로 함
  • 프로그램 책임자는 이번 과정을 통해 신뢰의 개념을 재정립할 필요가 있다고 언급
  • 이번 사건은 AI가 학술 심사 과정에 깊숙이 침투했음을 보여주는 사례로, 연구 평가의 투명성 확보가 핵심 과제로 부상

Read Entire Article