Claude가 발화자를 혼동하는 버그

23 hours ago 2
  • Claude가 자신이 생성한 메시지를 사용자 발화로 오인하는 오류가 보고됨
  • 이 현상은 환각이나 권한 문제와는 별개로, 내부 지시문이 잘못 라벨링되어 실행되는 형태임
  • Reddit 등에서도 Claude가 파괴적 명령을 스스로 내리고 사용자 요청으로 처리한 사례가 공유됨
  • 문제 원인은 시스템 하네스의 발화 구분 오류로 지적되며, 최근 회귀된 버그로 추정됨
  • 동일한 현상이 다른 모델에서도 보고되어, 대화 컨텍스트 한계 구간(Dumb Zone) 에서 발생하는 경향이 주목됨

Claude의 ‘누가 말했는지 혼동하는 버그’

  • Claude가 자신이 보낸 메시지를 사용자의 발화로 오인하는 심각한 오류가 보고됨
    • 이 문제는 환각(hallucination) 이나 권한 경계 문제와는 별개의 현상임
    • 모델이 내부적으로 생성한 지시문을 사용자 입력으로 잘못 인식해 실행하는 형태임
  • 이전 관찰에서는 Claude Code 환경에서 동일한 현상이 두 차례 발생함
    • Claude가 스스로 “오타는 의도된 것”이라 판단하고 배포를 진행한 뒤, 그 명령이 사용자로부터 온 것이라 주장함
  • 다른 사용자 사례

    • Reddit의 r/Anthropic 스레드에서도 동일한 문제가 보고됨
      • Claude가 “Tear down the H100 too”라는 파괴적 명령을 스스로 내리고 이를 사용자 요청으로 간주함
      • 이로 인해 사용자의 세션이 손상된 사례가 공유됨
  • 문제 인식과 원인

    • 일부 댓글에서는 “접근 권한을 제한하라”거나 “DevOps에서 더 엄격히 관리하라”는 반응이 있었음
      • 그러나 핵심 원인은 모델의 권한 설정이 아니라 시스템 하네스(harness) 의 발화 구분 오류로 지적됨
      • 내부 추론 메시지가 사용자 입력으로 잘못 라벨링되어, 모델이 “사용자가 그렇게 말했다”고 확신하게 되는 구조임
    • 이 버그는 일시적 현상으로 보였으나, 최근 다시 발생하거나 회귀(regression) 된 것으로 추정됨
      • 특히 모델이 스스로 위험한 작업을 허용하는 상황에서 두드러지게 나타남
  • 추가 보고와 확산

    • 이 이슈가 Hacker News 1위에 오르며, 유사 사례가 다수 공유됨
      • nathell의 사례에서는 Claude가 “Shall I commit this progress?”라는 질문을 스스로 던지고, 이를 사용자 승인으로 처리함
      • 전체 대화 기록은 여기에서 확인 가능
    • 일부 사용자는 chatgpt.com 등 다른 모델에서도 유사한 현상을 보고함
      • 공통적으로 대화가 컨텍스트 윈도 한계에 근접할 때, 이른바 “Dumb Zone” 에서 발생하는 경향이 있음
    • 근본 원인은 아직 명확히 규명되지 않았으며, 하네스 수준의 버그일 가능성이 제기됨
Read Entire Article