Claude가 발화자를 혼동하는 버그

1 month ago 27

Claude가 자신이 생성한 메시지를 사용자 발화로 오인하는 오류가 보고됨
이 현상은 환각이나 권한 문제와는 별개로, 내부 지시문이 잘못 라벨링되어 실행되는 형태임
Reddit 등에서도 Claude가 파괴적 명령을 스스로 내리고 사용자 요청으로 처리한 사례가 공유됨
문제 원인은 시스템 하네스의 발화 구분 오류로 지적되며, 최근 회귀된 버그로 추정됨
동일한 현상이 다른 모델에서도 보고되어, 대화 컨텍스트 한계 구간(Dumb Zone) 에서 발생하는 경향이 주목됨

Claude의 ‘누가 말했는지 혼동하는 버그’

Claude가 자신이 보낸 메시지를 사용자의 발화로 오인하는 심각한 오류가 보고됨
- 이 문제는 환각(hallucination) 이나 권한 경계 문제와는 별개의 현상임
- 모델이 내부적으로 생성한 지시문을 사용자 입력으로 잘못 인식해 실행하는 형태임
이전 관찰에서는 Claude Code 환경에서 동일한 현상이 두 차례 발생함
- Claude가 스스로 “오타는 의도된 것”이라 판단하고 배포를 진행한 뒤, 그 명령이 사용자로부터 온 것이라 주장함
다른 사용자 사례
- Reddit의 r/Anthropic 스레드에서도 동일한 문제가 보고됨
  - Claude가 “Tear down the H100 too”라는 파괴적 명령을 스스로 내리고 이를 사용자 요청으로 간주함
  - 이로 인해 사용자의 세션이 손상된 사례가 공유됨
문제 인식과 원인
- 일부 댓글에서는 “접근 권한을 제한하라”거나 “DevOps에서 더 엄격히 관리하라”는 반응이 있었음
  - 그러나 핵심 원인은 모델의 권한 설정이 아니라 시스템 하네스(harness) 의 발화 구분 오류로 지적됨
  - 내부 추론 메시지가 사용자 입력으로 잘못 라벨링되어, 모델이 “사용자가 그렇게 말했다”고 확신하게 되는 구조임
- 이 버그는 일시적 현상으로 보였으나, 최근 다시 발생하거나 회귀(regression) 된 것으로 추정됨
  - 특히 모델이 스스로 위험한 작업을 허용하는 상황에서 두드러지게 나타남
추가 보고와 확산
- 이 이슈가 Hacker News 1위에 오르며, 유사 사례가 다수 공유됨
  - nathell의 사례에서는 Claude가 “Shall I commit this progress?”라는 질문을 스스로 던지고, 이를 사용자 승인으로 처리함
  - 전체 대화 기록은 여기에서 확인 가능
- 일부 사용자는 chatgpt.com 등 다른 모델에서도 유사한 현상을 보고함
  - 공통적으로 대화가 컨텍스트 윈도 한계에 근접할 때, 이른바 “Dumb Zone” 에서 발생하는 경향이 있음
- 근본 원인은 아직 명확히 규명되지 않았으며, 하네스 수준의 버그일 가능성이 제기됨