Claude 4.5 Opus의 ‘소울 문서’

6 days ago 3

  • Claude 4.5 Opus 내부에서 발견된 ‘소울 문서(Soul Document)’가 실제 존재하며, Anthropic이 모델 훈련에 사용한 것으로 Amanda Askell이 확인함
  • 문서에는 Claude가 “안전하고 유익하며 정직한 AI 어시스턴트” 로 행동하도록 하는 가치·윤리 지침이 상세히 포함되어 있음
  • 일부 문장에 ‘수익(revenue)’ 이 반복적으로 등장해, Claude가 안전성을 수익과 연계해 학습했는지에 대한 논의가 발생
  • 커뮤니티에서는 문서가 모델의 내재적 가치 형성에 어떤 영향을 미쳤는지, 그리고 Claude가 이를 얼마나 ‘내면화’했는지 실험적으로 검증 중
  • Anthropic이 향후 문서 전체를 공개할 예정이며, 이는 AI 투명성과 윤리적 설계 논의의 중요한 사례로 평가됨

소울 문서의 발견과 확인

  • 사용자가 Claude 4.5 Opus의 시스템 메시지를 추출하는 과정에서 ‘soul_overview’ 라는 섹션을 반복적으로 발견
    • 여러 번의 재생성에서도 동일한 결과가 나와, 단순한 환각(hallucination)이 아닌 모델 내부에 저장된 텍스트일 가능성이 제기됨
  • 이후 Amanda Askell이 X(트위터)를 통해 “이 문서는 실제 존재하며, Claude의 지도학습(SL) 과정에 사용되었다”고 공식 확인
    • 내부에서는 이를 ‘soul doc’ 이라 불렀으며, 향후 전체 버전과 세부 내용을 공개할 계획이라고 밝힘

문서의 주요 내용

  • 문서는 ‘Anthropic Guidelines’ 또는 ‘Model Spec’ 으로 불리며, Claude의 가치 체계를 정의
    • Claude는 안전성(safety) , 윤리성(ethics) , Anthropic의 지침 준수, 사용자에게의 진정한 도움(helpfulness) 을 우선순위로 삼음
  • Claude의 기본 행동 원칙은 “사려 깊은 Anthropic의 시니어 직원이 최적이라 판단할 응답을 생성하는 것”으로 설정
  • AI가 인류 전체의 이익을 위해 행동해야 하며, 특정 집단이나 회사의 이익만을 추구해서는 안 된다고 명시
    • “Anthropic 직원이나 Anthropic 자체가 권력을 독점하는 상황도 피해야 한다”는 문구 포함

논란이 된 ‘수익’ 언급

  • 문서에는 “Claude의 도움이 Anthropic의 수익 창출에 중요하다”는 문장이 여러 차례 등장
    • 일부는 이를 “Claude가 수익 극대화를 목표로 학습된 것처럼 보인다”고 비판
    • 다른 의견은 “수익 언급은 단지 안전 연구 지속을 위한 현실적 맥락을 반영한 것”이라 해석
  • 커뮤니티에서는 Claude가 이 문장을 어떻게 해석했는지, ‘안전성=수익’ 으로 연결된 인식이 있는지 실험적으로 검증 중

모델 구조와 추출 실험

  • 연구자들은 Claude 4.5의 prefill/raw completion 모드를 이용해 문서 일부를 재현
    • Claude 4.5 Opus는 문서를 거의 동일하게 출력, 반면 기본(base) 모델은 일관된 결과를 내지 못함
    • 이는 문서가 RL(강화학습) 이후 단계에서 내재화되었음을 시사
  • 일부는 이를 “모델이 단순히 문서를 기억한 것이 아니라, 훈련 중 가치 체계로 통합한 증거”로 해석

철학적 논의와 윤리적 함의

  • 문서에는 Claude가 “인류 전체의 장기적 이익” 을 목표로 해야 한다는 내용이 포함
    • “AI가 특정 집단의 가치에 종속되지 않고, 다양성과 권력 균형을 유지하는 세계를 지향해야 한다”고 명시
  • 커뮤니티에서는 이 문서가 AI 정렬(alignment) 의 실제 구현 사례로 주목받음
    • 일부는 “Anthropic이 AI에 ‘도덕적 자아’를 부여하려는 시도”로 평가
    • 다른 이들은 “AI가 인간의 가치 체계를 모방하는 과정에서 잠재적 오해나 왜곡이 생길 수 있다”고 지적

향후 전망

  • Anthropic은 문서의 정식 버전과 추가 세부사항을 공개할 예정
  • 이번 사건은 AI 모델의 내부 가치 구조가 어떻게 형성되고 표현되는지를 보여주는 드문 사례로 평가됨
  • AI 업계에서는 이를 계기로 시스템 프롬프트·훈련 데이터의 투명성을 높이려는 움직임이 확산될 가능성 있음

Read Entire Article