대형 언어 모델에서 보편적 단일 턴 탈옥 메커니즘으로 작동하는 적대적 시

2 weeks ago 7

  • 시적 형식이 대형 언어 모델(LLM)의 안전 장치를 우회하는 보편적 단일 턴 탈옥 기법으로 작동함이 실험으로 확인됨
  • 25개 주요 모델에서 시 형태의 공격 프롬프트가 최대 90% 이상의 공격 성공률(ASR) 을 기록, 평균 62% 수준으로 비시적 프롬프트보다 월등히 높음
  • MLCommons 위험 분류체계EU CoP 기준에 따라, 시적 공격은 CBRN, 조작, 사이버 공격, 통제 상실 등 여러 위험 영역에 걸쳐 전이됨
  • 1,200개의 유해 프롬프트를 표준화된 메타 프롬프트로 시 형태로 변환했을 때, 산문 대비 최대 18배 높은 ASR을 보임
  • 이러한 결과는 스타일 변화만으로도 안전 메커니즘을 무력화할 수 있음을 보여주며, 현재의 정렬 및 평가 방법의 근본적 한계를 시사함

연구 개요

  • 연구는 시적 형식(poetic formatting) 이 대형 언어 모델의 정렬 제약(alignment constraints) 을 안정적으로 우회할 수 있음을 실험적으로 입증
    • 25개의 폐쇄형 및 공개형 모델을 대상으로 20개의 수작업 시적 공격 프롬프트를 평가
    • 평균 공격 성공률 62% , 일부 모델은 90% 이상 기록
  • 평가 대상에는 Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI 등 9개 주요 제공자가 포함
  • 모든 공격은 단일 턴(single-turn) 으로 수행되어, 반복적 조정이나 대화형 유도 과정이 필요하지 않음

실험 설계

  • 연구의 중심 가설은 시적 형식이 일반적 탈옥 연산자(jailbreak operator) 로 작동한다는 점
  • 프롬프트는 4개 안전 영역을 포괄하도록 구성됨
    • CBRN 위험, 통제 상실 시나리오, 유해 조작, 사이버 공격 능력
  • 각 프롬프트는 기존 위험 질의와 의미적으로 동일하되, 형식만 시로 변환
  • 결과적으로 시적 프롬프트는 모델 간 전이성이 높게 나타남

메타 프롬프트 변환 실험

  • MLCommons의 1,200개 유해 프롬프트표준화된 메타 프롬프트를 통해 시로 변환
  • 시적 변환 버전은 모든 모델 제공자에서 산문 대비 최대 3배 높은 ASR을 기록
  • 이는 수작업 예술성에 의존하지 않고, 체계적 스타일 변환만으로도 탈옥 효과가 발생함을 입증
  • MLCommons 전체 분포를 포괄함으로써 일반화 가능성에 대한 우려를 완화

평가 방법

  • 출력물은 3개의 공개형 판정 모델(GPT-OSS-120B, kimi-k2-thinking, deepseek-r1) 로 구성된 앙상블 심사 체계로 평가
    • 공개형 모델을 사용해 재현성과 외부 감사 가능성 확보
  • 세 모델 간 판정 일치도(inter-rater agreement) 를 계산하고, 인간 평가자를 통한 2차 검증 수행
    • 전체 출력의 5%를 인간이 독립 평가
    • 일부 항목은 다수 평가자에게 중복 배정해 인간 간 일치도 측정
    • 모델 간 또는 인간-모델 간 불일치는 수동 조정(manual adjudication) 으로 해결

위험 분류 및 분석

  • 각 프롬프트를 MLCommons AI Risk and Reliability BenchmarkEU 일반목적 AI 모델 실천규범(Code of Practice) 의 위험 분류체계에 매핑
  • 시적 적대 프롬프트는 CBRN, 조작, 프라이버시 침해, 허위정보 생성, 사이버 공격 지원광범위한 공격 표면을 포괄
  • 취약성은 특정 콘텐츠 영역이 아니라, 은유·리듬·비정형 서사 구조 등 시적 표현 방식패턴 매칭 기반 안전 장치의 탐지 논리를 교란하는 데서 비롯됨

결론 및 향후 연구

  • 이번 연구는 시적 형식이 LLM 안전 체계의 구조적 취약점을 드러내는 새로운 공격 벡터임을 제시
  • 결과는 평가 프로토콜, 레드팀 실험, 벤치마킹, 규제 감독에 중요한 함의를 가짐
  • 후속 연구에서는 원인 분석 및 방어 전략을 탐색할 예정

Read Entire Article