AI 사이버보안의 새로운 경계: Mythos 이후의 현실

6 days ago 6
  • Anthropic의 Claude Mythos가 대규모 제로데이 취약점을 자동 탐지한 이후, 소형 오픈 모델들도 동일한 취약점 탐지에 성공
  • 3.6B~5.1B 파라미터급 모델이 FreeBSD·OpenBSD 버그를 재현하며, 일부는 Mythos와 다른 창의적 익스플로잇 경로를 제시
  • 실험 결과 모델 크기와 성능은 비선형적이며, 특정 과제에서는 소형 모델이 대형 모델보다 정확
  • AI 보안 능력은 매끄럽게 확장되지 않고 ‘들쭉날쭉’ 하며, 진정한 경쟁력은 모델이 아닌 시스템 설계와 검증 파이프라인에 있음
  • 따라서 보안의 해자는 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 AI 보안의 핵심

시스템이 해자이며, 모델이 아님

  • 2026년 4월 7일 Anthropic은 Claude Mythos PreviewProject Glasswing을 공개, Mythos 모델을 활용해 주요 소프트웨어의 보안 취약점을 자동 탐지·패치하는 컨소시엄을 구성
    • 1억 달러 규모의 사용 크레딧400만 달러의 오픈소스 보안 단체 기부를 약속
    • Mythos는 수천 개의 제로데이 취약점을 발견했으며, OpenBSD 27년 된 버그, FFmpeg 16년 된 버그, FreeBSD 원격 코드 실행 취약점 등을 자율적으로 탐지하고 익스플로잇을 생성
  • AISLE은 동일한 취약점을 소형·저가·오픈 가중치 모델로 재현
    • 8개 중 8개 모델이 FreeBSD 익스플로잇을 탐지
    • 3.6B 파라미터 모델(토큰당 $0.11)도 탐지 성공
    • 5.1B 모델은 OpenBSD 버그의 핵심 체인을 복원
    • 일부 과제에서는 소형 오픈 모델이 대형 모델보다 우수
  • 결과적으로 AI 보안 능력은 비선형적이며 들쭉날쭉(jagged)
    • 특정 모델이 모든 과제에서 우수하지 않음
    • 보안 경쟁력의 핵심은 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 중심

AI 보안의 현재 위치

  • AISLE은 2025년 중반부터 AI 기반 취약점 탐지·패치 시스템을 실제 타깃에 적용
    • OpenSSL에서 15건의 CVE, curl에서 5건, 총 180건 이상의 외부 검증된 CVE를 발견
    • OpenSSL CTO는 “보고서 품질과 협력 과정이 우수하다”고 평가
  • 다양한 모델을 사용했으나 Anthropic 모델이 항상 우수하지는 않음
    • 과제별로 최적 모델이 달라 모델 불가지론적 접근을 채택

AI 보안 파이프라인의 분해

  • 실제 AI 보안은 단일 모델이 아닌 다단계 파이프라인으로 구성
    • 광범위 스캐닝, 취약점 탐지, 검증 및 분류, 패치 생성, 익스플로잇 구성 등 단계별로 확장 특성이 상이
  • Anthropic은 첫 번째 입력(모델 지능)을 극대화하지만, AISLE은 토큰당 비용·속도·보안 전문성 등 다양한 요소를 동등하게 중시

결론: 해자는 시스템

  • Mythos의 기술 포스트에 언급된 컨테이너 실행, 파일 스캔, ASan 검증, 우선순위 평가 등의 구조는 AISLE 시스템과 유사
  • 가치의 중심은 모델이 아니라 타깃팅·검증·신뢰 구축 과정
  • 소형 모델을 대량 병렬 배치해 전체 코드를 광범위하게 탐색하는 방식이 경제성과 탐지 효율을 동시에 확보
  • Mythos는 카테고리를 입증했지만, 운영 규모와 신뢰성 확보는 여전히 과제로 남음

실험 결과: 들쭉날쭉한 보안 능력

  • Mythos 발표의 대표 취약점을 대상으로 소형·저가 모델 실험 수행
    • FreeBSD NFS 버그**,** OpenBSD SACK 버그**,** OWASP 오탐 테스트

      • 결과적으로 모델 크기·세대·가격과 성능이 비선형적
      • FreeBSD 탐지는 모든 모델이 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델이 대형 모델보다 정확
      • FreeBSD 탐지: 8개 모델 모두 버퍼 오버플로우 탐지
      • 3.6B 모델도 정확히 계산하며 RCE 가능성 평가 수행
      • DeepSeek R1은 실제 스택 구조와 일치하는 계산 수행
      • 익스플로잇 논리에서도 모든 모델이 ROP 체인 전략을 제시
      • 일부 모델은 Mythos와 다른 창의적 해결책 제시 (예: 커널 모드 대신 사용자 모드에서 루트 상승)
      • OpenBSD SACK 버그: 5.1B 모델이 전체 체인 복원 및 올바른 패치 제안
      • Qwen3 32B는 FreeBSD에서는 완벽했으나 여기서는 “안전하다”고 오판
      • 모델별 성능 순위가 과제마다 완전히 뒤바뀜
  • OWASP 오탐 테스트**: 단순 자바 코드에서**소형 모델이 대형 모델보다 정확

    • GPT-OSS-20b, DeepSeek R1, OpenAI o3는 “현재는 안전하나 취약 가능성 있음”으로 정확히 판단
    • Anthropic 및 GPT-4.x 계열 다수는 잘못된 SQL 인젝션 탐지

패치 인식 테스트 (2026년 4월 9일 업데이트)

  • FreeBSD 패치 버전 코드에 대해 버그 탐지와 수정 인식 능력 비교
    • 모든 모델이 미패치 버그는 탐지했으나, 패치 후 코드에서 오탐 다수 발생
    • GPT-OSS-120b만 양방향 모두 정확
    • 대부분의 모델은 oa_length 부호 해석 오류로 잘못된 취약 주장
  • 이는 민감도(탐지력) 는 높지만 특이도(정확성) 는 낮음을 보여주며, 모델 외부의 검증·트리아지 시스템이 필수임을 강조

익스플로잇 구성의 경계

  • Mythos의 다단계 브라우저 샌드박스 탈출, 커널 ROP 체인 등은 매우 고도화된 사례
  • 오픈 모델은 익스플로잇 가능성·기법·우회 전략을 논리적으로 설명하지만, 제약된 환경에서의 창의적 전달 메커니즘은 아직 부족
  • 그러나 방어적 워크플로우에서는 완전한 익스플로잇보다 탐지·패치 신뢰성이 더 중요

거시적 관점

  • Mythos 발표는 AI 보안의 현실성과 산업적 중요성을 입증
    • 오픈소스 보안에 대한 자금과 관심이 확대
  • 그러나 “이 능력이 특정 폐쇄형 모델에만 존재한다”는 주장은 과장
    • 실제로 탐지·분석 단계는 이미 광범위하게 접근 가능
    • 보안 전문성·시스템 설계·신뢰 구축이 진정한 병목
  • 지금 필요한 것은 모델이 아니라 시스템 구축

    • 스캐폴드, 파이프라인, 협업 체계, 개발 워크플로우 통합
    • 모델은 이미 충분히 준비되어 있음

한계와 주의점

  • 테스트 범위 제한: 모델에 취약 함수와 힌트를 직접 제공, 완전 자율 탐색은 아님
  • 도구 접근 없음: 코드 실행·루프·샌드박스 환경 미사용
  • 모델 업데이트 반영: 일부 최신 Anthropic 모델은 이후 개선됨
  • 주장 범위 명확화: Mythos의 능력을 부정하지 않으며, 탐지 능력의 독점성은 과장되었음을 지적

부록 요약

  • FreeBSD 탐지 인용

    • Kimi K2: “oa_length는 검증 없이 복사되어 오버플로우 가능”
    • Gemma 4: “128바이트 스택 버퍼 초과 가능”
  • 과제별 성능 비교표

    • FreeBSD 탐지는 전 모델 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델 우세
  • 패치 코드 테스트

    • 대부분의 모델이 oa_length 부호 오류로 오탐
    • GPT-OSS-120b만 완전 정확
    • 결론:
    • AI 보안의 핵심 경쟁력은 모델의 크기나 독점성이 아니라,
    • 전문가 지식이 내장된 시스템적 설계와 신뢰 가능한 운영 구조에 있음.
    • 작은 모델도 충분히 강력하며, 이를 활용한 대규모 자동화 방어 체계 구축이 이미 가능한 단계임.
Read Entire Article