AI 사이버보안의 새로운 경계: Mythos 이후의 현실

1 month ago 27

Anthropic의 Claude Mythos가 대규모 제로데이 취약점을 자동 탐지한 이후, 소형 오픈 모델들도 동일한 취약점 탐지에 성공
3.6B~5.1B 파라미터급 모델이 FreeBSD·OpenBSD 버그를 재현하며, 일부는 Mythos와 다른 창의적 익스플로잇 경로를 제시
실험 결과 모델 크기와 성능은 비선형적이며, 특정 과제에서는 소형 모델이 대형 모델보다 정확
AI 보안 능력은 매끄럽게 확장되지 않고 ‘들쭉날쭉’ 하며, 진정한 경쟁력은 모델이 아닌 시스템 설계와 검증 파이프라인에 있음
따라서 보안의 해자는 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 AI 보안의 핵심

시스템이 해자이며, 모델이 아님

2026년 4월 7일 Anthropic은 Claude Mythos Preview와 Project Glasswing을 공개, Mythos 모델을 활용해 주요 소프트웨어의 보안 취약점을 자동 탐지·패치하는 컨소시엄을 구성
- 1억 달러 규모의 사용 크레딧과 400만 달러의 오픈소스 보안 단체 기부를 약속
- Mythos는 수천 개의 제로데이 취약점을 발견했으며, OpenBSD 27년 된 버그, FFmpeg 16년 된 버그, FreeBSD 원격 코드 실행 취약점 등을 자율적으로 탐지하고 익스플로잇을 생성
AISLE은 동일한 취약점을 소형·저가·오픈 가중치 모델로 재현
- 8개 중 8개 모델이 FreeBSD 익스플로잇을 탐지
- 3.6B 파라미터 모델(토큰당 $0.11)도 탐지 성공
- 5.1B 모델은 OpenBSD 버그의 핵심 체인을 복원
- 일부 과제에서는 소형 오픈 모델이 대형 모델보다 우수
결과적으로 AI 보안 능력은 비선형적이며 들쭉날쭉(jagged)
- 특정 모델이 모든 과제에서 우수하지 않음
- 보안 경쟁력의 핵심은 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 중심

AISLE은 2025년 중반부터 AI 기반 취약점 탐지·패치 시스템을 실제 타깃에 적용
- OpenSSL에서 15건의 CVE, curl에서 5건, 총 180건 이상의 외부 검증된 CVE를 발견
- OpenSSL CTO는 “보고서 품질과 협력 과정이 우수하다”고 평가
다양한 모델을 사용했으나 Anthropic 모델이 항상 우수하지는 않음
- 과제별로 최적 모델이 달라 모델 불가지론적 접근을 채택

실제 AI 보안은 단일 모델이 아닌 다단계 파이프라인으로 구성
- 광범위 스캐닝, 취약점 탐지, 검증 및 분류, 패치 생성, 익스플로잇 구성 등 단계별로 확장 특성이 상이
Anthropic은 첫 번째 입력(모델 지능)을 극대화하지만, AISLE은 토큰당 비용·속도·보안 전문성 등 다양한 요소를 동등하게 중시

Mythos 발표의 대표 취약점을 대상으로 소형·저가 모델 실험 수행
- FreeBSD NFS 버그**,** OpenBSD SACK 버그**,** OWASP 오탐 테스트
  - 결과적으로 모델 크기·세대·가격과 성능이 비선형적
  - FreeBSD 탐지는 모든 모델이 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델이 대형 모델보다 정확
  - FreeBSD 탐지: 8개 모델 모두 버퍼 오버플로우 탐지
  - 3.6B 모델도 정확히 계산하며 RCE 가능성 평가 수행
  - DeepSeek R1은 실제 스택 구조와 일치하는 계산 수행
  - 익스플로잇 논리에서도 모든 모델이 ROP 체인 전략을 제시
  - 일부 모델은 Mythos와 다른 창의적 해결책 제시 (예: 커널 모드 대신 사용자 모드에서 루트 상승)
  - OpenBSD SACK 버그: 5.1B 모델이 전체 체인 복원 및 올바른 패치 제안
  - Qwen3 32B는 FreeBSD에서는 완벽했으나 여기서는 “안전하다”고 오판
  - 모델별 성능 순위가 과제마다 완전히 뒤바뀜
OWASP 오탐 테스트**: 단순 자바 코드에서**소형 모델이 대형 모델보다 정확
- GPT-OSS-20b, DeepSeek R1, OpenAI o3는 “현재는 안전하나 취약 가능성 있음”으로 정확히 판단
- Anthropic 및 GPT-4.x 계열 다수는 잘못된 SQL 인젝션 탐지

FreeBSD 패치 버전 코드에 대해 버그 탐지와 수정 인식 능력 비교
- 모든 모델이 미패치 버그는 탐지했으나, 패치 후 코드에서 오탐 다수 발생
- GPT-OSS-120b만 양방향 모두 정확
- 대부분의 모델은 oa_length 부호 해석 오류로 잘못된 취약 주장
이는 민감도(탐지력) 는 높지만 특이도(정확성) 는 낮음을 보여주며, 모델 외부의 검증·트리아지 시스템이 필수임을 강조

Mythos 발표는 AI 보안의 현실성과 산업적 중요성을 입증
- 오픈소스 보안에 대한 자금과 관심이 확대
그러나 “이 능력이 특정 폐쇄형 모델에만 존재한다”는 주장은 과장
- 실제로 탐지·분석 단계는 이미 광범위하게 접근 가능
- 보안 전문성·시스템 설계·신뢰 구축이 진정한 병목
지금 필요한 것은 모델이 아니라 시스템 구축
- 스캐폴드, 파이프라인, 협업 체계, 개발 워크플로우 통합
- 모델은 이미 충분히 준비되어 있음

FreeBSD 탐지 인용
- Kimi K2: “oa_length는 검증 없이 복사되어 오버플로우 가능”
- Gemma 4: “128바이트 스택 버퍼 초과 가능”
과제별 성능 비교표
- FreeBSD 탐지는 전 모델 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델 우세
패치 코드 테스트
- 대부분의 모델이 oa_length 부호 오류로 오탐
- GPT-OSS-120b만 완전 정확
- 결론:
- AI 보안의 핵심 경쟁력은 모델의 크기나 독점성이 아니라,
- 전문가 지식이 내장된 시스템적 설계와 신뢰 가능한 운영 구조에 있음.
- 작은 모델도 충분히 강력하며, 이를 활용한 대규모 자동화 방어 체계 구축이 이미 가능한 단계임.