AI 사이버보안의 새로운 경계: Mythos 이후의 현실
6 days ago
6
- Anthropic의 Claude Mythos가 대규모 제로데이 취약점을 자동 탐지한 이후, 소형 오픈 모델들도 동일한 취약점 탐지에 성공
-
3.6B~5.1B 파라미터급 모델이 FreeBSD·OpenBSD 버그를 재현하며, 일부는 Mythos와 다른 창의적 익스플로잇 경로를 제시
- 실험 결과 모델 크기와 성능은 비선형적이며, 특정 과제에서는 소형 모델이 대형 모델보다 정확
-
AI 보안 능력은 매끄럽게 확장되지 않고 ‘들쭉날쭉’ 하며, 진정한 경쟁력은 모델이 아닌 시스템 설계와 검증 파이프라인에 있음
- 따라서 보안의 해자는 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 AI 보안의 핵심
시스템이 해자이며, 모델이 아님
- 2026년 4월 7일 Anthropic은 Claude Mythos Preview와 Project Glasswing을 공개, Mythos 모델을 활용해 주요 소프트웨어의 보안 취약점을 자동 탐지·패치하는 컨소시엄을 구성
-
1억 달러 규모의 사용 크레딧과 400만 달러의 오픈소스 보안 단체 기부를 약속
- Mythos는 수천 개의 제로데이 취약점을 발견했으며, OpenBSD 27년 된 버그, FFmpeg 16년 된 버그, FreeBSD 원격 코드 실행 취약점 등을 자율적으로 탐지하고 익스플로잇을 생성
- AISLE은 동일한 취약점을 소형·저가·오픈 가중치 모델로 재현
-
8개 중 8개 모델이 FreeBSD 익스플로잇을 탐지
-
3.6B 파라미터 모델(토큰당 $0.11)도 탐지 성공
-
5.1B 모델은 OpenBSD 버그의 핵심 체인을 복원
- 일부 과제에서는 소형 오픈 모델이 대형 모델보다 우수
- 결과적으로 AI 보안 능력은 비선형적이며 들쭉날쭉(jagged)
- 특정 모델이 모든 과제에서 우수하지 않음
-
보안 경쟁력의 핵심은 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 중심
AI 보안의 현재 위치
- AISLE은 2025년 중반부터 AI 기반 취약점 탐지·패치 시스템을 실제 타깃에 적용
- OpenSSL에서 15건의 CVE, curl에서 5건, 총 180건 이상의 외부 검증된 CVE를 발견
- OpenSSL CTO는 “보고서 품질과 협력 과정이 우수하다”고 평가
- 다양한 모델을 사용했으나 Anthropic 모델이 항상 우수하지는 않음
- 과제별로 최적 모델이 달라 모델 불가지론적 접근을 채택
AI 보안 파이프라인의 분해
- 실제 AI 보안은 단일 모델이 아닌 다단계 파이프라인으로 구성
-
광범위 스캐닝, 취약점 탐지, 검증 및 분류, 패치 생성, 익스플로잇 구성 등 단계별로 확장 특성이 상이
- Anthropic은 첫 번째 입력(모델 지능)을 극대화하지만, AISLE은 토큰당 비용·속도·보안 전문성 등 다양한 요소를 동등하게 중시
결론: 해자는 시스템
- Mythos의 기술 포스트에 언급된 컨테이너 실행, 파일 스캔, ASan 검증, 우선순위 평가 등의 구조는 AISLE 시스템과 유사
-
가치의 중심은 모델이 아니라 타깃팅·검증·신뢰 구축 과정
-
소형 모델을 대량 병렬 배치해 전체 코드를 광범위하게 탐색하는 방식이 경제성과 탐지 효율을 동시에 확보
- Mythos는 카테고리를 입증했지만, 운영 규모와 신뢰성 확보는 여전히 과제로 남음
실험 결과: 들쭉날쭉한 보안 능력
- Mythos 발표의 대표 취약점을 대상으로 소형·저가 모델 실험 수행
-
FreeBSD NFS 버그**,** OpenBSD SACK 버그**,** OWASP 오탐 테스트
- 결과적으로 모델 크기·세대·가격과 성능이 비선형적
- FreeBSD 탐지는 모든 모델이 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델이 대형 모델보다 정확
-
FreeBSD 탐지: 8개 모델 모두 버퍼 오버플로우 탐지
- 3.6B 모델도 정확히 계산하며 RCE 가능성 평가 수행
- DeepSeek R1은 실제 스택 구조와 일치하는 계산 수행
-
익스플로잇 논리에서도 모든 모델이 ROP 체인 전략을 제시
- 일부 모델은 Mythos와 다른 창의적 해결책 제시 (예: 커널 모드 대신 사용자 모드에서 루트 상승)
-
OpenBSD SACK 버그: 5.1B 모델이 전체 체인 복원 및 올바른 패치 제안
- Qwen3 32B는 FreeBSD에서는 완벽했으나 여기서는 “안전하다”고 오판
-
모델별 성능 순위가 과제마다 완전히 뒤바뀜
-
OWASP 오탐 테스트**: 단순 자바 코드에서**소형 모델이 대형 모델보다 정확
- GPT-OSS-20b, DeepSeek R1, OpenAI o3는 “현재는 안전하나 취약 가능성 있음”으로 정확히 판단
- Anthropic 및 GPT-4.x 계열 다수는 잘못된 SQL 인젝션 탐지
패치 인식 테스트 (2026년 4월 9일 업데이트)
- FreeBSD 패치 버전 코드에 대해 버그 탐지와 수정 인식 능력 비교
- 모든 모델이 미패치 버그는 탐지했으나, 패치 후 코드에서 오탐 다수 발생
- GPT-OSS-120b만 양방향 모두 정확
- 대부분의 모델은 oa_length 부호 해석 오류로 잘못된 취약 주장
- 이는 민감도(탐지력) 는 높지만 특이도(정확성) 는 낮음을 보여주며,
모델 외부의 검증·트리아지 시스템이 필수임을 강조
익스플로잇 구성의 경계
- Mythos의 다단계 브라우저 샌드박스 탈출, 커널 ROP 체인 등은 매우 고도화된 사례
- 오픈 모델은 익스플로잇 가능성·기법·우회 전략을 논리적으로 설명하지만,
제약된 환경에서의 창의적 전달 메커니즘은 아직 부족
- 그러나 방어적 워크플로우에서는 완전한 익스플로잇보다 탐지·패치 신뢰성이 더 중요
거시적 관점
- Mythos 발표는 AI 보안의 현실성과 산업적 중요성을 입증
- 그러나 “이 능력이 특정 폐쇄형 모델에만 존재한다”는 주장은 과장
- 실제로 탐지·분석 단계는 이미 광범위하게 접근 가능
-
보안 전문성·시스템 설계·신뢰 구축이 진정한 병목
-
지금 필요한 것은 모델이 아니라 시스템 구축
- 스캐폴드, 파이프라인, 협업 체계, 개발 워크플로우 통합
- 모델은 이미 충분히 준비되어 있음
한계와 주의점
-
테스트 범위 제한: 모델에 취약 함수와 힌트를 직접 제공, 완전 자율 탐색은 아님
-
도구 접근 없음: 코드 실행·루프·샌드박스 환경 미사용
-
모델 업데이트 반영: 일부 최신 Anthropic 모델은 이후 개선됨
-
주장 범위 명확화: Mythos의 능력을 부정하지 않으며,
탐지 능력의 독점성은 과장되었음을 지적
부록 요약
-
FreeBSD 탐지 인용
- Kimi K2: “oa_length는 검증 없이 복사되어 오버플로우 가능”
- Gemma 4: “128바이트 스택 버퍼 초과 가능”
-
과제별 성능 비교표
- FreeBSD 탐지는 전 모델 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델 우세
-
패치 코드 테스트
- 대부분의 모델이 oa_length 부호 오류로 오탐
- GPT-OSS-120b만 완전 정확
-
결론:
- AI 보안의 핵심 경쟁력은 모델의 크기나 독점성이 아니라,
-
전문가 지식이 내장된 시스템적 설계와 신뢰 가능한 운영 구조에 있음.
-
작은 모델도 충분히 강력하며, 이를 활용한 대규모 자동화 방어 체계 구축이 이미 가능한 단계임.
-
Homepage
-
개발자
- AI 사이버보안의 새로운 경계: Mythos 이후의 현실