- 향상된 코딩 능력과 장기적 작업 지속성을 갖춘 Anthropic의 최신 AI 모델로, 1M 토큰 컨텍스트 윈도우를 베타로 지원
- 주요 벤치마크에서 업계 최고 수준의 점수를 기록하며, GPT-5.2보다 약 144 Elo 포인트 우위
-
코드 리뷰·디버깅, 대규모 코드베이스 처리, 재무 분석·문서 작성 등 실무 중심 작업에서 성능이 강화됨
-
Adaptive thinking, context compaction, effort 조절 등 개발자 제어 기능이 추가되어 장기 실행형 에이전트 운영이 용이
- 안전성 평가에서도 오류·남용·과잉 거부율이 낮은 결과를 보여, 고성능과 안전성을 동시에 달성한 모델로 평가
Claude Opus 4.6 주요 개선점
- Opus 4.6은 이전 버전 대비 계획 능력, 에이전트 지속성, 코드 품질 관리가 향상된 모델
- 대규모 코드베이스에서 더 안정적으로 작동하며, 자체 오류 탐지 및 수정 능력 강화
- 1M 토큰 컨텍스트 윈도우(베타)로 장문·복합 작업 처리 가능
-
일상 업무 활용성도 확대되어, 재무 분석·리서치·문서·스프레드시트·프레젠테이션 생성 등 다양한 작업 수행
-
Cowork 환경에서 멀티태스킹 자율 수행이 가능, 사용자를 대신해 복합 업무 처리
벤치마크 및 성능 평가
-
Terminal-Bench 2.0에서 최고 점수, Humanity’s Last Exam에서도 모든 프런티어 모델 중 선두
-
GDPval-AA 평가에서 GPT-5.2보다 약 144 Elo 포인트, Opus 4.5보다 190 포인트 높은 성능
-
BrowseComp 테스트에서도 최고 성능을 기록, 온라인 정보 탐색 능력 강화
-
MRCR v2 (1M variant) 에서 76% 점수로, Sonnet 4.5의 18.5% 대비 큰 향상
- 장문 컨텍스트 유지력과 정보 추적 능력이 개선되어 context rot 현상 완화
초기 사용 경험 및 파트너 피드백
- 내부 엔지니어링 테스트에서 복잡한 문제 해결력과 판단력이 향상됨
- 어려운 문제에서는 깊이 있는 사고를 반복하며 더 나은 결과 도출
- 단순 작업에서는 과도한 사고로 지연될 수 있어 /effort 파라미터로 조정 가능
- 초기 파트너들은 Opus 4.6이 자율적 실행 능력, 복잡한 요청 처리, 팀 협업 지원에서 탁월하다고 평가
- 대규모 코드베이스 탐색, 병렬 하위 작업 수행, 블로커 식별 등에서 정밀한 성능
- 법률·금융·기술 콘텐츠 분석에서 높은 정확도(예: BigLaw Bench 90.2%)
- 실제 테스트에서 40건 중 38건의 사이버보안 조사에서 Opus 4.5보다 우수한 결과
- 수백만 라인 코드 마이그레이션을 절반 시간에 완료한 사례 보고
안전성 및 보안 강화
-
자동화된 행동 감사에서 기만·아첨·오용 협력 등 비정렬 행동 비율이 낮음
-
과잉 거부율(over-refusal) 이 가장 낮은 Claude 모델
- 사용자 복지, 위험 요청 거부, 은밀한 유해 행동 탐지 등 새로운 안전성 평가 실시
-
해석가능성 연구를 통해 모델 내부 작동 원인 분석 및 잠재적 문제 탐지
-
사이버보안 능력 강화에 따라 6종의 신규 보안 프로브 도입, 악용 탐지 강화
-
방어적 활용으로 오픈소스 취약점 탐지·패치 지원, 향후 실시간 남용 차단 계획
제품 및 API 업데이트
-
Claude Developer Platform에서 다음 기능 추가
-
Adaptive thinking: 모델이 상황에 따라 심층 사고 여부를 자동 결정
-
Effort 레벨: low, medium, high(기본), max 네 단계 제공
-
Context compaction (베타) : 대화가 길어질 때 오래된 컨텍스트를 요약·대체
-
1M 토큰 컨텍스트 (베타) 및 128k 출력 토큰 지원
-
US-only inference 옵션 제공 (1.1배 요금)
-
Claude Code에 agent teams 기능 추가, 여러 에이전트가 병렬 협업 가능
-
Claude in Excel은 비정형 데이터 구조화·다단계 변경 처리 능력 향상
-
Claude in PowerPoint(리서치 프리뷰)는 슬라이드 템플릿·폰트·레이아웃을 인식해 브랜드 일관성 유지
접근 및 가격
- Opus 4.6은 claude.ai, API, 주요 클라우드 플랫폼에서 즉시 사용 가능
- API 모델명은 claude-opus-4-6, 가격은 $5/$25 per million tokens으로 이전과 동일
- 200k 토큰 초과 프롬프트에는 프리미엄 요금($10/$37.50 per million tokens) 적용
결론
- Claude Opus 4.6은 장기 컨텍스트 처리, 자율적 에이전트 작업, 고급 추론 능력에서 큰 도약을 이룸
-
성능·안전성·개발자 제어성을 모두 강화한 모델로, 실무형 AI 도구의 새로운 기준 제시