- GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식을 한 모델로 결합, 25% 더 빠른 속도 제공
- Codex의 에이전틱 작업 범위를 장기 실행 작업까지 확장하고, 작업 중간에도 방향을 바꾸고 피드백을 반영하는 실시간 상호작용 협업을 Codex 앱에 통합
- 자체 학습 과정의 디버깅, 배포 관리, 평가 진단에 초기 버전이 직접 활용된 최초의 자기 개발 참여 모델
-
SWE-Bench Pro, Terminal-Bench 2.0, OSWorld 등 주요 벤치마크에서 업계 최고 성능을 기록하며, 이전 모델보다 적은 토큰으로 동작
- 코드 작성을 넘어 프레젠테이션, 스프레드시트, 데이터 분석 등 소프트웨어 생명주기 전반의 지식 노동을 지원
개요
- GPT-5.3-Codex는 “가장 역량이 높은 에이전틱 코딩 모델”
- GPT-5.2-Codex의 프런티어 코딩 성능과 GPT-5.2의 추론·전문 지식 역량을 한 모델로 결합, 속도 25% 향상
- 리서치·도구 사용·복잡 실행이 포함된 장기 작업을 수행하도록 설계, 작업 중에도 컨텍스트를 잃지 않고 조율 가능
- 초기 버전을 사용해 자기 학습·배포·평가 진단에 관여하며 “스스로의 개발을 가속”한 첫 모델
- Codex의 역할을 “코드 작성·리뷰”에서 “컴퓨터에서 개발자·전문가가 하는 거의 모든 작업”으로 확대
프론티어 에이전틱 역량
-
코딩 성능
-
SWE-Bench Pro(실제 소프트웨어 엔지니어링 평가)에서 최고 성능 달성, 이 벤치마크는 Python만 테스트하는 SWE-Bench Verified와 달리 4개 언어를 포괄하며 오염 저항성이 높고 산업 연관성이 큼
-
Terminal-Bench 2.0에서도 이전 최고 성능을 크게 초과, 코딩 에이전트에 필요한 터미널 기술 측정
- 이전 모델 대비 더 적은 토큰으로 동일 작업 수행 가능
-
웹 개발
- 프론티어 코딩 역량, 미적 감각 개선, 압축 기술의 결합으로 복잡한 게임과 앱을 며칠에 걸쳐 처음부터 구축 가능
- 웹 개발 및 장기 에이전틱 역량 테스트를 위해 레이싱 게임과 다이빙 게임 두 가지를 제작해 봄
- 레이싱 게임: 다양한 레이서, 8개 맵, 스페이스바로 사용하는 아이템 포함
- 다이빙 게임: 다양한 산호초 탐험, 물고기 도감 수집, 산소·수압·위험 요소 관리
- "develop web game" 스킬과 "fix the bug", "improve the game" 같은 사전 설정된 범용 후속 프롬프트를 사용해 수백만 토큰에 걸쳐 자율적으로 반복 개선
- 일상적인 웹사이트 제작 시 GPT-5.2-Codex 대비 사용자 의도를 더 잘 이해하며, 단순하거나 불충분한 프롬프트에도 더 많은 기능과 합리적인 기본값을 자동 적용
- 랜딩 페이지 비교 예시: GPT-5.3-Codex는 연간 플랜을 할인된 월간 가격으로 자동 표시하고, 3개의 사용자 인용이 포함된 자동 전환 추천 캐러셀을 생성해 더 완성도 높은 결과물 제공
-
코딩 이외의 역량
- 소프트웨어 엔지니어, 디자이너, 프로덕트 매니저, 데이터 사이언티스트가 수행하는 디버깅, 배포, 모니터링, PRD 작성, 카피 편집, 사용자 리서치, 테스트, 메트릭 분석 등 소프트웨어 생명주기 전반 지원
- 슬라이드 덱 제작, 시트 데이터 분석 등 소프트웨어 외 영역까지 확장
-
GDPval(44개 직업군의 잘 정의된 지식 노동 과제 측정 평가)에서 GPT-5.2와 동등한 70.9% 달성
- 프레젠테이션, 스프레드시트 등 실제 업무 산출물 포함
- 재무 자문 슬라이드, 소매 교육 문서, NPV 분석 스프레드시트, 패션 프레젠테이션 PDF 등 다양한 산출물 예시 제시
-
OSWorld-Verified(시각적 데스크톱 환경에서 생산성 과제 수행하는 에이전틱 컴퓨터 사용 벤치마크)에서 64.7% 달성, 이전 GPT 모델(38.2%) 대비 큰 폭 상승
인터랙티브 협업자
- 모델 역량이 강화됨에 따라, 에이전트가 할 수 있는 것보다 인간이 병렬로 작업하는 다수의 에이전트를 얼마나 쉽게 지시·감독할 수 있는가로 핵심 과제가 이동
- Codex 앱이 에이전트 관리와 지시를 용이하게 하며, GPT-5.3-Codex에서 더 높은 상호작용성 제공
- 작업 중 주요 결정과 진행 상황을 빈번하게 업데이트하여 사용자가 최종 결과를 기다리지 않고 실시간으로 질문, 접근 방식 논의, 방향 조정 가능
- 자신이 하고 있는 작업을 설명하고, 피드백에 응답하며, 처음부터 끝까지 사용자를 루프에 포함
- 설정 경로: Settings > General > Follow-up behavior에서 모델 작업 중 스티어링 활성화
Codex를 활용한 GPT-5.3-Codex 학습 및 배포
- OpenAI 전체에 걸친 수개월~수년간의 연구 프로젝트 위에 최근의 빠른 Codex 개선이 구축됨
- OpenAI의 많은 연구자와 엔지니어가 현재 업무 방식이 2개월 전과 근본적으로 다르다고 표현
- 초기 버전의 GPT-5.3-Codex도 뛰어난 역량을 보여, 팀이 이 초기 버전을 활용해 이후 버전의 학습 개선과 배포를 지원
-
연구팀 활용 사례
- 이번 릴리스의 학습 런 모니터링 및 디버깅에 Codex 사용
- 인프라 문제 디버깅을 넘어 학습 과정 전반의 패턴 추적, 상호작용 품질에 대한 심층 분석, 수정 제안, 이전 모델과의 행동 차이를 정밀하게 파악하기 위한 리치 애플리케이션 구축
-
엔지니어링팀 활용 사례
- GPT-5.3-Codex용 하네스 최적화 및 적응에 Codex 활용
- 사용자에게 영향을 주는 이상한 에지 케이스 발생 시, Codex로 컨텍스트 렌더링 버그 식별과 낮은 캐시 적중률의 근본 원인 분석
- 출시 기간 동안 트래픽 급증에 대응해 GPU 클러스터 동적 스케일링 및 지연 시간 안정화에 지속 활용
-
알파 테스트 활용 사례
- 한 연구자가 GPT-5.3-Codex가 턴당 얼마나 많은 추가 작업을 수행하는지와 생산성 차이를 이해하고자 함
- GPT-5.3-Codex가 명확화 질문 빈도, 긍정·부정 응답, 작업 진행도를 추정하는 간단한 정규식 분류기 여러 개를 고안하고 전체 세션 로그에 대규모로 실행 후 결론 보고서 생성
- Codex로 구축하는 사람들의 만족도가 더 높았으며, 에이전트가 의도를 더 잘 이해하고 턴당 더 많은 진행을 보이며 명확화 질문 감소
-
데이터 파이프라인 구축
- 알파 테스트 데이터가 이전 모델과 매우 달라 비정상적이고 반직관적인 결과 다수 발생
- 데이터 사이언티스트가 GPT-5.3-Codex와 함께 새로운 데이터 파이프라인을 구축하고, 표준 대시보드 도구보다 훨씬 풍부한 시각화 수행
- Codex와 함께 결과를 공동 분석하여, 수천 개의 데이터 포인트에 대한 핵심 인사이트를 3분 이내에 요약
사이버 보안 프론티어 확보
- 최근 수개월간 사이버보안 과제에서의 모델 성능이 의미 있게 향상, 개발자와 보안 전문가 모두에게 혜택
- 이와 병행하여 방어적 사용과 광범위한 생태계 회복력을 지원하기 위한 강화된 사이버 보안 안전장치 준비
-
Preparedness Framework 하에서 사이버보안 관련 과제에 대해 High 등급으로 분류된 최초의 모델이자, 소프트웨어 취약점 식별을 직접 학습한 최초의 모델
- 종단 간 사이버 공격 자동화가 가능하다는 확정적 증거는 없으나, 예방적 접근을 취하며 지금까지 가장 포괄적인 사이버보안 안전 스택 배포
- 안전 학습, 자동화 모니터링, 고급 기능에 대한 신뢰 기반 접근, 위협 인텔리전스를 포함한 집행 파이프라인
- 사이버보안의 본질적 이중 용도 특성을 고려해, 방어자의 취약점 발견·수정 역량을 가속하면서 오용을 지연시키는 증거 기반 반복적 접근 채택
-
방어 연구 및 생태계 보호 프로그램
-
Trusted Access for Cyber 파일럿 프로그램 출시, 사이버 방어 연구 가속 목적
- 보안 연구 에이전트 Aardvark의 비공개 베타 확대, Codex Security 제품군의 첫 번째 제공물
- 오픈소스 메인테이너와 협력하여 널리 사용되는 프로젝트(예: Next.js)에 무료 코드베이스 스캐닝 제공
- 보안 연구자가 Codex를 사용해 지난 주 공개된 취약점(CVE-2025-59471, CVE-2025-59472) 발견
- 2023년 출시된 100만 달러 규모 사이버보안 보조금 프로그램을 기반으로, 가장 강력한 모델을 활용한 사이버 방어 가속을 위해 1,000만 달러 API 크레딧 추가 투자
- 특히 오픈소스 소프트웨어 및 핵심 인프라 시스템 대상
- 선의의 보안 연구에 참여하는 조직은 Cybersecurity Grant Program을 통해 API 크레딧 및 지원 신청 가능
가용성 및 세부사항
- GPT-5.3-Codex는 유료 ChatGPT 플랜에서 사용 가능하며, Codex가 지원되는 모든 곳(앱, CLI, IDE 확장, 웹)에서 이용 가능
- API 접근은 안전하게 활성화하기 위해 준비 중
- 인프라 및 추론 스택 개선으로 Codex 사용자 대상 25% 빠른 속도로 운영, 더 빠른 상호작용과 결과 제공
-
NVIDIA GB200 NVL72 시스템에서 공동 설계, 학습, 서빙
향후 방향
- Codex가 코드 작성을 넘어 코드를 도구로 사용해 컴퓨터를 조작하고 작업을 처음부터 끝까지 완료하는 방향으로 이동
- 코딩 에이전트의 프론티어를 확장함으로써 소프트웨어 구축·배포뿐 아니라 연구, 분석, 복잡한 과제 실행 등 더 광범위한 지식 노동 영역까지 해제
- 최고의 코딩 에이전트에서 출발해, 컴퓨터 위의 범용 협업자로 발전하며 구축 가능한 대상과 구축할 수 있는 사람의 범위를 확장
Appendix: 벤치마크 수치
- 모든 평가는 xhigh reasoning effort로 실행함
-
SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
-
Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
-
OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
-
GDPval(승리 또는 동점): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
-
Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
-
SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%