GPT‑5.2

1 month ago 10

GPT‑5.2는 전문 지식 업무를 위한 가장 강력한 AI 모델 시리즈로, 코드 작성·이미지 인식·복잡한 프로젝트 수행 능력이 향상됨
GDPval 평가에서 44개 직종의 지식 업무 과제 중 70.9%에서 산업 전문가를 능가하거나 동률을 기록, 속도는 11배, 비용은 1% 미만 수준
SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , ARC‑AGI‑1 86.2% 등 주요 벤치마크에서 최고 성능을 달성
긴 문맥 이해(256k 토큰) , 시각 정보 처리, 도구 활용(98.7%) 등에서 GPT‑5.1 대비 큰 개선을 보임
ChatGPT와 API에서 단계적으로 배포되며, 전문가용 생산성과 신뢰성 향상을 목표로 함

GPT‑5.2 개요

GPT‑5.2는 전문 지식 업무용 AI 모델 시리즈로, 스프레드시트 작성, 프레젠테이션 제작, 코드 작성, 이미지 인식, 장문 이해, 도구 사용, 복잡한 프로젝트 수행 능력을 강화
ChatGPT Enterprise 사용자들은 이미 하루 평균 40~60분, 주당 10시간 이상 절약하고 있으며, GPT‑5.2는 이 효율성을 더욱 확장
ChatGPT에서는 Instant, Thinking, Pro 세 가지 버전으로 제공되며, API에서는 개발자에게 즉시 제공

모델 성능

GPT‑5.2 Thinking은 GDPval 평가에서 전문가 수준 이상의 성능을 최초로 달성
- 44개 직종의 지식 업무 과제 중 70.9%에서 전문가를 능가하거나 동률
- 전문가 대비 11배 빠르고 비용은 1% 미만
내부 평가에서 투자은행 분석용 스프레드시트 모델링 과제 점수가 GPT‑5.1 대비 9.3% 향상(59.1% → 68.4%)
SWE‑Bench Pro 55.6% , SWE‑Bench Verified 80% 로 소프트웨어 엔지니어링 성능 향상
- 실제 코드 디버깅, 기능 구현, 리팩터링, 배포 작업에서 더 안정적 수행
프런트엔드 개발과 3D UI 작업에서도 GPT‑5.1 대비 개선
오류 응답률이 30% 감소해 환각(hallucination) 빈도 감소

긴 문맥 이해 및 시각 인식

OpenAI MRCRv2 평가에서 장문 문서 통합 이해 성능 최고 기록
- 256k 토큰까지 거의 100% 정확도 달성
- 보고서, 계약서, 논문 등 장문 문서 분석에 적합
/compact 엔드포인트와 호환되어 맥락 확장형 워크플로우 지원
시각 인식 성능 향상으로 차트, 대시보드, UI 스크린샷 등에서 오류율 절반 수준으로 감소
- 이미지 내 구성요소의 공간적 배치 이해 능력 강화

도구 활용 및 복합 작업

Tau2‑bench Telecom 98.7% 로 도구 사용 능력 최고 기록
복수 단계의 고객 지원, 데이터 수집, 분석, 결과 생성 등 엔드투엔드 워크플로우 수행 능력 강화
- 예시: 항공편 지연·환승·보상 요청 등 복합 고객 서비스 절차를 완전하게 처리

과학·수학·추론 능력

GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , ARC‑AGI‑2 52.9% 로 주요 학술 벤치마크 최고 기록
GPT‑5.2 Pro는 ARC‑AGI‑1에서 90%를 돌파, 비용 효율은 390배 향상
GPT‑5.2 Pro와 Thinking은 과학 연구 가속화에 활용 가능
- 실제 연구에서 통계학 이론 증명을 제안하고 검증받은 사례 제시

ChatGPT 내 사용 경험

GPT‑5.2 Instant: 빠른 응답과 명확한 설명 제공, 일상적 학습·작업용
GPT‑5.2 Thinking: 코드 작성, 장문 요약, 수학·논리 문제 해결, 계획 수립 등 복잡한 작업에 적합
GPT‑5.2 Pro: 고난도 질문에 높은 신뢰도의 답변 제공, 오류율 감소

안전성 강화

GPT‑5.2는 GPT‑5의 Safe Completion 연구를 기반으로, 자살·정신건강·정서 의존 관련 대화 응답을 개선
- GPT‑5.1 대비 부적절 응답 비율 감소
연령 예측 모델을 도입해 18세 미만 사용자에게 민감 콘텐츠 접근 제한
ChatGPT의 과도한 거부(over‑refusal) 문제 개선 작업 진행 중

가격 및 제공 방식

ChatGPT 유료 플랜(Plus, Pro, Business, Enterprise)부터 단계적 배포
API에서는 gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro로 제공
가격: 입력 100만 토큰당 $1.75, 출력 100만 토큰당 $14, 캐시 입력 90% 할인
- GPT‑5.1보다 단가 높지만 토큰 효율성 향상으로 총비용 절감
GPT‑5.1은 3개월간 유지 후 단계적 종료 예정
Codex 최적화 버전은 추후 공개 예정

기술 파트너십

NVIDIA 및 Microsoft와 협력해 GPT‑5.2를 개발
- Azure 데이터센터와 H100, H200, GB200‑NVL72 GPU 인프라를 활용
- 대규모 학습 효율과 모델 지능 향상 지원

주요 벤치마크 요약

GDPval: 70.9% (GPT‑5.1 38.8%)
SWE‑Bench Verified: 80.0%
OpenAI MRCRv2 (256k) : 77.0%
CharXiv Reasoning (w/ Python) : 88.7%
Tau2‑bench Telecom: 98.7%
ARC‑AGI‑1 (Verified) : 86.2%
AIME 2025: 100%
FrontierMath Tier 1–3: 40.3%

GPT‑5.2는 지능, 신뢰성, 생산성에서 전 세대 모델을 크게 능가하며, 전문가 수준의 실무 지원 AI로 자리매김함.

Read Entire Article