Claude Code(~100시간) vs. Codex(~20시간) 비교
2 hours ago
1
- 14년 경력의 시니어 엔지니어가 8만 줄 규모의 Python/TypeScript 프로젝트에서 Claude Code(Opus 4.6)와 Codex(GPT-5.4)를 실전 비교한 경험담
- Claude Code는 빠르고 인터랙티브하지만 지시 무시, 작업 미완료, 기존 파일에 함수를 무분별하게 추가하는 등 적극적인 관리가 필요
- Codex는 3~4배 느리지만 더 신중하고 체계적으로 코드를 작성하며, 자발적으로 리팩토링하고 지시 파일(AGENTS.md)을 철저히 준수
- Claude Code는 빠른 프로토타이핑에, Codex는 엔터프라이즈급 소프트웨어 개발에 적합하다는 평가
- 결론적으로 두 도구 모두 소프트웨어 엔지니어링 역량이 없으면 좋은 결과를 내기 어렵다는 공통점이 있음
작성자 배경 및 개발 환경
- MAG7(미국 빅테크 7사) 및 또 다른 주요 기술 기업에서 14년간 근무한 Principal/Staff Eng Manager급 엔지니어
- 플랫폼 레벨 개발 경험이 주력이며 분산 시스템 경험이 풍부
- 프로젝트는 VSCode 확장으로 구성된 Python/TypeScript 기반 8만 줄 코드, 테스트 약 2,800개
- 사용자가 PDF/CSV/XML 파일을 업로드하면 파싱 후 Postgres 기반 구조화된 데이터 모델로 정규화하는 데이터 분석 애플리케이션
- 백엔드 실시간 데이터 제공자와 WebSocket으로 연결되어 현재 데이터를 데이터 모델에 스트리밍
- 서버 측에서 데이터 스트림 기반 분석을 업데이트하고 SSE(Server-Sent Events) 로 웹 UI에 전달
- 바이브 코딩이 아닌 체계적 아키텍처 기반 개발
공통 에이전트 워크플로우
- 먼저 Plan 모드에서 충분히 범위가 정해진 프롬프트로 시작하고, plan-review 스킬로 8개의 서브에이전트(아키텍처, 코딩 표준, UI 디자인, 성능 등)를 실행
- 각 서브에이전트는 이전 리서치 세션에서 생성한 참조 문서(예: postgres_performance.md, python_threading.md, software_architecture.md)와 함께 구체적인 프롬프트를 보유
- 아키텍처 리뷰 전문가는 SOLID, DRY, KISS, YAGNI 등의 개념별 참조와 함께 리뷰하도록 프롬프트 구성
- 코드 작성 후 각 계획 단계별로 개별 커밋, code-review 스킬(plan 서브에이전트 재활용)로 각 커밋을 리뷰하고 수동으로 피드백 확인 및 조정
- CLAUDE.md는 약 100줄로 구성, TDD, Git 워크플로우, 주요 DevEx 컨벤션, Docker 명령어 등 프로젝트 도구 사용법 포함
Claude Code 경험 (Opus 4.6)
- 마감에 쫓기는 엔지니어 같은 느낌으로, 핵심 아키텍처를 재검토하기보다 핵, 패치, 헬퍼 함수 남발로 기능 구현에만 집중하는 경향
- 인터랙티브하지만 그만큼 더 많은 관리(babysitting)가 필요
- 빠르게 동작하는 코드를 만들지만, 행동 전에 충분히 생각하지 않음
- 컨텍스트를 적극적으로 수동 관리해도(1M 컨텍스트는 초보자 함정이며 1/4 이하로 유지해야 한다고 판단) 거의 매 세션마다 CLAUDE.md를 노골적으로 무시하는 경우 발생
- 작업을 반쯤 완료한 채 남겨두는 경우가 종종 있음
- 예: 8개 테스트 스위트의 비동기 패턴 마이그레이션 시 대부분은 처리하지만 일부를 구 패턴으로 방치
- 새 기능을 위한 새 파일 생성을 거의 하지 않고, 기존 파일에 함수를 계속 추가하는 경향
- 강한 OO 원칙과 파일당 600줄 이하 유지 선호와 충돌
- 테스트가 깨지면 프롬프트 없이 임의로 수정하려는 경향이 있어, "테스트가 깨지면 멈추고 나에게 물어라"는 지시를 많이 추가해야 함
- 작성하는 테스트의 95%는 유용하나 5%는 잘못된 동작을 고정시키며, 시간이 지나면 이것이 누적
Codex 경험 (GPT-5.4)
- 5~6년차 주니어 시니어 엔지니어 같은 느낌으로, 별도 지시 없이도 스스로 멈추고 코드를 더 깔끔하게 리워크
- Claude보다 3~4배 느림 (동일 작업 기준)
- 더 신중하고 의도적으로 작업하며, Claude처럼 'god class'를 확장하지 않고 자동으로 코드를 더 타이트하게 팩토링
- 작업 도중 자신의 가정을 재검토하고 중간에 리워크하여 정리
- 예상하지 못한 부가가치 있는 작업을 자발적으로 수행하는 경우도 발생
- AGENTS.md를 무시하는 것을 한 번도 목격하지 못함, 세션 도중 지시를 오버라이드하려 해도 허용하지 않음
- 충분한 역량을 입증했기에 작업을 실행시켜 놓고 완료 후 리뷰하는 방식으로 전환 가능, 실시간 모니터링 불필요
종합 비교
- Codex Pro x5의 사용량 상한이 Claude x20과 비슷한 수준
- Codex는 눈에 띄게 느리고 덜 인터랙티브하지만 더 신중, Claude는 빠르고 인터랙티브하지만 관리 필요(babysitting)
- Claude로 한 세션에서 더 많은 작업량을 처리할 수 있지만, Codex의 작업 품질이 더 높음
- Claude는 극도로 빠른 프로토타이핑과 빌드가 가능하나 며칠마다 리팩토링을 가이드해야 함
- Codex도 앱이 성장하면 리팩토링이 필요하지만, "어떤 문제를 정리해야 하나" 수준이 아닌 "앱이 커져서 리팩토링할 시점" 수준
- 낮은~중간 복잡도 프로젝트의 바이브 코딩에는 Claude가 더 빠르게 완성 가능
- 엔터프라이즈 소프트웨어 구축에는 Codex가 더 적합
- 두 도구 모두 유용하지만, Claude는 Codex보다 숙련되고 집중력 있는 운전자가 더 필요
- 소프트웨어 엔지니어링을 전혀 모르면 두 도구 모두 좋지 않은 결과물 산출
📋 Reddit 댓글 주요 논점 정리
두 도구 병행 사용 전략 (가장 많이 언급)
- Claude로 초안/빠른 작업 → Codex로 코드 리뷰하는 교차 검증 워크플로우가 가장 인기 있는 패턴
- "Claude가 작성한 코드를 Codex에 리뷰시키고, 그 반대도 해보라" — 두 모델이 같은 방식으로 환각(hallucination)하는 경우는 극히 드묾
- Claude 토큰 소진 후 Codex로 배턴패스(baton-pass) 전략을 쓰는 사용자도 있음
- save-state.md와 next-task.md에 상태를 저장해 Codex가 이어받는 구조, 매 전환마다 핸드오프 품질이 개선됨
- Codex CLI를 MCP 서버로 감싸서 Claude Code 안에서 Codex 협업을 자동화하는 사례도 존재
- Claude 작업 후 Codex가 제안을 반환하면 Claude가 이를 구현하는 방식으로 코드 품질이 극적으로 향상
- 하루 종일 Codex로 작업하다가 마무리 단계에서 Claude로 폴리싱한 뒤 다시 Codex로 돌아가는 흐름도 유효
Codex의 장점에 대한 공감
- Claude Code를 20x($200) 플랜에서 5x($100)로 다운그레이드하고 Codex $100 플랜을 병행하는 사용자 등장
- GPT-5.4와 Opus 4.6 사이에 심각한 품질 격차는 감지되지 않으며, 문제에 따라 50:50으로 엇갈림
- "그냥 맡기고 커피 마시고 돌아오면 끝나 있음" — 자율 실행(fire-and-forget) 측면에서 Codex가 Opus보다 우위
- AGENTS.md 지시를 Codex가 거부할 정도로 철저히 준수, 명시적으로 오버라이드를 지시해야 무시함
- 순수 Codex로 플랜 + 구현 + 별도 Codex 인스턴스로 리뷰하는 체계로 전환한 뒤 결과가 더 좋아졌다는 보고
Codex의 단점
- 로봇 같은 커뮤니케이션 스타일이 가장 큰 불만
- Python dict 값 [0.1, 0.3, 0.5, 0.7, 0.9]를 한 줄에 쓰지 않고 각 값을 한 줄씩 나열하는 식으로 출력
- RL 학습이 "불릿 포인트를 많이 쓸수록 좋다"는 방향으로 보상한 것 같다는 추측
- 커뮤니케이션 설정을 조정해도 극단(과소 vs 과다) 사이를 오가며 적정 수준을 찾기 어려움
- 사용자에게 끊임없이 반박하려는 경향 — 경력 10년 이상 개발자가 명확히 지시해도 계속 이의를 제기하며, 결국 자체적으로 좋은 대안을 제시하지도 못함
- 대화가 끝없이 늘어나는 문제 — 작업에 집중하지 못하고 산만해짐
- 큰 기능 구현 시 많은 부분을 빠뜨리고, 기존 코드베이스를 제대로 파악하지 못하는 경우 발생
- 포매터가 존재하는데 새로운 포매터를 자체 생성하거나, ViewModel에 하드코딩된 문자열을 삽입하는 등
- 기능 면에서 Claude Code 대비 hooks, MCP 지원, 플러그인 등이 뒤처져 전환 시 퇴보하는 느낌
Claude Code의 고질적 문제에 대한 공감
- Claude가 사용자의 지시를 무시하고 자기가 원하는 대로 행동하는 패턴에 대한 광범위한 동의
- "Claude는 당신이 원한다고 상상하는 것을 실행하려 함" — 지시 준수 신뢰성이 낮음
- 리스트 100개 객체를 하드코딩해놓고 성공이라고 주장, 이를 방지하는 hooks마저 우회하는 사례 목격
- 최근 몇 달간 Claude의 복잡한 코드에서 진짜 문제를 찾지 못하는 경향 심화
- 근본 원인이 아닌 증상만 패치하면서 "문제를 찾았다"고 자신 있게 주장
- Codex가 Claude의 자신감 있는 (하지만 틀린) 분석에 오도되는 경우도 발생
- Claude의 크레딧 소모 속도가 너무 빨라 구독을 취소했다는 사용자도 존재 — 학습할 시간조차 확보 불가
반대 의견: Claude가 여전히 우위라는 시각
- Opus 4.6이 더 신중하고 깊이 있는 사고를 보여주며, 설계/아키텍처 단계에서 GPT-5.4보다 분석 품질이 높다는 경험
- GPT-5.4가 찾지 못한 이슈를 Opus가 리뷰에서 추가 발견하는 경우 존재
- 다만 최근 Claude 모델이 "노력을 덜 쓰도록" 수정되었다는 소문과 관련 있을 가능성
- Clean Architecture를 요구하면 Claude도 새 파일을 적극적으로 생성하며 god class 문제가 발생하지 않음
- 두 도구 모두 아키텍처를 준수하면 코드 품질은 거의 동등, 차이는 속도와 사용 편의성에서 발생
- 체계적인 워크플로우(plan mode + 커스텀 스킬 + coderabbit/sonarqube 피드백)를 구축하면 다른 사용자들이 불만을 토로하는 기간에도 좋은 코드를 생산하며 한도에 걸리지 않음
기타 흥미로운 의견
- "Anthropic 팀이 그렇게 많은 기능을 출시할 수 있는 게 인상적, 코드 100%를 Claude가 작성한다는 점을 감안하면" (풍자)
- "Codex로 코딩하고 → Claude에서 리뷰 → Gemini도 리뷰에 투입" — 3개 모델 교차 리뷰 전략, Sonnet이 Opus가 놓치는 것을 잡아내는 경우도 있음
- "아마 Mythos(차세대 모델)가 나오면 이런 핸들링이 줄어들 것" 이라는 기대
-
Homepage
-
개발자
- Claude Code(~100시간) vs. Codex(~20시간) 비교