OpenAI Codex 업데이트 — Claude Code 대항마 3장

2026년 4월 17일, Anthropic이 Claude Design을 꺼내 Figma 주가를 7% 흔들었다. 그런데 사람들이 잘 안 본 타이밍 문제가 하나 있음. Anthropic이 디자인 시장을 두드린 바로 하루 전날인 4월 16일, 이번엔 OpenAI가 정반대 방향으로 칼을 뽑았다. Claude Code를 정면으로 겨냥한 Codex 대형 업데이트다.

피그마 주가가 빠진 날 업계 시선은 디자인 툴 쪽으로 쏠렸지만, 1인 개발자·바이브코더 입장에선 정작 더 치명적인 뉴스가 Codex 쪽이었다고 봄. 데스크톱 제어, 인앱 브라우저, 메모리. 지금까지 Claude Code가 혼자 차지하던 자리를 OpenAI가 한꺼번에 세 곳에서 때린 셈이다.

TechCrunch는 이번 발표를 두고 “OpenAI가 Anthropic을 정조준했다”고 썼다. 정확한 표현이다. SiliconANGLE은 한 발 더 나가 “OpenAI가 Claude Code를 명백한 de facto 리더로 인정했다”고 적었다. 자존심 강한 OpenAI가 경쟁자의 제품을 따라 만드는 쪽을 택한 건 이례적이라는 평가가 따라붙는다.

한 줄 정리: Codex가 Claude Code 흉내 내기 시작함

3월에 Anthropic이 Claude·Cowork로 Mac·데스크톱 원격 제어를 선보였을 때 OpenAI는 조용했다. 그로부터 한 달 만에 Codex가 거의 동일한 기능 세트를 들고 돌아온 셈이다. Medium의 Mark Chen이 4월에 올린 “Why Claude Code Grew So Fast Against Codex” 같은 글이 벌써 3만 뷰를 넘긴 걸 보면, 업계도 이번 격차를 숫자로 체감하고 있음.

이번 업데이트로 OpenAI가 전하려는 메시지는 단순함. “Claude Code에서 되는 건 Codex에서도 된다”는 것이다. 실제로 발표 직후 Reddit r/OpenAI, r/Anthropic, r/LocalLLaMA에서는 기능 매핑표와 벤치마크 비교글이 쏟아졌다. 그 흐름을 한 번 정리해둘 가치가 있어 보였음.

Codex 업데이트의 핵심 3가지

이번 발표에서 OpenAI가 올린 기능은 10개가 넘지만, 실질적으로 판세를 흔드는 건 세 가지로 압축됨.

1) 데스크톱 에이전트 — Codex가 내 Mac을 대신 만진다

Codex가 백그라운드에서 Mac 앱을 켜고, 커서를 움직이고, 타이핑까지 한다. 사용자가 다른 창에서 일하는 동안에도 “간섭 없이 병렬로” 돌아간다는 게 OpenAI의 공식 표현. 여러 에이전트가 동시에 작업하는 멀티 에이전트 런타임 구조를 채택했다.

기본 용도는 명확함. 프론트엔드 이터레이션, 앱 테스팅, API 없이 돌려야 하는 작업. 버튼 클릭, 스크롤, 폼 입력 같은 “컴퓨터를 직접 만져야 하는” 반복 작업을 Codex에 떠넘길 수 있다는 뜻이다. 플러터 앱이나 Electron 데스크톱 앱의 QA 자동화 같은 데가 가장 먼저 떠오르는 영역.

이 구조는 Anthropic이 3월에 공개한 Computer Use / Cowork와 거의 판박이임. Anthropic 쪽이 먼저 정식 출시했고, OpenAI가 한 달 시차로 따라붙은 모양새. 다만 Anthropic의 Cowork는 “원격 Mac을 Claude 웹에서 조종”하는 쪽에 가깝고, Codex는 로컬 Mac에서 병렬 에이전트가 돌아간다는 점에서 아키텍처가 다름. 로컬 작업 중심이라면 Codex 쪽이 오히려 체감상 빠르게 느껴질 수 있다.

2) 인앱 브라우저 — 웹 앱을 Codex가 조작한다

Codex 안에 브라우저가 내장됐다. 사용자가 “localhost:3000에서 로그인 흐름 테스트해봐”라고 시키면, Codex가 내장 브라우저에서 직접 렌더링하고 클릭한다. 게임 개발, 프론트엔드 테스트, 로컬 개발 환경에서 특히 강력하게 쓰일 구성.

OpenAI는 “아직은 localhost 중심이지만 점차 일반 웹으로 확대한다”고 밝혔다. Playwright나 Selenium 같은 테스트 자동화 도구 대신 Codex 한 창에서 끝내겠다는 야심. 1인 개발자 입장에선 확실히 끌리는 그림임.

Claude Code 쪽엔 아직 내장 브라우저가 없음. 대신 MCP 표준으로 Playwright MCP 서버를 붙이면 비슷한 일을 할 수는 있음. 설정 비용은 MCP 쪽이 더 들지만, 대신 교체·확장·커스터마이징 자유도는 MCP가 앞섬. “완성품이냐 조립식이냐”의 대결 구도다.

3) 메모리 — 내 작업 패턴을 Codex가 외운다

Preview 단계로 공개된 메모리 기능은 과거 작업 세션을 Codex가 기억함. 어제 어떤 브랜치에서 뭘 작업하다 말았는지, 어떤 에러를 반복해서 봤는지, 어떤 리팩터링 방식을 선호하는지 저장해두는 구조다.

Anthropic의 CLAUDE.md 파일 기반 장기 기억과 직접 비교됨. Claude Code는 사용자가 직접 파일로 관리하는 형태에 가깝고, Codex 메모리는 내장 DB에서 자동 학습하는 방식이다. 편의성은 Codex 쪽이 앞설 수 있음. 대신 “내가 뭘 잊히게 할지”에 대한 통제권은 CLAUDE.md 쪽이 확실함.

개인적으로 이건 취향 싸움임. 버전 관리와 git에 올려서 팀 단위로 공유할 수 있는 CLAUDE.md 방식이 나는 더 맞는다. Codex 메모리는 보이지 않는 곳에서 쌓이기 때문에 “왜 Codex가 저렇게 판단했지?” 같은 역추적이 어려워진다. 프로덕션 업무에선 이게 생각보다 큰 비용이 된다.

Claude Code vs Codex, 4월 16일 기준 지도

항목	Claude Code	Codex (4/16 업데이트 후)
데스크톱 제어	Cowork (3월 출시)	4월 16일 추가
인앱 브라우저	MCP로 조립 (Playwright 등)	내장, 로컬호스트 중심
장기 기억	CLAUDE.md 파일 기반	자동 학습 메모리 (preview)
플러그인 생태계	MCP 표준, 업계 디팩토	111개 플러그인 자체 구축
가격	Pro $20 / Max $100 / Team / Enterprise	ChatGPT Plus $20 / Pro $100 / Enterprise PAYG
데스크톱 앱	4/14 전면 리디자인 + Routines	기존 IDE 확장 중심
스케줄 자동화	Routines (5/15/25개/일)	미제공
주요 모델	Claude Opus 4.7 (SWE-bench 87.6%)	GPT-5.4 계열 / Spud 대기

표로 정리하면 보인다. 이번 업데이트로 Codex가 Claude Code의 “컴퓨터 제어” 영역을 거의 다 따라왔음. 대신 메모리 자동화와 플러그인 양적 확장은 Codex가 앞섬. Claude Code는 MCP 표준과 개발자 생태계의 네트워크 효과, 그리고 Opus 4.7 성능으로 버티는 중이다.

가격 전쟁도 함께 시작됨 — Pay-as-you-go와 ChatGPT Pro $100

OpenAI는 이번 업데이트에 맞춰 엔터프라이즈·비즈니스 고객용 pay-as-you-go 옵션을 꺼냈다. 기존 고정 구독제로는 한도 초과 시 대응이 애매했던 걸 개선한 모양. 쓴 만큼 내고, 여러 팀원이 실험적으로 접근할 수 있게 하겠다는 구성이다.

4월 9일에는 월 $100짜리 ChatGPT Pro 요금제도 내놨다. 명백히 Claude Max $100과 동일한 가격대를 노린 설정. Sora, Codex, 고급 음성 모드, 오퍼레이터 같은 기능에 대한 usage cap을 대폭 늘려주는 티어다.

그런데 Claude Max가 이미 “Opus 4.7 헤비 유저”를 끌어안고 있어서, 가격을 맞춘다고 바로 갈아태우긴 쉽지 않음. OpenAI가 가격을 맞춰도 유저들이 이미 Claude에 익숙해진 뒤라는 말이다. CNBC도 같은 분석을 내놨고, Reddit 후기에서도 “가격보다 체감 성능 차이가 크다”는 반응이 다수다.

그래서 누가 이기고 있는가

Medium, Northflank, Apidog, WaveSpeedAI가 4월 중순에 올린 비교 리뷰를 종합하면 결론은 이렇다. 기능 격차는 거의 사라졌지만, 체감 품질·생태계·신뢰도는 여전히 Claude Code가 앞선다.

MCP 표준이 업계 디팩토가 됐다. Cursor, Windsurf, Zed 같은 에디터가 전부 MCP를 집어넣는 쪽으로 붙었음. Codex 플러그인은 폐쇄 생태계다.
Claude Opus 4.7 SWE-bench 87.6%는 아직 Codex가 못 따라잡았다. GPT-5.4-Cyber 같은 변종이 나왔지만 실질 성능 격차는 유지 중이다.
“Cowork → Routines”로 이어지는 자동화 축적이 한 달 먼저 시작됐다. 4월 14일 Routines 출시로 실사용 관점의 격차가 더 벌어졌음.
GitHub 통합과 PR 자동 리뷰 흐름에서도 Claude Code 쪽이 한 수 위라는 후기가 많다. Northflank 리포트 기준 “PR 컨텍스트 이해도”에서 Claude가 높은 점수를 받았음.

다만 OpenAI가 포기할 상황은 전혀 아니다. ChatGPT 브랜드 파워, Apple·Windows 유통망, 그리고 곧 나올 차세대 모델 “Spud”(GPT-5.5 내지 GPT-6 유력)가 남아 있다. Polymarket은 4월 말 출시 확률을 78%로, 6월 말까지로는 95% 이상으로 걸고 있음. 이 모델이 어떤 벤치마크를 들고 나오느냐에 따라 판세가 한 번 더 뒤집힐 수 있다.

정리하면, 4월 16일 업데이트는 OpenAI가 “판을 바꾸는 수”를 던진 게 아니라 “판에서 탈락하지 않기 위한 수”에 가깝다. 진짜 판을 흔드는 수는 Spud 출시다.

실사용 시나리오로 봤을 때 — 어디서 체감 차이가 나나

기능 표만 봐서는 감이 잘 안 잡힘. 실제 개발 흐름에 대입해보면 차이가 더 선명해진다. 네 가지 시나리오로 정리해봤음.

시나리오 A — 프론트엔드 이터레이션. 버튼 색·여백·간격 바꾸고 브라우저에서 눈으로 확인하는 루프. Codex 인앱 브라우저가 직관적으로 맞는 자리. Claude Code도 MCP Playwright 서버를 붙이면 되지만, 설정 한 번만 해두면 되는 반면 Codex는 기본 내장이라 손맛이 더 좋을 수 있음.

시나리오 B — 사이드프로젝트 CI/일일 배포. 새벽 2시에 린트·빌드·테스트 돌리고 이상 있으면 텔레그램으로 쏘기. 이건 Routines 압승. Codex엔 현재 스케줄 기반 자동화 축이 없다. 매일 트리거 필요한 업무는 지금 시점에선 Claude Code만 된다.

시나리오 C — 모노레포 대형 리팩터링. Opus 4.7의 SWE-bench 87.6% 실력이 드러나는 영역. Codex는 GPT-5.4 계열로 돌아가는데, 큰 파일·복잡한 의존성 추적에서 여전히 헛발질이 잦다는 후기가 다수. 최소 Spud 나오기 전까진 Claude 쪽이 안심이다.

시나리오 D — 플러그인·통합 지옥. Slack·GitLab·Google Calendar·CodeRabbit을 한 흐름에 끼워야 하는 사내 워크플로우. Codex가 111개 플러그인을 자체 구축한 덕에 여기선 Codex가 편함. 단, MCP 생태계도 빠르게 따라붙고 있어서 6월쯤이면 격차가 줄 거라는 전망이 많다.

사이드프로젝트 굴리는 입장에서의 결론

지금 토토브리핑, 핫판, 바벨, 흑우 같은 사이드프로젝트를 Claude Code로 굴리고 있음. 솔직히 이번 Codex 업데이트를 보고 한 번 갈아태워볼까 고민했다. 데스크톱 에이전트가 Mac을 직접 만진다는 건, 플러터 앱 테스트나 웹뷰 자동화에서 체감이 클 것 같았기 때문이다.

그런데 실제 비교 후기들을 살펴보면 아직 갈아탈 단계는 아님. Codex 데스크톱 에이전트는 기능은 있는데 안정성이 덜 잡혔다는 후기가 대다수다. 클릭 좌표가 튀고, 레이아웃 변화에 약하고, 실패 시 복구 로직이 얕다는 얘기. Claude Cowork도 완벽하진 않지만 한 달 먼저 겪어본 만큼 현실 대응이 더 매끈한 편이다.

추가로 Claude Code 쪽은 4월 14일 Routines로 “스케줄·트리거 기반 자동화”까지 붙여놨다. 하루에 5개(Pro), 15개(Max), 25개(Team/Enterprise)까지 자동으로 돌릴 수 있음. 1인 개발자 입장에서 이건 개인 사이드프로젝트의 CI, 일일 점검 루틴, 새벽 배포 같은 걸 통째로 맡길 수 있다는 얘기다. Codex엔 아직 이런 축이 없다. 이것 하나만으로도 이번 4월의 점수는 Claude가 가져간 셈.

지금 Claude Pro·Max 쓰고 있다면 굳이 Codex로 갈아탈 이유는 없음. ChatGPT Pro 이상 쓰는 사람이라면, 이번 업데이트로 “같은 작업을 Codex로도 해볼 만해졌다” 정도의 변화다. 결정적으로 갈리는 건 Spud 공개 이후가 될 거다.

한줄평 — 코덱스는 따라잡고, Claude는 도망치고 있다

Codex 4월 16일 업데이트는 “OpenAI가 Claude Code를 인정했다”는 신호지만, 동시에 “지금 따라잡기엔 이미 늦은 것도 많다”는 현실도 드러냈음. 데스크톱·브라우저·메모리 3종 세트는 한 달 전 Anthropic이 내놓은 Cowork + Routines의 그림자를 좇는 느낌이 강하다.

결국 2026년 봄의 AI 코딩 시장은 Claude Code가 쥐고 있음. 다음 판세를 바꾸는 건 OpenAI의 차세대 모델 “Spud”가 언제 나오느냐, 그리고 어떤 수준으로 나오느냐다. 4월 말에서 6월 사이 어딘가에서 뚜껑이 열릴 가능성이 높으니, 지금은 너무 급하게 플랫폼을 옮길 필요가 없다는 게 개인적 결론임.

그때까지는 Claude Code + Routines 조합을 최대한 파보자는 쪽으로 정리했다. 다음 글에서는 Claude Code 데스크톱 리디자인과 Routines 기능을 실제 사이드프로젝트에 붙여본 후기를 남겨둘 예정임.

참고: TechCrunch 원문 (2026-04-16), SiliconANGLE 분석 (2026-04-16), CNBC ChatGPT Pro $100 분석 (2026-04-09), Claude Design 등장 리뷰 (자매편)

OpenAI Codex 반격 — Claude Code 패권에 던진 승부수 3장