2026년 4월, AI 업계가 숨죽여 지켜보는 한 글자짜리 키워드가 있다. Spud. OpenAI가 내부적으로 붙여 쓰는 차세대 모델의 코드네임이다. 이름 자체는 “감자” 정도의 장난스러운 의미지만, 이 감자가 세상을 뒤집을 가능성을 업계 전체가 진지하게 바라보고 있음.
직전 한 달간 판세는 Anthropic이 주도했다. Claude Opus 4.7의 SWE-bench 87.6%, Claude Code Cowork와 Routines, Claude Design 출시까지. 반대로 OpenAI는 Codex 업데이트(4/16)로 대응만 했을 뿐 새 모델은 꺼내지 않았다. Spud가 그 새 모델이다.
이 글은 4월 18일 기준, Spud에 대해 지금까지 공개됐거나 유력하게 알려진 사실들을 한 번에 정리한 것. 공식 발표가 아직이라 확정과 유력 추정을 명확히 구분해뒀음.
Spud가 뭔가 — 한 줄 정리
Spud는 OpenAI의 다음 프론티어 모델의 내부 코드네임. The Information이 가장 먼저 보도했고, 이후 Axios, Adam Holter, Trending Topics 등에서 교차 확인됐다. 출시 명칭은 아직 미확정 — GPT-5.5 또는 GPT-6 둘 중 하나가 될 가능성이 유력하다.
핵심 포지션은 “ChatGPT 슈퍼앱의 통합 엔진”임. 현재 따로 움직이는 ChatGPT·Codex·Operator·메모리·검색 기능을 한 개의 모델이 전부 감당하도록 재설계했다. 단일 모델이 멀티모달, 코드, 에이전트 작업, 긴 컨텍스트 추론을 모두 처리한다는 그림이다.
Sam Altman은 내부 발언에서 “아주 강력한 모델이며 경제 전체를 가속할 수 있다”고 표현했고, Greg Brockman은 “2년간의 연구 결과이며 점진적 개선이 아니라 모델 개발 방식의 중요한 전환”이라고 말한 걸로 알려졌다. 사내 기대치가 상당한 모델이라는 뜻.
지금까지 공개된 사실 5가지
소스별로 교차 확인된 내용만 추려 정리했다. 아직 추측 섞인 것도 있지만, 최소 2개 매체에서 확인된 건만 포함.
1) 프리트레이닝은 이미 끝났다. 2026년 3월 24일경 프리트레이닝이 완료됐다는 게 다수 매체의 일치된 보도. 4월 중·후반 현재는 포스트트레이닝(RLHF, 정책 조정, 안전성 검증) 단계로 알려져 있다. 이 시간표상 4월 말 공개는 물리적으로 가능함.
2) 코드명 Spud는 임시 플레이스홀더. 내부 명명 규칙 중 하나로 무작위 단어가 붙었고, 개발팀에서 “감자”라고 부르며 농담처럼 쓰이고 있다는 후문. 출시 시 정식 명칭은 GPT-5.5 또는 GPT-6이 될 가능성이 가장 높고, ‘GPT-next’ 같은 전혀 다른 네이밍 가능성도 배제는 안 됨.
3) 네이티브 멀티모달이 핵심. 텍스트·이미지·오디오·비디오를 하나의 모델에서 처음부터 학습한 구조라는 보도가 다수. GPT-5.4까지는 모달리티별 어댑터가 외곽에서 붙는 식이었다면, Spud는 설계 단계부터 “한 뇌”로 통합. Gemini 3.1 Ultra가 먼저 이 방향으로 갔고, OpenAI가 같은 노선을 밟았다고 보면 됨.
4) “의도 추론” 능력 강화. 불완전·애매한 사용자 요청에서 진짜 의도를 유추하는 능력이 특히 강해졌다는 게 사내 테스트 리포트 요지. 다시 말해, 프롬프트 엔지니어링 의존도를 낮추는 방향으로 훈련됐다. 일반 사용자가 대충 물어봐도 괜찮은 답이 나오도록 만들겠다는 의도.
5) 에이전트 작업과 장기 메모리 내장. Codex, Operator, ChatGPT 메모리 등 따로 놀던 부문을 한 모델이 커버. 이 맥락에서 4월 16일 Codex 업데이트를 다시 보면, “Spud 출시 전 인프라 정비” 성격이 강하다고 해석 가능하다.
GPT-5.5냐 GPT-6이냐 — 명칭 논쟁
Spud가 GPT-5.5로 나올지, GPT-6으로 나올지는 업계 예측이 반반으로 갈린다. 주요 논거를 정리하면 다음과 같다.
| GPT-5.5설 | GPT-6설 |
|---|---|
| 5.x 시리즈 연장선상, 네이밍 점진적 | Brockman “중요한 전환” 발언과 톤 맞음 |
| GPT-5.3·5.4가 이미 나왔으니 자연스러운 다음 버전 | 프리트레이닝 완료가 큰 사건이면 세대 교체급 |
| GPT-6을 아끼는 마케팅적 선택 | 경쟁자 대비 “반격용 브랜드”로 임팩트 극대화 |
| Polymarket에서 GPT-5.5 표기가 더 흔함 | 일부 내부 문서에 GPT-6 언급이 있다는 루머 |
개인적인 추측은 GPT-5.5 쪽이다. GPT-6이라는 네이밍은 너무 크다. AGI에 근접하는 인식적 사건이 붙을 때 쓰려고 OpenAI가 아끼고 있을 가능성. Spud는 “강력한 다음 단계”지만 AGI 경계선을 넘는다는 시그널은 아직 약함.
이름이 무엇이든, 사용자 체감 관점에선 “단일 모델로 ChatGPT 전체가 뛴다”는 게 핵심이다. 네이밍은 그 다음 문제임.
Claude Opus 4.7과의 맞대결 예상
Spud 출시 시 가장 주목받을 비교는 Anthropic의 Claude Opus 4.7. 현재 AI 코딩 시장의 사실상 표준이다.
Opus 4.7은 SWE-bench Verified에서 87.6%를 찍고 있고, GPT-5.4 계열은 대체로 80% 전후 수준. 기능 주변 장치로도 Claude Code + MCP + Cowork + Routines + Claude Design이 한 세트로 묶여 있어, 개발자 워크플로우 전반에서 Anthropic이 앞서 있다는 평가가 지배적.
Spud가 이 격차를 뒤집으려면 최소 세 가지가 필요해 보인다.
- SWE-bench 90% 이상. 지금 Opus 4.7을 “확실히” 넘어야 의미 있다. 88~89% 정도론 화제성이 약함.
- 에이전트 작업 벤치마크에서 우위. TAU-bench, AgentBench 등에서 Claude 3.7·4.7을 명확히 앞서는 숫자가 필요.
- 가격 경쟁력. Opus 4.7이 $15/$75 per 1M tokens(input/output) 선인데, Spud가 비슷하거나 더 낮아야 API 개발자가 움직인다.
이 중 하나라도 모자라면 “비슷한 급의 또 다른 플래그십” 정도로 소비되고, 시장 점유율 이동은 제한적일 것. Brockman의 “중요한 전환” 발언이 허풍이 아니려면 SWE-bench 90%+ 시나리오여야 한다는 뜻.
왜 “unified” 전략인가 — ChatGPT 슈퍼앱의 그림
Spud의 진짜 의미는 모델 단일 성능보다 제품 전략에 있다. OpenAI는 지난 1년간 ChatGPT Plus, Pro, Team, Enterprise, Codex, Operator, Sora, 메모리 같은 기능을 따로따로 발표했다. 사용자 입장에선 “뭘 어디에 써야 하는지” 혼란스러웠음.
Spud는 이걸 전부 하나의 엔진 위로 올린다. Codex도 Spud 위에서 도는 “일종의 모드”가 되고, Operator도 Spud의 컴퓨터 사용 모듈로 합쳐지는 식. ChatGPT 앱 하나 열면 모든 기능에 접근 가능한 그림이다.
Google이 Gemini 3.1 Ultra를 “one model for everything”으로 밀고 있는 것과 같은 철학이다. OpenAI도 파편화됐던 자사 제품군을 한 축으로 묶는 방향으로 선회 중. 이게 개발자 입장에서 의미하는 건 두 가지다.
- API 하나만 배우면 여러 작업이 커버된다. 통합 비용 감소.
- 반대로 OpenAI에 대한 의존도가 높아진다. 플랫폼 락인 리스크 상승.
후자는 Anthropic이 MCP 오픈 표준으로 대응하는 구조와 정면으로 대치됨. “단일 거대 모델 vs 오픈 에코시스템”의 전략 싸움으로 넘어가는 셈이다.
출시 확률과 타이밍 — Polymarket 기준
Polymarket에서 Spud의 출시 시점에 베팅하는 마켓이 활발하다. 4월 18일 기준 확률은 대략 이렇다.
| 기한 | 출시 확률 |
|---|---|
| 2026년 4월 30일까지 | 약 78% |
| 2026년 5월 31일까지 | 약 90% |
| 2026년 6월 30일까지 | 약 95% 이상 |
시장 컨센서스는 “늦어도 6월, 유력하게는 4월 말~5월 초”. 프리트레이닝 완료 이후 통상 6~8주의 안전성·정책 튜닝 기간을 감안하면 4월 말 발표가 물리적으로 빠듯하지만 불가능하진 않다.
과거 OpenAI 발표 패턴을 보면, 큰 모델 공개는 대개 화요일이나 수요일 오전(PT)에 집중됨. 4월 21일(화), 28일(화)이 관측 포인트로 꼽힌다. 그전에 ChatGPT 앱의 UI 변경, “research preview” 안내 배너 등이 먼저 뜨는 경우가 많아 그 신호부터 지켜볼 만하다.
경쟁 모델과의 삼각 구도 — Gemini 3.1 Ultra, Claude Mythos
Spud가 뛰어들 판은 Claude 혼자만의 것이 아니다. 2026년 2분기 프론티어 모델 전쟁은 최소 네 축이 부딪친다.
| 모델 | 제공사 | 강점 | 현재 지위 |
|---|---|---|---|
| Claude Opus 4.7 | Anthropic | 코딩·에이전트·안정성 | AI 코딩 사실상 표준 |
| Gemini 3.1 Ultra | 멀티모달·2M 컨텍스트 | 4/12 기준 인텔리전스 지수 57 공동 1위 | |
| Claude Mythos (미공개) | Anthropic | “너무 강력해 공개 보류” 소문 | Research Preview 일부만 접근 |
| Spud | OpenAI | 통합 슈퍼앱 엔진 | 출시 임박 (78%/4월 말) |
Spud가 나오기 전 업계는 이미 경합 중임. Gemini 3.1 Ultra는 ARC-AGI-2 77.1%로 탁월한 추론을 보여줬고, Claude Mythos는 안전성 이슈로 공개가 늦춰지며 “Anthropic이 뭔가 큰 걸 품고 있다”는 긴장감을 조성한다. Spud는 이 두 축을 동시에 상대해야 한다.
핵심은 “Spud 하나만 이겨선 안 된다”는 것. Gemini 3.1 Ultra의 멀티모달, Claude Mythos의 잠재 성능, Claude Opus 4.7의 코딩 우위를 각각 넘어야 시장 재편이 일어난다. 쉽지 않은 전선이다.
루머와 팩트 구분 — 함부로 믿지 말 것
Spud 관련 글이 쏟아지다 보니 확인되지 않은 루머도 섞여 있음. 기록상 필터링해두자.
- “Spud가 AGI다” — 근거 없음. 내부에서 “중요한 전환”이라는 표현은 썼지만 AGI라는 단어는 나온 적 없다.
- “파라미터 10조” — 복수 매체에서 추정치로 떠다니지만 공식 수치 아님. OpenAI는 GPT-4 이후 파라미터 숫자를 공개하지 않는 정책이다.
- “4월 21일 발표 확정” — 어떤 매체도 이를 공식 소스로 보도한 적 없다. Polymarket 확률과 과거 패턴 기반 추정일 뿐.
- “SWE-bench 95%” — 레딧에서 퍼진 숫자인데 출처 불명. Brockman/Altman 발언 어디에도 이 수치는 언급 없음.
이런 루머를 바탕으로 업무 결정을 내리는 건 위험하다. 발표 당일 공식 벤치마크·기술 리포트가 나오기 전까지는, 지금 쓰는 스택을 바꾸지 않는 쪽이 안전함.
바이브코더·1인 개발자 관점에서 — 뭘 준비해야 하나
Spud가 나왔을 때 실질적으로 영향을 받는 건 세 가지다.
1) 모델 교체 의사결정. Opus 4.7 vs Spud 벤치마크가 공개되는 순간, Claude Code 고정 유저가 흔들릴 수 있다. 바로 갈아태우지 말고 1~2주는 리얼 태스크 벤치를 돌려보는 게 안전함. 벤치마크 숫자는 일반적으로 실제 개발 체감과 갭이 있다.
2) 가격 전쟁 심화. OpenAI가 Spud를 ChatGPT Pro $100 요금제에 포함하는 방식으로 풀면, Anthropic의 Claude Max $100이 압박을 받는다. Max 구독자 입장에서 예산을 바로 바꾸기보다, 두 플랫폼 비교 테스트 후 결정하는 게 낫다.
3) 에이전트 제품 재평가. Spud가 메모리·에이전트를 내장한다면, 별도 에이전트 서비스(예: Cursor Composer, Manus, OpenClaw)들의 가치가 재조정된다. 현재 붙어 있는 SaaS 구독을 5월 중순쯤 한 번 점검하는 걸 권장. 가격 대비 가치가 흔들리는 툴이 분명 나온다.
준비할 건 생각보다 많지 않음. 오히려 가장 중요한 건 “내 코드베이스의 CLAUDE.md(또는 그 등가물)를 잘 정리해두는 것”. 어떤 모델이 와도 맥락을 잘 전달할 수 있는 문서가 갖춰져 있으면, 플랫폼 교체 비용이 최소화된다.
한줄평 — 감자가 판을 바꿀까
4월 16일 Codex 업데이트가 OpenAI의 수비였다면, Spud는 공격이다. Anthropic이 지난 한 달 쌓은 제품 격차를 한 모델로 뒤집겠다는 판이 깔리고 있다. 성공하면 2026년 하반기 AI 코딩 시장은 다시 OpenAI 주도로 돌아갈 것이고, 실패하면 Anthropic 중심의 구조가 굳어진다.
사이드프로젝트 운영자 입장에선 결론이 단순하다. 발표 전까진 지금 쓰는 스택(Claude Code + Routines) 유지, 발표 후 1주일 리얼 벤치 뒤 결정. 숫자에만 휘둘려 갈아탔다가 생산성이 떨어지는 사례를 너무 많이 봐왔음.
Spud라는 감자가 단단한 돌덩이인지, 속이 비어 있는 덩이인지는 곧 드러난다. 이 글은 정식 발표 이후 후속편에서 벤치마크·실사용 후기로 다시 업데이트할 예정. 4월 말 또는 5월 초, Spud 발표 당일 오후에 다시 보자.
참고: LumiChats Spud 가이드, Adam Holter 분석, TokenMix 출시일 예측, Trending Topics GPT-6 분석, OpenAI Codex 반격 편(1편), Claude Code Routines 실사용기(2편)