GPT-5.5 Spud 출시 — 벤치·가격·한계 종합 정리

2주 전쯤 “감자가 판을 바꿀까”라는 제목으로 OpenAI 차세대 모델 코드네임 ‘Spud’에 대해 썼음. 그 글에서 던진 질문은 명확했음 — 이게 GPT-5.5로 나올 것인가 GPT-6로 나올 것인가.

4월 23일 답이 나왔음. GPT-5.5로 출시. GPT-6 점프는 안 했고, OpenAI는 GPT-5 패밀리를 한 칸 더 끌고 가는 쪽을 택함. 발표 다음날 Axios·TechCrunch·CNBC가 동시에 다뤘고, 이번 주 들어 벤치마크가 풀리면서 “왜 5.5에서 멈췄는지”의 이유도 어느 정도 정리됨.

출시일 + 가격 + 변형 모델 + 벤치마크 + 한계 + Claude Opus 4.7과의 직접 비교까지 한 번에 정리해봄. 결론부터 말하면 코딩·수학에서는 Spud가 앞서고, 다국어·정확도에서는 Claude가 앞섬. 그리고 가격은 두 배가 됐음.

왜 GPT-6가 아니라 GPT-5.5인가

가장 먼저 짚어야 할 게 작명임. OpenAI는 Spud의 SWE-bench Pro 점수가 GPT-5.4의 57.70%에서 58.6%로 약 1%포인트밖에 안 올랐다는 걸 들어 GPT-5 브랜딩을 유지함. 즉 전체적으로는 GPT-5.4 대비 큰 폭의 도약이 아니라는 점을 OpenAI 스스로 인정한 셈임.

다만 이건 SWE-bench Pro 한 항목 얘기고, 다른 벤치에서는 점수가 꽤 큼. 종합 Intelligence Index는 59점으로 Grok 5에 이은 2위. Claude Opus 4.7(57점)을 약간 앞서고 Grok 4.3(53점)은 한참 밀어냄.

Greg Brockman이 발표 자리에서 한 말이 결을 보여줌.

“This model is a real step forward towards the kind of computing that we expect in the future — but it is one step, and we expect to see many in the future.”

요약하면 “큰 한 걸음이지만 결정적 한 걸음은 아니다”임. GPT-6 발표가 아니라 5.5 발표임을 분명히 해두는 워딩임. 진짜 GPT-6는 OpenAI의 6모델 분기 출시 패턴(GPT-5 패밀리에서 8개월 사이 6개 모델 출시)을 보면 빨라야 2026년 말로 보임.

변형 3종 — Spud · Spud Thinking · Spud Pro

GPT-5.5는 단일 모델이 아니라 세 갈래로 나옴. 작업 성격에 따라 골라 쓰는 구조임.

변형	특징	대상 작업
GPT-5.5	표준 모델, 기본값	일상 대화, 일반 코딩, 글쓰기
GPT-5.5 Thinking	추론 강화 변형	다단계 추론, 복잡한 디버깅
GPT-5.5 Pro	최상위 변형, 가장 비쌈	수학·과학 연구, FrontierMath급 문제

접근 권한도 갈라짐. 표준 GPT-5.5는 ChatGPT Plus·Pro·Business·Enterprise 구독자가 모두 쓸 수 있고, GPT-5.5 Pro는 Pro·Business·Enterprise만 가능함. 4월 9일에 풀린 ChatGPT Pro $100 요금제가 이 Pro 변형 접근권의 메인 게이트로 작동하는 구조임.

이 분리가 중요한 이유는 가격 차이가 크기 때문임.

가격 — 그냥 두 배 됐음

이번 발표에서 가장 눈에 띄는 건 벤치마크보다 가격임. API 단가가 GPT-5.4 대비 정확히 두 배가 됐음.

모델	입력 (1M 토큰)	출력 (1M 토큰)	GPT-5.4 대비
GPT-5.4	$2.50	$15	기준선
GPT-5.5	$5	$30	2배
GPT-5.5 Pro	$30	$180	12배
(참고) Grok 4.3	$1.25	$2.50	0.5배
(참고) Claude Opus 4.7	$15	$75	6배

OpenAI 측 해명은 “토큰 소비량이 GPT-5.4 대비 15~20% 감소했다”는 효율 개선 논리임. 이걸 감안하면 실효 단가 상승은 60~70% 수준이라는 계산임. 그래도 두 배 인상이라는 직관적 사실은 바뀌지 않음.

할인 옵션도 명시됨. Batch / Flex 티어를 쓰면 50% 할인을 받을 수 있고, 반대로 Priority 티어는 우선순위 처리 대신 150% 가산이 붙음. 즉 비동기 백그라운드 잡은 절반 가격, 실시간 우선 요청은 2.5배 가격으로 양극화된 구조임.

1인 개발자 관점에서 이건 의미가 큼. GPT-5.4 시절의 “비싸지만 쓸 만한 가격”에서 “확실히 비싼 가격”으로 한 칸 올라간 것임. 같은 작업을 Claude Sonnet 4.6이나 Grok 4.3으로 옮기면 비용이 1/5 ~ 1/10로 줄어드는 구도라 실서비스에 박는 모델 선택이 다시 한 번 요동칠 가능성이 큼.

벤치마크 — Spud가 이기는 곳, Claude가 이기는 곳

벤치마크 비교가 풀리면서 “Spud가 모든 면에서 강한가”는 아니라는 게 명확해짐. 항목별로 갈림.

벤치마크	GPT-5.5 (Spud)	Claude Opus 4.7	승
SWE-bench Verified	88.7%	83% 추정	Spud
Terminal-Bench 2.0	82.7%	69.4%	Spud
GDPval	84.9%	80%	Spud
FrontierMath Tier 4	39.6% (Pro)	22.9%	Spud (거의 2배)
SWE-bench Pro	58.6%	64.3%	Claude
MMMLU 다국어	83.2%	91.5%	Claude
Intelligence Index	59	57	Spud

패턴이 흥미로움. Spud는 표준화된 코딩·수학·터미널 작업에서 강하고, Claude는 더 복잡한 멀티파일 코딩(SWE-bench Pro)과 비영어 다국어 작업에서 강함. SWE-bench Verified와 Pro의 차이가 갈림길인데, Pro 쪽이 더 큰 코드베이스에서 멀티파일 변경이 필요한 진짜 같은 작업임.

한국어 개발 환경 입장에서 MMMLU 다국어 차이(83.2% vs 91.5%)는 무시할 수 없음. 한국어 문서 정리, 한글 프롬프트 처리, 한국어 코드 리뷰 같은 작업에서는 Claude의 우위가 실측치로 나오는 영역임. 반대로 영어로 짜는 정형 코딩은 Spud가 빠르고 정확할 가능성이 큼.

치명적 한계 — 86% 환각률

벤치 점수만 보면 Spud가 압도적인 그림인데, 한 가지 항목이 분위기를 바꿈. Artificial Analysis가 측정한 out-of-domain 사실 질문 환각률이 86%로 보고됨.

이게 무슨 뜻이냐 하면, 학습 분포 밖의 사실 질문(예: 특정 인물의 비교적 최근 이력, 잘 알려지지 않은 회사 정보, 도메인 특화 통계)을 던졌을 때 10번 중 8.6번을 그럴듯하게 지어낸다는 의미임. 코딩이나 수학처럼 검증 가능한 작업에서는 잘 작동하지만, 의료·법률·금융처럼 사실 정확성이 핵심인 영역에서는 위험하다는 평가가 따라붙음.

이 수치가 경쟁사보다 특별히 높은 건지는 비교 데이터가 더 풀려야 알겠지만, 적어도 “Spud가 모든 작업에 안전하게 쓸 수 있는 모델은 아니다”라는 신호는 분명함. 도메인 밖 질문을 무리해서 답하는 경향이 GPT-5.4보다 강해진 것일 수 있음 — 추론 능력이 올라가면서 “그럴듯한 답을 만드는 능력”도 같이 올라간 부작용으로 해석됨.

Superapp 야망 — ChatGPT + Codex + AI 브라우저 통합

벤치 외의 큰 그림은 OpenAI의 superapp 비전임. Greg Brockman과 공동창업자들이 그린 그림은 ChatGPT, Codex, AI 브라우저를 하나로 묶은 통합 서비스임. 엔터프라이즈 고객을 1차 타겟으로 함.

Spud는 이 통합 서비스의 엔진 역할을 맡음. ChatGPT에서 대화하다가 자연스럽게 코드를 짜고, 그 코드가 AI 브라우저 안에서 자동으로 외부 사이트와 인터랙션하는 흐름. Claude Code를 정조준한 Codex 데스크톱 에이전트가 4월 16일에 풀린 것도 이 그림의 일부였음.

이 전략을 Anthropic의 Claude Design·Claude Security 분리 전략과 비교해보면 정반대임. OpenAI는 한 덩어리로 통합, Anthropic은 도메인별로 분리. 어느 쪽이 사용자한테 잘 먹히는지는 6개월~1년 안에 판가름 날 것으로 보임.

총평 — 코딩 1위 자리는 가져갔지만 가격이 변수

한 줄로 정리하면 Spud는 벤치 1위 자리는 가져갔지만 가격 두 배라는 자물쇠를 같이 채웠음. 영어 코딩·수학을 강하게 돌리는 사람한테는 매력적인 옵션이지만, 일상 작업이나 한국어 비중이 큰 작업이라면 Claude나 Grok 쪽으로 미는 게 더 합리적인 그림임.

1인 개발자 입장에서 권하는 사용 시나리오는 이렇게 갈림.

Spud Pro — FrontierMath급 수학 문제, 복잡한 알고리즘 설계, 영어 기반 정형 코딩에 집중적으로 사용. 비싸니까 일반 작업엔 안 씀.
Spud 표준 — ChatGPT Pro 구독자에게는 기본값. 하지만 API로 박을 거라면 Sonnet 4.6 대비 가격 정당화가 어려움.
Claude Opus 4.7 — 멀티파일 코딩, 한국어, 신중한 사실 처리 필요한 작업.
Grok 4.3 — 가성비, 1M 컨텍스트, 비디오 입력 필요한 작업.

2026년 4월의 결론은 명확함. 모델 1티어가 셋(Spud, Opus 4.7, Grok 4.3)으로 늘었고, 각자 강점 영역이 분명해졌고, 비용은 모델별로 10배 차이가 남. 단일 모델로 모든 작업을 미는 시대가 끝나고, 작업별로 모델을 바꿔 쓰는 시대로 넘어감.

다음 관전 포인트는 두 가지. 첫째, OpenAI가 Spud Pro 가격을 유지할 것인가 — 시장 반응 보고 인하 가능성 있음. 둘째, Anthropic이 Opus 4.8/5.0으로 코딩 벤치 1위 자리를 되찾으러 올 것인가. 두 회사의 다음 카드 사이에 1~2개월 시차가 보통 있었으니 6월쯤 다음 라운드가 보일 가능성이 큼.

출처: Axios · TechCrunch · Pasquale Pillitteri · Wikipedia GPT-5.5

GPT-5.5 Spud 출시 — 코딩 1위 가져갔지만 가격은 두 배