gpt-image-2 출시 — DALL-E 셧다운과 한글 텍스트 렌더링

OpenAI가 4월 21일 ChatGPT Images 2.0과 API 모델 gpt-image-2를 동시에 출시했음. 출시 12시간 만에 Image Arena 모든 카테고리 1위, ELO 1512로 2위 Nano Banana 2 대비 +242점. 아레나 역사상 한 번도 없던 격차임. 그리고 한글 텍스트가 깨지지 않음.

일주일 써본 입장에서 이번 모델은 단순한 버전업이 아님. 디퓨전이라는 패러다임 자체가 끝났다는 신호에 가까움. 기록 차원에서 정리해둠.

12시간 만에 1위 — +242 ELO가 의미하는 것

이미지 모델 평가에서 ELO 격차 30~50점이면 의미 있는 차이로 본다. 100점이면 거의 확정적인 우위. +242점은 그 위에 또 한 단계.

Image Arena는 사용자가 같은 프롬프트를 여러 모델로 돌려 블라인드로 더 좋은 쪽을 고르는 방식임. 12시간 만에 모든 카테고리에서 1위를 찍었다는 건 사진, 일러스트, UI 목업, 텍스트 렌더링 어느 한 영역도 빠뜨린 게 없다는 뜻.

이전 1위였던 Nano Banana 2는 구글이 한참 밀어주던 모델인데, 출시 반나절 만에 두 자릿수 ELO 격차가 세 자릿수로 벌어졌음. TechCrunch도 “이미지 모델이 갑자기 텍스트를 잘 그리기 시작했다”며 같은 톤으로 보도함.

벤치 격차가 실사용에서도 그대로 나옴. 같은 프롬프트로 DALL-E 3와 비교하면 디테일 보존, 의도 반영, 이미지 안 텍스트 정확도 모두 차이가 즉시 눈에 들어옴.

디퓨전이 끝났다 — gpt-image-2가 다르게 일하는 방식

지금까지 모든 메인스트림 이미지 모델은 디퓨전 기반이었음. Stable Diffusion, DALL-E 3, Midjourney, Flux, Nano Banana — 전부 노이즈에서 점점 이미지를 깎아내는 방식.

gpt-image-2는 다름. LLM이 텍스트 토큰을 생성하듯 이미지를 토큰 단위로 자기회귀적으로 만든다. OpenAI 공식 발표에서도 “gpt-image-2 generates images like LLMs generate text”라고 명시.

그래서 가능해진 게 두 가지 있음.

추론(thinking) 통합 — OpenAI O-series 추론 능력이 이미지 모델 안에 들어감. 프롬프트를 받으면 구도와 구조를 “생각하고” 그림. 디퓨전은 이게 구조적으로 안 됐음.
텍스트가 망가지지 않음 — 디퓨전은 픽셀을 통째로 깎기 때문에 글자가 필연적으로 흔들림. 토큰 생성 방식은 글자를 글자로 다룸. 이게 한글 렌더링 90%대를 가능하게 한 결정적 차이.

같은 OpenAI에서 Claude Design이나 Codex 같은 코드/디자인 에이전트와 결을 맞춘 흐름이라 봄. 이미지도 “생각하고 만드는” 영역으로 끌어올린 셈.

한글이 망가지지 않는다 — 진짜 변곡점

한국 사용자 입장에서 이번 모델의 진짜 임팩트는 ELO나 추론 통합이 아님. 이미지 안의 한글 텍스트가 안 깨진다는 점.

OpenAI가 공개한 수치는 이렇다.

언어	이미지 내 텍스트 정확도
영어	99%
한국어/일본어/중국어	90%+
힌디어/벵골어/아랍어	90%+

지난 3년 동안 AI 이미지로 한글 포스터를 만들려고 시도해본 사람이라면 이 수치가 어떤 의미인지 즉시 안다. DALL-E 3로 “오후의 카페” 같은 한글 간판을 그리면 90% 확률로 글자가 형체를 잃음. “오후이 카뼤”, “오후읏 카쥪” 같은 결과가 정상이었음. 그래서 다들 텍스트는 비워두고 그린 다음 포토샵·피그마로 따로 얹었음.

gpt-image-2는 그 단계가 사라짐. 한글 간판, 한글 포스터, 한글 UI 목업이 한 방에 나옴. 90%+가 100%는 아니지만, 이 차이는 후처리 워크플로우 자체를 바꾸는 변곡점.

썸네일을 한글로 만드는 블로거, 한글 광고 시안 뽑는 마케터, 한국어 UI 목업 만드는 개발자, 한글 굿즈 디자인하는 1인 창작자 — 이번에 가장 크게 영향받는 그룹은 영어권이 아님.

5월 12일 DALL-E 셧다운 — 가격, API, 마이그레이션

그리고 이게 단순 출시가 아닌 이유는 일정 때문임. OpenAI가 DALL-E 2와 DALL-E 3를 2026년 5월 12일에 종료한다고 같이 공지함. 이 글 발행일 기준 D-13.

지금 DALL-E 3 API를 쓰고 있는 서비스는 무조건 마이그레이션해야 함. 옵션은 사실상 gpt-image-2 하나임.

현재 시점 액세스 정리.

ChatGPT/Codex 사용자 — 4월 22일부터 전 사용자 오픈. 무료 플랜도 일부 사용 가능, 유료 플랜은 고화질·고배치 풀 액세스.
API 개발자 — 5월 초 정식 오픈 예정. 현재는 fal.ai 등 일부 서드파티 채널로 우선 사용 가능.
해상도/배치 — 네이티브 2K, 4K 업스케일, 16장 레퍼런스 입력, 8장 배치.

가격은 화질·해상도별로 차등.

품질	해상도	장당 가격
Low	1024×768	$0.01
Mid	1024×1024 / 2K	중간 구간
High	4K	$0.41

$0.01부터 시작이라 DALL-E 3 단가($0.04~0.08)보다 저화질 구간은 오히려 쌈. 4K가 비싸 보이지만 디테일 보존이 압도적이라 후처리 비용까지 따지면 결국 더 저렴해질 가능성이 높음.

한줄평

이번 출시는 Opus 4.7이 SWE-bench로 판을 다시 그은 것과 같은 결의 사건임. 디퓨전 기반 이미지 시대가 끝나고 있다는 신호이고, 한국어권 1인 창작자에겐 한글 텍스트 렌더링이라는 별개의 변곡점이 같이 왔음.

5월 12일 DALL-E 셧다운 전까지 13일. 기존 DALL-E 워크플로우 쓰던 사람은 지금 갈아타는 게 맞음. 한 번도 이미지 모델을 안 써봤다면 ChatGPT에 “한글로 [원하는 문구] 들어간 [원하는 컨셉] 포스터 그려줘” 한 줄 쳐보는 것부터 시작해도 됨. 3년치 노가다가 13글자 프롬프트로 끝난다는 게 가장 정확한 요약임.

OpenAI가 Codex로 코딩 영역을 노리고, GPT-5.5로 에이전트 런타임을 잡고, gpt-image-2로 이미지까지 한 번에 굳히는 4월 말이었음. 생산성 도구 스택이 이렇게 한 회사로 수렴하는 걸 보는 게 처음.

출처: OpenAI 공식 발표, OpenAI API Docs — gpt-image-2, TechCrunch (4/21), gpt-image-2 vs DALL-E 3 비교.

DALL-E 끝났다 — gpt-image-2가 한글 텍스트까지 그리기 시작했다

12시간 만에 1위 — +242 ELO가 의미하는 것

디퓨전이 끝났다 — gpt-image-2가 다르게 일하는 방식

한글이 망가지지 않는다 — 진짜 변곡점

5월 12일 DALL-E 셧다운 — 가격, API, 마이그레이션

한줄평

댓글 남기기 응답 취소