Claude Opus 4.7 출시 — SWE-bench 87.6%와 Mythos 떡밥

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 공개함. Opus 4.6 공개 두 달 만의 업데이트인데, 점프 폭이 생각보다 큼.

한 문장으로 정리하면 이럼. 코딩 실력 또 한 단계 올라갔고, 비전 해상도 3배, 새 효율 레벨이 생겼고, 가격은 그대로. 그리고 내부에는 이미 더 센 모델(Mythos)이 돌아가는 중.

요약하면, 지금 현업 1인 개발자한테는 Claude Code 기본 모델을 4.7로 스위치하는 게 정답. 단, 한국어 프롬프트가 많은 프로젝트라면 토크나이저 바뀌면서 청구서가 조용히 오를 수 있음. 한 주쯤 사용량 모니터링은 꼭.

숫자로 보는 4.7

벤치마크 몇 개만 봐도 분위기가 달라짐. Opus 4.6 대비 전반적으로 상승인데, 특히 “어려운 코딩 문제”에서의 폭이 눈에 띔.

SWE-bench Verified: 80.8% → 87.6%
SWE-bench Pro: +10.9pp (더 어려운 코딩 벤치마크)
Terminal-Bench 2.0: 65.4% → 69.4%
GPQA Diamond: 91.3% → 94.2%
CharXiv-R (도구 포함): 77.4% → 91.0%
Rakuten-SWE-Bench: 프로덕션 태스크 3배 더 해결

컨텍스트는 입력 1M 토큰 / 출력 128K. 200K 초과 프롬프트에는 롱컨텍스트 프리미엄이 붙음(입력 $10, 출력 $37.50). 장문 멀티니들 테스트에서 문서 뒷부분 정보도 잘 안 잃어버린다고 함. 나는 여기에 꽤 기대가 있음. 긴 코드베이스 던져놓고 에이전트 돌리는 방식은 지금까지 “중간까진 잘하다가 끝에서 놓침”이 흔한 실패 패턴이었는데, 4.7에서 체감이 바뀔 가능성 있음.

비전이 이번에 진짜 크게 바뀜. 이전까지 1,568픽셀 / 1.15메가픽셀에서 디테일이 뭉개지던 해상도가 2,576픽셀 / 3.75메가픽셀까지 올라감. 픽셀 예산으로 3.3배. 피그마 고해상도 스크린샷을 통째로 던지거나, 복잡한 차트에서 수치를 뽑아내는 작업이 지금까지는 허세에 가까웠는데, 4.7부터는 실전 워크플로우로 올라올 수 있음.

새로 생긴 것들

4.7은 모델 점수 말고 작업 흐름을 바꾸는 기능들이 같이 붙어서 나옴. 개발자 입장에선 이쪽이 더 재밌음.

xhigh effort 레벨 — 기존 low/medium/high/max 4단계에 high와 max 사이의 xhigh가 추가됨. 쓸데없어 보이지만 실제론 비용·품질 곡선에 노브가 하나 더 생긴 거. max는 너무 비싸고 느리고, high는 가끔 놓침. 그 사이 구간이 실무에서 절실했음.
/ultrareview — Claude Code에 새로 붙은 슬래시 커맨드. 변경사항 전체를 읽고 버그·설계 문제·엣지케이스를 플래깅. 1인 개발자한테 가장 부족했던 “사수 코드리뷰” 빈자리를 메꿔주는 기능. 게다가 4.7은 “보고 전에 자기 출력을 스스로 검증하는 능력”이 이전보다 좋아졌다고 함. 즉 자기가 쓴 코드를 자기가 리뷰할 때 덜 자기합리화함.
Task Budgets (퍼블릭 베타) — 장기 실행 태스크에 토큰 예산을 걸어둘 수 있음. 밤새 에이전트 돌렸다가 청구서 터지는 사고를 사전에 차단. 자동화 돌리는 입장에선 멘탈 안정 기능.
Auto Mode 확장 — Max 플랜 사용자에게 Claude가 스스로 결정할 수 있는 범위가 넓어짐. 중간에 OK 찍는 횟수가 줄어드는 쪽.

가격은 그대로, 근데 토크나이저 함정이 있음

공식 가격표는 4.6과 동일.

입력 $5 / 1M 토큰
출력 $25 / 1M 토큰
200K 초과 입력 $10, 출력 $37.50
프롬프트 캐싱 최대 90% 할인, 배치 50% 할인

깔끔해 보이지만 4.7에는 새 토크나이저가 들어감. 공식 안내에 같은 텍스트가 1.0배~1.35배 더 많은 토큰으로 매핑될 수 있다고 써 있음. 코드는 거의 1.0배지만 다국어(한국어 포함)는 1.35배 쪽에 가까움.

뒤집어 보면, 한국어 프롬프트가 주력인 프로젝트 입장에서는 실질 단가가 최대 35% 오를 수 있다는 뜻. 가격 동결이라는 한 줄만 보면 낭패 보기 쉬움. 4.7로 전환한 다음 한 주쯤 사용량 로그를 붙여놓고, 예산 경보 임계치를 한 단계 낮춰두는 게 안전함.

Mythos라는 떡밥

이번 발표에서 가장 이상한 대목이 이거. Anthropic이 공식적으로 “Opus 4.7은 Mythos Preview 아래에 위치함“이라고 인정함. 즉 사내에는 4.7보다 더 센 모델이 이미 돌아가고 있고, 일부 리서처에게만 프리뷰로 풀려 있는 상태.

뒤집어 말하면, 지금 받아든 4.7은 “Anthropic이 내놔도 괜찮다고 판단한 가장 최신 모델”이지, “Anthropic이 만들 수 있는 최강 모델”은 아님. 이 정보가 쓸모 있는 이유는, 4.7에 너무 길게 눌러앉을 필요가 없다는 판단을 내리게 해주기 때문. 다음 파도는 이미 수평선에 와 있음.

연결된 포인트 하나 더. 4.7은 일반 공개 모델 최초로 Project Glasswing 사이버보안 세이프가드를 탑재함. 금지된 사이버 공격 용도의 요청을 자동 감지·차단하고, 정당한 보안 리서치는 Cyber Verification Program으로 별도 처리. Mythos 공개 전 단계에서 세이프가드의 실전 데이터를 쌓겠다는 의도로 읽힘.

그래서 나는 뭘 바꿨냐

일단 Claude Code 기본 모델을 4.7로 스위치함. 체감으로 가장 큰 건 /ultrareview. 1인 개발 환경에서 사수 리뷰 빈자리를 이만큼 메꿔주는 툴이 없었음. 두 번째로 xhigh 레벨을 에이전트 기본값으로 테스트 중. 세 번째로 비전 기반 기능(피그마 스크린샷 → 코드, 차트 → 수치 추출)을 다시 열어서 재검토함. 1.15메가픽셀 시절에 포기했던 워크플로우들이 지금은 말이 됨.

한 줄 총평. 점프는 아니지만, 어려운 문제에서의 계단 하나가 확실히 올라간 업데이트. 그리고 두 달 안에 또 한 번 판이 흔들릴 가능성이 높으니, 고정 선호 모델을 너무 오래 잡아두지 말 것.

출처

Claude Opus 4.7 출시 — SWE-bench 87.6%와 Mythos라는 떡밥

숫자로 보는 4.7

새로 생긴 것들

가격은 그대로, 근데 토크나이저 함정이 있음

Mythos라는 떡밥

그래서 나는 뭘 바꿨냐

댓글 남기기 응답 취소