Grok 4.3 정식 API — 가격 반토막에 비디오·음성·16에이전트까지

2주 전 Opus 4.7편 해커톤 글에서 “다음 글감 후보”로 잠깐 언급했던 Grok 4.3이 4월 30일 정식 API로 풀렸음. 베타는 4월 17일에 SuperGrok Heavy 사용자한테만 열려 있었는데, 이번에 일반 API 사용자도 다 쓸 수 있게 됨.

핵심은 가격임. 입력 토큰 58% 인하, 출력 토큰 83% 인하. 거기에 1M 컨텍스트, 5분짜리 비디오 입력, PDF·Excel·PPT 직접 생성, 16개 에이전트 병렬 처리, 음성 API까지 같이 풀렸음. 한 번에 너무 많이 풀어서 정리가 필요한 발표였음.

벤치 점수는 Spud(60)과 Opus 4.7(57)에 밀려 53점으로 3위. 즉 xAI는 이번 라운드에서 프론티어 1위 자리를 노린 게 아니라 “가격·속도·기능 폭”으로 차별화하는 가성비 모델로 포지셔닝함. 4월 3강 중 가장 명확한 전략이 그려진 모델임.

한줄 요약 — 가격 반토막에 1M 컨텍스트와 비디오 입력

핵심 사양 한 표로 정리.

항목 내용
정식 API 출시 2026-04-30
베타 시작 2026-04-17 (SuperGrok Heavy 한정)
입력 가격 $1.25 / 1M 토큰 (Grok 4.20 대비 −58%)
출력 가격 $2.50 / 1M 토큰 (Grok 4.20 대비 −83%)
컨텍스트 윈도우 1M 토큰
출력 속도 약 207 토큰/초
지식 컷오프 2024년 11월
Intelligence Index 53 (참고: Spud 60, Opus 4.7 57)
파라미터 추정 0.5T (1T 체크포인트 학습 완료, 미공개)

특히 출력 토큰 83% 인하가 압권임. 1년 전만 해도 1M 출력에 $15~$20 받던 시장이 한 자릿수 후반대로 내려왔는데, 이번엔 $2.50까지 떨어짐. Grok 4.3 출력 가격이 GPT-5.5의 1/12, Claude Opus 4.7의 1/30 수준임. 모델 가격 시장이 한 단계 내려가는 신호로 볼 수 있음.

1M 컨텍스트는 이제 표준이 되어가는 분위기임. Claude Opus 4.7도 1M 베타를 풀었고, GPT-5.5는 컨텍스트는 작지만 효율성으로 보완하는 그림이고, Grok 4.3은 처음부터 1M을 디폴트로 박았음.

비디오 입력 — 5분 1080p, 토큰으로 청구

이번 발표에서 가장 신선한 기능은 네이티브 비디오 입력임. 5분짜리 1080p 영상까지 그대로 모델에 넣을 수 있음.

특이한 건 청구 방식임. 영상을 텍스트로 트랜스크라이브해서 토큰화하는 게 아니라, 프레임 단위로 직접 토큰을 매겨 청구함. 즉 음성·자막 없는 영상도 그대로 처리 가능하고, 시각적 변화를 따라가는 작업(예: UI 동작 분석, 운동 자세 분석, 사고 영상 분석)에 직접 쓸 수 있는 구조임.

1인 개발자 입장에서 떠올릴 만한 응용은 이런 것들임.

  • 스크린 레코딩 분석 — 사용자 행동 5분짜리 영상을 통째로 던져서 UX 이슈 추출.
  • 강의 영상 요약 — 슬라이드와 음성을 동시 분석해 자동 노트 생성.
  • 스포츠 자세 코칭 — 골프 스윙·러닝 자세 영상을 입력해 교정 포인트 도출.
  • 현장 점검 영상 — 건설현장·시설 점검 영상을 모델이 보고 이슈 리포트 작성.

OpenAI는 영상을 통으로 받는 API를 아직 일반 풀지 않았고, Anthropic도 Opus 4.7에서는 정적 이미지까지만 지원함. 즉 “5분 비디오를 그대로 던져서 분석”이 필요한 워크로드는 현재 Grok 4.3이 유일한 선택지임.

문서 생성 — PDF·Excel·PPT를 대화 안에서

두 번째로 눈에 띄는 기능이 다운로드 가능한 문서 직접 생성임. 모델이 답변과 함께 PDF, XLSX, PPTX 파일을 그 자리에서 만들어줌.

이게 새로운 카테고리는 아님. ChatGPT도 Code Interpreter로 비슷한 걸 했고, Claude도 Artifacts 안에서 차트·표를 만들었음. 차이는 네이티브 통합도임. Grok 4.3은 별도 도구 호출이나 코드 실행 없이 모델이 직접 파일 포맷을 이해하고 뱉음. API 응답에 파일이 첨부되어 오는 구조라 처리 흐름이 단순함.

실사용 시나리오는 명확함. 사무직 자동화 — 회의록을 요청하면 그 자리에서 PPT를 받고, 데이터 정리를 시키면 그 자리에서 XLSX를 받음. 1인 사업자가 견적서·계약서·리포트를 자동 생성하는 워크플로우에 직접 끼워 넣기 좋음.

16개 에이전트 병렬 처리 — 진짜 의미는

가장 마케팅적으로 들리는 기능이 16-agent 병렬 처리임. 복잡한 작업을 16개의 서브 에이전트가 동시에 처리한다는 설명인데, 이게 실질적으로 무슨 뜻인지 풀어봄.

구조는 이렇게 추측됨. 메인 에이전트가 사용자 요청을 받으면, 작업을 16개 이내의 서브 작업으로 쪼개고, 각 서브 작업을 별도 모델 호출로 병렬 처리하고, 결과를 다시 메인이 통합함. orchestrator + 16 workers 패턴임.

이런 구조는 Cloudflare Agents Week 2026에서도 본 흐름이고, Anthropic의 Managed Agents에서도 비슷한 방향임. 차이는 xAI는 이걸 모델 차원에서 내장 기능으로 제공하고, Anthropic은 Routines/Managed Agents 같은 별도 인프라로 제공한다는 점임.

실용적으로 의미 있는 작업은 이런 것들임.

  • 대규모 코드베이스 분석 — 16개 모듈을 동시에 16개 에이전트가 분석.
  • 경쟁사 비교 리서치 — 16개 회사를 동시에 조사해 비교표 생성.
  • 다국어 번역 일괄 처리 — 16개 언어 동시 번역.

이 기능이 진짜로 잘 작동하는지는 6월쯤 후기들이 쌓여야 판정 가능. 마케팅 슬라이드만 보면 매력적이지만, 실제로 16개 에이전트가 컨텍스트 충돌 없이 협업하는 게 만만치 않음.

음성 API — 86~92% 가격 파괴

마지막으로 깔린 게 STT(Speech-to-Text) / TTS(Text-to-Speech) API임. 가격이 $4.20 / 1M 문자.

이 가격이 충격적인 이유는 비교 대상 때문임. 현재 OpenAI Whisper API, Google STT, Azure Speech 같은 메이저 음성 서비스 가격 대비 86~92% 낮게 책정됨. 1년치 음성 처리 비용이 1/10로 떨어진다는 의미임.

음성 분야는 그동안 모델 가격 인하 흐름에서 비교적 빗겨가 있었음. LLM 단가는 1년에 50~80% 빠지는데 음성은 가격 변동이 거의 없었음. 이번에 xAI가 음성을 한 번에 끌어내리면서 음성 처리도 LLM과 비슷한 가격 곡선을 따라가기 시작한다는 신호로 읽힘.

1인 개발자 입장에서 의미 있는 응용은 명확함. 실시간 음성 상담봇, 회의록 자동화, 음성 워크로그 같은 그림이 비용 부담 없이 가능해짐. Routines로 자동화 파이프라인을 짤 때 음성 입력단을 끼워 넣는 비용 부담이 거의 사라짐.

벤치마크 — 코딩에서는 Opus 4.7에 14%포인트 밀림

가격·기능은 인상적이지만 모델 자체 능력은 1티어가 아님. 현재 측정된 점수들을 보면.

벤치마크 Grok 4.3 Claude Opus 4.7 GPT-5.5
Intelligence Index 53 57 59
SWE-bench (코딩) 약 69% 약 83% 88.7%
가격 (출력 1M) $2.50 $75 $30
컨텍스트 1M 1M (베타) 표준
비디오 입력 5분 1080p 이미지만 이미지만

코딩 벤치(SWE-bench)에서 Opus 4.7에 약 14%포인트, GPT-5.5에 약 20%포인트 밀림. 즉 고난도 코딩에 그대로 갖다 쓰면 Claude나 Spud보다 결과 품질이 명확히 떨어짐.

그러나 가격 차이를 함께 보면 그림이 달라짐. 같은 작업을 Grok 4.3으로 30번 돌릴 비용으로 Opus 4.7은 1번 돌림. 30번 중 1번이라도 통과 답이 나오면 비용 효율은 Grok이 이김. 즉 “한 방에 정답이 필요한 작업”은 Claude/Spud, “여러 번 시도해서 통과만 시키면 되는 작업”은 Grok이라는 분업이 가능해짐.

총평 — “프론티어 아닌 가성비 플레이”, 그런데 의미가 큼

업계 분석가들의 1차 평가는 “Grok 4.3은 프론티어 모델이 아니다, 가격·속도·기능 폭의 플레이다”로 정리됨. 이게 비판적인 평가처럼 들릴 수 있지만, 시장 관점에서는 의미가 매우 큼.

이유는 두 가지임. 첫째, 가격을 한 자릿수 후반대까지 끌어내려 LLM 시장 가격 베이스를 다시 세팅함. OpenAI가 Spud로 가격을 두 배 올린 같은 달에 xAI가 가격을 1/12로 깎았음. 이 격차가 시장 분화를 가속함. 둘째, 비디오 입력·문서 생성·음성 API·병렬 에이전트라는 기능 폭으로 “API 1티어 통합 솔루션” 자리를 노림. 한 군데에서 다 되는 모델이라는 어필.

1인 개발자 관점에서 권하는 사용 시나리오.

  • 대량 처리 작업 — 데이터 정리, 일괄 분석, 마이그레이션. Claude/Spud 단가로는 부담스러운 양.
  • 비디오 분석 — 영상 입력이 필수면 일단 Grok 4.3이 유일한 선택지.
  • 음성 자동화 — STT/TTS가 86~92% 싸지면서 음성 워크플로우 빌드 비용이 1자리수로 떨어짐.
  • 프로토타이핑 — 정확도가 90점만 돼도 OK인 단계에서 30번 돌리면서 빠르게 반복.

반대로 고난도 코딩, 한국어 정확도가 핵심인 작업, 사실 정확성이 절대적인 도메인은 여전히 Claude나 Spud로 가는 게 맞음. 모델별로 강점이 다르다는 그림이 4월 한 달 동안 명확하게 굳어진 셈임.

다음 글에서는 이 4월 3강(Opus 4.7, Spud, Grok 4.3)을 직접 매트릭스로 비교해볼 예정임.

출처: Apiyi Grok 4.3 API 분석 · RoboRhythms Grok 4.3 리뷰 · TechSifted Grok 4.3 리뷰 · ChatlyAI 비디오 입력

댓글 남기기