2월 19일, 구글이 Gemini 3.1 Pro를 공개함. Gemini 3 시리즈 기반에서 추론 능력을 대폭 끌어올린 업그레이드 버전인데, 이번에 처음으로 “.1” 넘버링을 달고 나옴. 보통 중간 업데이트는 “.5″로 나오곤 했는데, 이번엔 출시 타이밍도 빠르고 성능 향상 폭도 꽤 커서 눈에 띄는 릴리즈.
한 줄로 요약하면 “복잡한 문제를 풀기 위한 모델”. 단순 문답이 아니라, 여러 단계의 논리적 판단이 필요한 작업에 초점을 맞췄다는 게 구글의 설명.
주요 스펙
먼저 핵심 스펙부터 정리.
| 항목 | 내용 |
| 컨텍스트 윈도우 | 1,000,000 토큰 (입력) / 64,000 토큰 (출력) |
| API 입력 가격 | $2.00 / 1M 토큰 (200K 이하), $4.00 / 1M 토큰 (200K 초과) |
| API 출력 가격 | $12.00 / 1M 토큰 (200K 이하), $18.00 / 1M 토큰 (200K 초과) |
| Context Caching | $0.20~$0.40 / 1M 토큰 + 저장 $4.50 / 1M 토큰 / 시간 |
가격은 Gemini 3 Pro와 동일함. 이미 Gemini 3 Pro를 쓰고 있었다면 사실상 무료 업그레이드인 셈. 컨텍스트 윈도우가 100만 토큰이라 긴 코드베이스나 문서를 통째로 넣는 작업에도 대응 가능.
벤치마크 성능
숫자로 보면 확실히 인상적임. ARC-AGI-2에서 77.1%를 기록했는데, 이전 Gemini 3 Pro가 31.1%였으니 두 배 이상 뛴 수치. ARC-AGI-2는 AI가 처음 보는 패턴을 얼마나 잘 풀어내는지 평가하는 테스트라, 단순 암기가 아닌 실제 추론 능력을 보여주는 지표로 볼 수 있음.
| 벤치마크 | Gemini 3.1 Pro | Gemini 3 Pro |
| ARC-AGI-2 | 77.1% | 31.1% |
| LiveCodeBench Pro | 2887 Elo | – |
| GPQA Diamond | 94.3% | – |
| 전체 순위 | 18개 중 12개 1위 | – |
코딩 벤치마크인 LiveCodeBench Pro에서 2887 Elo, 대학원 수준 과학 문제인 GPQA Diamond에서 94.3%. 18개 주요 벤치마크 중 12개에서 1위를 차지했다고 하니, 현시점 기준 가장 강력한 모델이라고 봐도 될 듯.
어디서 쓸 수 있나
일반 사용자는 Gemini 앱과 NotebookLM에서 사용 가능(AI Pro/Ultra 구독자). 개발자는 아래 경로로 접근 가능.
Google AI Studio에서 바로 테스트 가능하고, Gemini API로 프로젝트에 통합할 수 있음. Vertex AI는 기업 고객용. Android Studio에서 코드 어시스턴트로도 활용 가능하고, Gemini CLI에서도 사용 가능.
Search Grounding 기능도 있는데, 월 5,000건까지 무료이고 이후 1,000건당 $14. 최신 정보가 필요한 작업에 유용함.
개발자 입장에서 보면
요즘 AI 모델 경쟁이 정말 빠르게 돌아가고 있음. Claude, GPT, Gemini가 번갈아가면서 “최고 성능” 타이틀을 가져가는 상황인데, Gemini 3.1 Pro는 특히 추론과 코딩 쪽에서 강점을 보여주고 있음.
개인적으로 관심이 가는 부분은 실사용 체감. 벤치마크 점수가 높다고 실제 프로젝트에서 바로 체감되는 건 아니니까. 특히 한국어 처리 능력이나 긴 컨텍스트에서의 안정성은 직접 써봐야 알 수 있는 부분. 다만 가격이 동일한 상태에서 성능만 올라간 거라 기존 Gemini 사용자에게는 손해 볼 게 없는 업데이트.
API 문서는 Gemini API Changelog에서, 가격 상세는 Gemini API Pricing에서 확인할 수 있음.