IA

구글의 제미니 3, 모든 AI 벤치마크를 압도하다 – 코딩 전쟁이 본격화되다

Editor
9 min de lectura

정말 흥미로운 소식입니다. 구글이 2025년 11월 18일에 제미니 3을 출시했으며, 솔직히 그 수치는 매우 놀랍습니다. 인류의 마지막 시험 벤치마크에서 37.4라는 점수를 기록했는데, 이는 GPT-5 Pro의 이전 기록인 31.64를 크게 뛰어넘는 수치입니다. 이를 관점에서 보면, 가장 도전적인 AI 추론 테스트 중 하나에서 18%의 개선을 이룬 것입니다.

구글의 제미니 3, 모든 AI 벤치마크를 압도하다 - 코딩 전쟁이 본격화되다
Photo by DALL-E 3 on OpenAI DALL-E

그러나 제 관심을 끈 것은 시기입니다. 이는 제미니 2.5 출시 7개월 후, OpenAI의 GPT 5.1 출시 후 일주일도 채 되지 않았으며, Anthropic의 Sonnet 4.5 출시 후 두 달 만에 이루어진 일입니다. 이 속도는 정말로 무자비합니다. 이제 몇 달마다 주요 모델이 출시되고 있으며, 각 모델은 경쟁을 뛰어넘으려 하고 있습니다. 이는 수백만 달러의 컴퓨팅과 연구 비용이 드는 고위험 기술 도약 게임을 보는 것과 같습니다.

구글의 제미니 모델 제품 책임자인 툴시 도시는 “이러한 대규모 추론의 도약”을 보고 있으며, 응답이 “이전에 보지 못한 깊이와 미묘함을 보여준다”고 말했습니다. 물론 제품 책임자들은 항상 이런 말을 하지만, 벤치마크 점수는 이를 뒷받침하는 것 같습니다. 인류의 마지막 시험 기록 외에도, 제미니 3은 LMArena의 리더보드에서도 1위를 차지했습니다. 이는 알고리즘 성능뿐만 아니라 실제 사용자 만족도를 측정하는 인간 주도 벤치마크입니다.

구글이 운영하는 규모는 주목할 만합니다. 기사에 따르면 제미니 앱은 현재 월간 활성 사용자 수가 6억 5천만 명 이상이라고 합니다. 이는 주요 소셜 미디어 플랫폼의 규모에 근접한 수치입니다. 그렇게 많은 사용자에게 서비스를 제공하고, 하룻밤 사이에 훨씬 더 유능한 모델을 배포할 수 있다면, 네트워크 효과는 엄청나게 커집니다. 게다가 이미 1,300만 명의 소프트웨어 개발자가 워크플로우에서 이 모델을 사용하고 있습니다. 이는 즉시 추론 개선의 혜택을 받을 수 있는 상당한 전문 사용자 기반입니다.

## 코딩 전쟁이 가열되다

그러나 진정으로 흥미로운 부분은 구글이 제미니 기반의 코딩 인터페이스인 안티그래비티를 출시했다는 점입니다. 이는 단순한 ChatGPT 코드 래퍼가 아닙니다. ChatGPT 스타일의 프롬프트 창과 명령줄 인터페이스, 브라우저 창을 결합한 다중 창 에이전트 코딩 환경입니다. 에이전트는 편집기, 터미널, 브라우저에서 동시에 작업하여 애플리케이션을 구축할 수 있습니다.

이는 코딩 분야에서 가장 핫한 스타트업들과 직접 경쟁하게 만듭니다. 올해 초 시리즈 A 펀딩에서 6천만 달러를 모금하고 약 4억 달러의 가치로 평가된 Cursor는 AI 기반 IDE로 주목받고 있습니다. 또 다른 에이전트 코딩 환경인 Warp는 2천 3백만 달러 이상을 모금하며 개발자들 사이에서 빠르게 성장하고 있습니다. 구글은 “우리도 할 수 있으며, 더 나은 규모와 모델 능력으로 할 수 있다”고 말하는 것입니다.

경쟁 역학은 매우 흥미롭습니다. 워싱턴 레드먼드에 본사를 둔 마이크로소프트는 VS Code에 GitHub Copilot을 통합하여 월간 활성 사용자 수가 1,500만 명 이상인 개발자 편집기 시장을 지배하고 있습니다. 샌프란시스코에 본사를 둔 OpenAI는 Copilot을 지원하며 AI 코딩 지원의 선두주자로 자리 잡았습니다. 그러나 이제 캘리포니아 마운틴 뷰에 본사를 둔 구글이 잠재적으로 우수한 모델(이 벤치마크에 기반하여)을 통합 환경을 통해 개발자에게 직접 제공하고 있습니다.

안티그래비티 접근 방식의 특히 스마트한 점은 기존 개발자 워크플로우를 완전히 대체하려고 하지 않는다는 것입니다. 대신 AI 에이전트가 여러 도구에서 동시에 작동할 수 있는 보완적인 환경을 만들고 있습니다. 이는 현재 AI 코딩 도구의 가장 큰 문제점 중 하나인 AI 인터페이스, 코드 편집기, 터미널, 브라우저 간의 컨텍스트 전환 문제를 해결합니다.

시기도 중요합니다. 2025년 11월 현재, AI 코딩 도구의 대규모 기업 채택을 보고 있습니다. GitHub는 Copilot이 이제 130만 명 이상의 유료 구독자와 5만 개 이상의 기업에서 사용되고 있다고 보고했습니다. AI 기반 개발 도구 시장은 2030년까지 243억 달러에 이를 것으로 예상되며, 연평균 성장률은 25%입니다. 구글은 잠재적으로 우수한 기본 모델로 이 시장의 상당 부분을 차지할 위치에 있습니다.

## 시장 영향 및 전략적 위치

이것이 더 넓은 AI 환경에 의미하는 바를 이야기해 봅시다. 구글의 전략은 수직 통합에 관한 것 같습니다. 단순히 더 나은 기본 모델을 구축하는 것이 아니라, 그 모델 위에 완전한 애플리케이션 경험을 구축하고 있습니다. 6억 5천만 명의 사용자를 보유한 제미니 앱은 Anthropic(샌프란시스코)이나 Perplexity(샌프란시스코)와 같은 순수 AI 회사가 가지지 못한 엄청난 배포 이점을 제공합니다.

구글 AI Ultra 구독자에게 제공될 예정인 더 연구 집약적인 버전인 제미니 3 Deepthink의 도입도 비즈니스 모델 관점에서 흥미롭습니다. 이는 OpenAI의 GPT-4와 GPT-3.5와 유사한 모델 능력에 따른 계층화된 가격 책정으로 이동하고 있음을 시사합니다. Ultra 구독자는 아마도 훨씬 더 많은 비용을 지불할 것입니다. OpenAI의 GPT-4 API는 사용 패턴에 따라 GPT-3.5보다 10-20배 더 비쌉니다.

경쟁 관점에서 이는 OpenAI에 심각한 압박을 가합니다. 샌프란시스코에 본사를 둔 회사는 벤치마크 리더였지만, 구글은 주요 지표에서 그들을 뛰어넘었으며 제품 범위에서도 그들과 맞먹고 있습니다. OpenAI의 최근 GPT 5.1 출시는 그들의 우위를 유지하기 위한 것이었지만, 구글의 벤치마크가 실제 사용에서 유지된다면 그 이점은 빠르게 사라졌습니다.

기업 고객에게 이는 흥미로운 결정 지점을 만듭니다. 많은 회사가 급변하는 환경 때문에 특정 AI 공급자에 완전히 의존하는 것을 주저해왔습니다. 구글의 최신 출시는 그 전략을 입증합니다 – 오늘의 최고의 모델이 다음 달에는 최고의 모델이 아닐 수 있습니다. OpenAI에 130억 달러를 투자한 마이크로소프트(워싱턴 레드먼드)와 같은 회사는 이제 그들의 파트너십이 최고의 AI 능력에 접근할 수 있게 해주는지 고려해야 합니다.

개발자 시장은 특히 중요합니다. 이는 고가치 사용자와 영향력 있는 초기 채택자를 모두 대표하기 때문입니다. 구글이 안티그래비티로 상당한 개발자 인식을 얻을 수 있다면, 더 많은 개발자가 구글의 도구를 사용하고, 모델을 개선하는 피드백을 제공하며, 더 많은 개발자를 끌어들이는 플라이휠 효과를 만들 수 있습니다. 이는 AWS가 지배력을 구축한 방식과 유사합니다 – 먼저 개발자를 서비스하고, 그 다음에 기업으로 확장하는 것입니다.

## 기술적 능력 및 실제 영향

구글이 주장하는 벤치마크 개선은 단순한 학문적 연습이 아닙니다. 인류의 마지막 시험 벤치마크는 다양한 도메인에서 일반적인 추론과 전문성을 테스트하도록 설계되었습니다 – 본질적으로 AI가 인간 전문가처럼 복잡한 문제를 생각할 수 있는지를 측정하는 것입니다. 37.4라는 점수는 모델이 이전에는 AI 능력을 넘어섰던 정교한 추론 작업을 처리할 수 있음을 시사합니다.

소프트웨어 개발에 있어, 이는 AI 에이전트가 복잡한 코드베이스를 이해하고, 복잡한 문제를 디버그하며, 단순히 보일러플레이트 코드를 생성하는 것이 아니라 솔루션을 설계할 수 있음을 의미할 수 있습니다. 현재 AI 코딩 도구는 자동 완성과 간단한 함수 생성에 탁월하지만, 시스템 수준의 사고와 복잡한 디버깅에는 어려움을 겪고 있습니다. 제미니 3의 추론 개선이 코딩 작업에 적용된다면, AI 프로그래밍 능력에서 상당한 도약을 볼 수 있을 것입니다.

안티그래비티의 다중 창 인터페이스는 실제 워크플로우 문제를 해결합니다. 현재 코딩에 AI를 사용할 때, 개발자는 일반적으로 AI 채팅 인터페이스에서 코드를 복사하여 편집기에 붙여넣고, 터미널에서 실행하고, 브라우저에서 결과를 확인한 다음 AI에 피드백을 제공합니다. 안티그래비티의 통합 접근 방식은 이러한 마찰을 대부분 제거하여 AI 지원 개발을 훨씬 더 효율적으로 만들 수 있습니다.

그러나 고려해야 할 중요한 경고 사항이 있습니다. 벤치마크 점수가 항상 실제 성능으로 직접 번역되지는 않으며, 구글은 인상적인 데모가 실제로는 기대에 미치지 못하는 경우가 많습니다. 구글의 LaMDA 데모를 기억하십시오. 인간처럼 보였지만, 실제 버전은 훨씬 제한적이었습니다. 진정한 시험은 앞으로 몇 달 동안 실제 개발자 워크플로우에서 제미니 3이 어떻게 작동하는지에 달려 있습니다.

안전성과 신뢰성에 대한 질문도 있습니다. 구글은 제미니 3 Deepthink가 출시 전에 “추가적인 안전성 테스트를 통과해야 한다”고 언급합니다. 이는 가장 강력한 버전에 대해 신중하게 접근하고 있음을 시사하며, 이는 더 강력한 모델이 예상치 못한 행동을 보일 수 있는 잠재력을 고려할 때 아마도 현명한 선택일 것입니다. AI 안전 커뮤니티는 안전 조치를 초월하는 빠른 능력 개선에 대해 점점 더 우려하고 있습니다.

## 앞으로의 전망: 가속은 계속된다

이번 출시에서 가장 눈에 띄는 점은 현재 AI 개발의 속도를 잘 보여준다는 것입니다. 제미니 2.5에서 제미니 3까지 7개월 만에 이 수준의 개선이 이루어졌다는 것은 여전히 능력 곡선의 가파른 부분에 있음을 시사합니다. 이 속도가 계속된다면, 2026년 중반까지 더 극적인 개선을 볼 수 있을 것입니다.

이 환경을 탐색하려는 투자자와 기업에게 구글의 최신 출시는 여러 주요 트렌드를 강화합니다. 첫째, 기본 모델 경쟁은 아직 끝나지 않았습니다 – 어느 한 회사도 지속 가능한 해자를 구축하지 않았습니다. 둘째, 수직 통합(모델 + 애플리케이션)이 가치를 포착하는 데 점점 더 중요해지고 있습니다. 셋째, 개발자 도구는 AI 능력이 비즈니스 가치로 직접 전환될 수 있는 중요한 전장입니다.

경쟁의 반응을 지켜보는 것은 흥미로울 것입니다. OpenAI는 아마도 자체 출시 일정을 가속화할 것이고, Anthropic은 그들의 헌법적 AI 접근 방식이 원시 능력 개선과 보조를 맞출 수 있음을 입증해야 할 것이며, 마이크로소프트는 OpenAI 파트너십에 얼마나 의존할지 아니면 자체 능력을 개발할지를 결정해야 할 것입니다. 한편, AI 코딩 분야의 스타트업들은 기술 거인들이 우수한 모델을 잠재적으로 더 낮은 비용으로 제공하는 상황에서 어떻게 경쟁할지를 고민해야 할 것입니다.

궁극적으로, 이번 출시는 AI 전쟁의 또 다른 변곡점처럼 느껴집니다. 구글은 OpenAI가 앞서 나가는 것처럼 보였던 시기 이후 다시 진지한 경쟁자로 자리 잡았습니다. 향후 몇 달 동안 이러한 벤치마크 개선이 실제 세계에서의 이점으로 이어질지, 구글이 배포 규모를 활용하여 시장 점유율을 얻을 수 있을지 여부가 밝혀질 것입니다. 하지만 한 가지는 분명합니다 – AI 혁신의 속도는 늦춰지지 않고 있으며, 그 위험은 점점 더 커지고 있습니다.


이 글은 Google launches Gemini 3 with new coding app and record benchmark scores를 읽고 작성되었습니다. 저의 분석과 관점을 추가했습니다.

면책 조항: 이 블로그는 뉴스 매체가 아닙니다. 콘텐츠는 저자의 개인적인 견해를 나타냅니다. 투자 결정은 투자자의 책임이며, 이 콘텐츠에 기반한 손실에 대해 우리는 책임을 지지 않습니다.

Editor

Leave a Comment