AI 모델 비용 혁명: 토큰에서 결과 중심으로의 전환

핵심 요약

Microsoft의 새로운 벤치마크: 평균 토큰 사용량 메트릭이 AI 업계의 표준이 되고 있으며, 이는 모델 평가 방식에 근본적인 변화를 가져옴
비용 효율성의 시대: GPT 5.5와 Claude Opus 4.8이 동일한 성능을 제공하지만, 가격 차이는 최대 40%까지 발생
기업들의 예산 위기: Uber는 4개월 만에 AI 예산을 소진했고, Salesforce는 AI 토큰에 3억 달러를 투자하며 채용을 동결
패러다임 시프트: 업계 전체가 토큰당 가격에서 결과당 가격으로 전환하는 중
경쟁의 새로운 차원: 모델 회사들은 이제 성능뿐만 아니라 비용 효율성으로도 경쟁해야 함

AI 벤치마크의 새로운 기준이 등장하다

Microsoft가 어제 공개한 모델 릴리스 카드의 변화는 단순해 보이지만, AI 업계 전체의 기본 가정을 뒤흔들었습니다. 새로운 메트릭인 평균 토큰 사용량 이 추가된 것입니다. 이는 단순한 숫자 추가가 아니라 AI 모델 평가의 패러다임 전환을 의미합니다.

지금까지 AI 모델의 성능은 거의 전적으로 벤치마크 점수로 측정되어 왔습니다. SWE-Bench Verified라는 코딩 성능 테스트에서 점수가 높을수록 더 나은 모델이라고 평가받았습니다. 하지만 Microsoft의 새로운 접근 방식은 이 논리에 결정적인 질문을 던집니다: 그 성능을 어떤 비용으로 달성했는가?

실제로 첫 번째 행의 데이터를 보면 그 차이가 극명합니다. Microsoft 모델은 Claude Haiku 4.5가 소비하는 토큰의 약 3분의 1만 사용하면서 SWE-Bench Verified에서 71.6이라는 높은 점수를 달성했습니다. 이는 같은 결과를 훨씬 적은 자원으로 얻었다는 의미입니다. 효율성 면에서 완전히 다른 차원의 비교가 가능해진 것입니다.

이전까지는 모델의 능력이 주요 지표였다면, 이제부터는 능력을 달성하기 위한 비용 이 동등하게 중요한 평가 요소가 되었습니다. 벤치마크는 더 이상 단일 차원이 아닌 두 가지 차원으로 측정 되는 것입니다. 전체 성능과 그 지능을 달성하기 위한 실제 비용이 함께 고려되기 시작한 것입니다.

이러한 변화는 몇 년 전만 해도 상상하기 어려웠던 일입니다. 초기 생성형 AI 붐 속에서는 기업들이 최첨단 모델의 비용을 거의 묻지 않았습니다. 하지만 이제 상황이 완전히 바뀌었습니다. 성능과 비용의 균형이 중요해진 것입니다.

무한정 지속될 수 없는 AI 비용의 현실

지금까지 AI의 확산을 가능하게 한 핵심 요소 중 하나는 기술 기업들의 보조금 이었습니다. 초기 사용자들은 예상보다 훨씬 저렴한 비용으로 최고의 모델을 사용할 수 있었습니다. 이는 AI 채택을 빠르게 촉진했지만, 동시에 지속 불가능한 기반 위에 세워진 시장을 만들었습니다.

이제 그 시대가 끝나가고 있습니다. 보조금 시대의 종료, 토큰 극대화 경쟁의 약화, 그리고 순수 성능 중심의 사고 방식의 한계 가 동시에 드러나고 있습니다. 세계에서 가장 가치 있는 회사들도 모든 가능한 사용 사례에 대해 최첨단 지능을 감당할 수 없다는 현실이 이제 명백해졌습니다.

구체적인 사례들이 이를 증명합니다. Uber 는 AI 도입 후 단 4개월 만에 예산을 소진 한 후 직원 AI 지출에 상한선을 설정해야 했습니다. 처음에는 AI 기술로 수백만 달러를 절감할 수 있을 것으로 예상했지만, 실제로는 통제 불가능한 지출 증가를 경험했습니다. 이는 AI의 힘이 얼마나 큰지를 보여주는 동시에, 그에 따른 비용 폭탄의 위험성도 함께 드러낸 것입니다.

더욱 놀라운 사례는 Salesforce 입니다. Salesforce는 Anthropic의 토큰에만 3억 달러를 투자 하고 있으며, 이로 인해 엔지니어링 채용 동결까지 단행했습니다. 3억 달러라는 막대한 금액은 일반적인 소프트웨어 회사의 전체 R&D 예산에 맞먹습니다. 그 돈은 대신 AI 모델 사용료로 사라지고 있습니다. 이는 AI의 비용이 얼마나 파괴적일 수 있는지, 그리고 기업이 얼마나 광범위하게 AI를 채택하려 하는지를 보여줍니다.

Microsoft 도 예외가 아닙니다. Microsoft는 Experiences and Devices 부서(Windows, Microsoft 365, Outlook, Teams, Surface 포함)에서 Claude Code 라이선스를 취소했습니다. 엔지니어링 사용량이 예산을 초과했기 때문입니다. Microsoft 같은 회사도 자사의 모든 부서가 최고급 AI 모델을 사용하도록 할 수 없다는 뜻입니다.

이러한 사건들은 단순한 개별 사례가 아닙니다. 이들은 AI 산업이 성숙 단계로 접어들었다 는 신호입니다. 초기 도입 단계에서는 가능했던 무분별한 투자와 사용이 이제는 불가능해졌습니다. 기업들은 AI를 도입하되, 그 비용을 정당화할 수 있는 구체적인 가치를 증명해야 합니다.

달러당 지능: 새로운 경쟁의 척도

이 새로운 벤치마크 체계가 답하는 구매자의 핵심 질문은 매우 단순합니다: 내 달러당 지능은 얼마인가?

이는 과거의 질문과 완전히 다릅니다. 과거에 기업 구매자들은 "어느 모델이 더 똑똑한가?"를 물었습니다. 이제는 "같은 성능을 더 저렴하게 얻을 수 있는가?"를 묻고 있습니다.

이러한 사고의 전환을 가장 잘 보여주는 것이 Artificial Analysis 의 최신 벤치마크입니다. Artificial Analysis는 이미 이러한 이중 차원 평가를 시행하고 있습니다. Intelligence Index라는 지표에서 보면, GPT 5.5와 Claude Opus 4.8은 약 60점 으로 거의 동일한 수준의 지능을 보유하고 있습니다. 두 모델의 차이는 1점 이내입니다.

하지만 가격은 극적으로 다릅니다. 이 지수를 실행하는 데 GPT 5.5에서는 3,357달러 가 들고, Claude Opus 4.8에서는 4,685달러 가 듭니다. 같은 답변을 위해 40%를 더 지불 해야 한다는 뜻입니다.

이 데이터는 매우 중요한 함의를 가집니다. 더 이상 "최고의 모델"이라는 개념이 의미가 없다는 것입니다. "최고의 모델"은 이제 "당신의 사용 사례에서 가장 비용 효율적인 모델" 로 재정의되어야 합니다. Claude Opus 4.8이 기술적으로 약간 더 강력할 수도 있지만, 그 차이가 40%의 추가 비용을 정당화하지 못한다면, GPT 5.5가 더 나은 선택입니다.

이는 AI 산업의 주요 기업들에게도 혁신적인 압력을 가합니다. 더 이상 "더 강력한 모델을 만드는 것"만으로는 충분하지 않습니다. 비용 효율적인 모델 을 만들 수 있는 능력이 경쟁력의 핵심이 되었습니다. 같은 성능을 더 적은 계산 능력으로 달성할 수 있다면, 그것이 시장에서의 우위입니다.

스택의 모든 계층이 경쟁 구도를 재편하다

이러한 변화는 AI 산업의 최하층부인 모델 회사들뿐 아니라, 스택의 모든 계층 에 영향을 미치고 있습니다.

모델 회사들 은 이제 두 가지 차원에서 경쟁 해야 합니다. 기존의 성능 경쟁은 당연하고, 여기에 비용 효율성 경쟁 이 추가된 것입니다. Microsoft, OpenAI, Anthropic과 같은 기업들은 더 똑똑한 모델을 만드는 동시에, 더 저렴하게 그 지능을 제공할 수 있는 방법을 찾아야 합니다. 이것이 Microsoft가 새로운 메트릭을 릴리스 카드에 포함한 이유입니다. 자신들의 모델이 경쟁사보다 더 비용 효율적이라는 것을 강조하기 위함입니다.

애플리케이션 계층 은 한 단계 더 높은 차원에서 경쟁합니다. 애플리케이션 개발자들과 서비스 제공자들은 더 이상 "결과당 토큰"으로 생각할 수 없습니다. 이제는 "결과당 달러" 로 생각해야 합니다. 구체적으로는:

해결된 고객 지원 사례당 비용: 챗봇이나 자동화 솔루션이 얼마나 효율적으로 고객 문제를 해결하는가?
배포된 PR당 비용: AI 코딩 도우미가 얼마나 효율적으로 개발 속도를 높이는가?
종료된 티켓당 비용: 자동화 도구가 처리한 작업량 대비 비용은 얼마인가?

이러한 질문들은 더 이상 기술적 질문이 아닙니다. 이들은 비즈니스 질문 입니다. 그리고 기업들은 AI 투자가 실제로 비즈니스 결과를 개선하지 않으면 그 투자를 정당화할 수 없습니다.

결과당 가격으로의 전환: 불가피한 미래

스택의 모든 계층이 동시에 같은 방향으로 움직이고 있습니다. 결과당 가격으로의 전환 입니다.

과거의 AI 산업은 토큰당 가격 으로 구조화되어 있었습니다. 모델 회사들은 토큰당 얼마인지를 고지했고, 개발자들은 자신들이 몇 개의 토큰을 사용했는지에 따라 비용을 지불했습니다. 이는 간단하고 명확했지만, 실제 비즈니스 가치를 반영하지 못했습니다.

이제 업계는 결과당 가격 모델로 전환하고 있습니다. 이는 더 복잡하고 어려운 전환이지만, 더 지속 가능하고 공정한 모델입니다. 기업들은 AI에 얼마를 지불할 것인가가 아니라, AI가 얼마나 많은 가치를 생성할 것인가를 기준으로 투자를 결정할 것입니다.

이 전환은 이미 시작되었습니다. 선진적인 기업들은 이미 AI 투자의 ROI를 측정하기 시작했습니다. 대부분의 기업들은 아직 이 전환에 적응하지 못하고 있지만, 피할 수 없는 방향입니다. Uber의 4개월 예산 소진 사건, Salesforce의 3억 달러 투자, Microsoft의 라이선스 취소 사건들은 모두 이 전환의 과정을 보여주는 것입니다.

앞으로의 AI 산업은 가장 똑똑한 모델이 아니라, 가장 비용 효율적인 모델이 승리 하는 시대가 될 것입니다. 이는 단순해 보이는 변화이지만, AI 기술, 비즈니스 모델, 투자 결정에 걸쳐 혁명적인 영향을 미칠 것입니다. Microsoft의 새로운 메트릭은 이 미래가 이미 시작되었음을 선언하는 신호탄입니다.

결론

Microsoft의 새로운 벤치마크 메트릭은 단순한 기술적 변화가 아니라, AI 산업 전체의 패러다임 전환 을 의미합니다. 더 이상 순수 성능만으로는 충분하지 않습니다. 이제 기업과 개발자들은 모두 달러당 지능 이라는 새로운 척도로 AI를 평가해야 합니다. Uber, Salesforce, Microsoft 같은 거대 기업들도 통제 불가능한 AI 비용 앞에서 정책을 변경하고 있습니다. 미래의 AI 경쟁은 성능과 비용 효율성이라는 이중 구도에서 벌어질 것입니다. 당신의 조직이 이 변화에 준비가 되어 있는지 지금 점검해보세요.

원문출처: Intelligence Per Dollar

powered by osmu.app

(Tom Tunguz) AI 모델 비용 혁명: 토큰에서 결과 중심으로의 전환

AI 모델 비용 혁명: 토큰에서 결과 중심으로의 전환

핵심 요약

AI 벤치마크의 새로운 기준이 등장하다

무한정 지속될 수 없는 AI 비용의 현실

달러당 지능: 새로운 경쟁의 척도

스택의 모든 계층이 경쟁 구도를 재편하다

결과당 가격으로의 전환: 불가피한 미래

결론

관련 포스트

(Ycombinator) 야망을 키우는 법: 성공한 창업자들의 전략

(Ycombinator) 과학자가 스타트업 창업에 최적인 이유

(Ycombinator) 암호화폐 사업 시작: 약세장이 기회인 이유

(FirstRound) 역사상 가장 강력한 우주선 발사: K2의 그라비타스 위성

(Ycombinator) AI 스타트업이 거대 연구소를 피하는 이유: Dust 창업자의 조언

(Ycombinator) Supabase 성공 스토리: 데이터베이스 스타트업의 급성장 비결

댓글 (0)