AI 벤치마크 신기록 달성: 7명 팀의 재귀적 자기개선 시스템

세계는 빠르게 변하고 있고, AI 기술은 더욱 그렇습니다. 요즘 한 가지 확실한 것이 있다면, AI를 직접 경험해 보는 것 이 가장 중요하다는 점입니다. 매일 AI를 활용해 새로운 프로젝트를 시도해보세요. 작년 여름만 해도 주말을 이용해 GPT-5의 도움을 받아 아이폰 앱을 만들었는데, 10년 동안 해본 적 없던 작업이 놀라울 정도로 빠르고 쉬웠습니다. 8개월이 지난 지금은 더욱 빠르고 간단해졌습니다. 자신을 제한하지 마세요. 상상하는 모든 것을 AI로 시도해보고, 어디까지 도달할 수 있는지 확인해보세요. 이것이 바로 세상을 더 나은 곳으로 만드는 방법입니다.

핵심 요약

재귀적 자기개선: AI가 스스로를 지속적으로 개선하는 혁신적 기술로, 새로운 모델 출시 때마다 자동으로 성능 향상
비용 효율성: 대규모 모델 훈련에 수억 달러가 들지만, Poetiq은 10만 달러 미만 의 최적화 비용으로 최고 성능 달성
벤치마크 최고 기록: Arc AGI V2와 '인류의 마지막 시험(Humanity's Last Exam)'에서 연이어 1위 달성
작은 팀의 큰 성과: 불과 7명의 연구 과학자와 엔지니어 로 구성된 팀이 대형 AI 회사들을 능가하는 성능 달성
미래 증명 기술: 기존 모델 미세조정과 달리 새로운 모델이 나와도 자동으로 호환되고 성능 향상

Poetiq: 재귀적 자기개선의 완벽한 구현

Poetiq은 단순한 LLM 위의 또 다른 도구가 아닙니다. 이곳에서 구축하고 있는 것은 재귀적으로 자체 개선되는 시스템 입니다. 이는 AI 업계에서 오랫동안 추구해온 '성배'와도 같습니다. AI가 스스로를 더 똑똑하게 만드는 것이죠.

Poetiq의 핵심 통찰은 기존의 모든 방식보다 훨씬 빠르고 저렴하게 재귀적 자기개선을 달성할 수 있다 는 것입니다. 일반적으로 기업들은 어떤 접근을 할까요?

기존 방식의 문제점

대부분의 회사들은 새로운 LLM을 처음부터 훈련하는 방식을 취합니다. 이 과정에는:

수억 달러의 비용 투자 필요
수개월의 개발 기간 소요
그 결과도 Anthropic이나 OpenAI 같은 대형사가 다음 모델을 출시하면 즉시 뒤처짐

OpenAI, Google, Anthropic 같은 대형사들도 재귀적 자기개선을 탐구하고 있지만, 각 개선 단계마다 새로운 모델을 훈련해야 합니다. 이는 스타트업에게는 불가능한 접근 방식입니다.

Poetiq의 혁신적 해결책

Poetiq을 사용하면, 기존 기반 모델을 그대로 두고 그 위에 최적화된 '하네스(harness)' 시스템을 구축합니다. 이 하네스는:

코드, 프롬프트, 데이터 의 조합
기반 모델보다 항상 더 나은 성능 발휘
새로운 모델이 출시되면 자동으로 호환 되고 추가 학습 없이도 성능 향상

이것이 정말 중요한 이유는, 만약 미세조정(fine-tuning)을 한다면:

수백만에서 수억 달러를 지출
다음 버전의 최첨단 모델이 나오면 그 투자가 무의미해짐
영원히 따라잡을 수 없는 악순환에 빠짐

Poetiq을 사용하면, 항상 기본 제공되는 모델보다 더 나은 성능을 보장받습니다. 이것이 바로 성배인 것입니다.

연속된 벤치마크 최고 기록 달성

Arc AGI V2: 첫 번째 검증

지난 12월 논문을 발표했을 때, Poetiq은 Arc AGI V2에서 최고 기록을 세웠습니다. 이것은 은밀한 개발을 완료한 후, 정말 어려운 문제들을 해결할 수 있다는 것을 세상에 알린 계기였습니다.

그 직후 Google의 Gemini 3 DeepThink가 출시되어 45%로 리더보드 최상단에 올랐습니다. 놀랍게도, 2일 후 Poetiq은 훨씬 더 높은 점수를 발표했습니다.

이것은 마치 '죽마를 탄 것'과 같은 상황입니다. 어떤 최고 성능 모델이 나오든, Poetiq과 함께라면 그 모델보다 더 우위에 설 수 있습니다.

비용 효율성: Gemini 3 Pro의 성공

더 놀라운 것은 비용입니다. Poetiq은 Gemini 3 DeepThink보다 훨씬 저렴한 Gemini 3 Pro를 기반 으로 구축했습니다.

성능 비교:

Gemini 3 DeepThink: 45% 정확도, 문제당 약 $70
Poetiq (Gemini 3 Pro 기반): 54% 정확도, 문제당 $32

9%포인트의 성능 향상을 절반의 비용으로 달성한 것입니다. 이것이 스타트업이 원하는 결정적인 요소입니다. 새로운 모델을 미세조정할 필요 없이, 저렴한 모델로 더 나은 결과를 얻을 수 있다는 증명입니다.

인류의 마지막 시험: 최고의 순간

최근 Poetiq은 '인류의 마지막 시험(Humanity's Last Exam)'에서 놀라운 결과를 발표했습니다.

이 벤치마크는:

2,500개의 매우 어려운 문제 로 구성
다양한 분야의 전문가들이 직접 작성
해당 분야의 박사 학위 소유자도 도전적일 정도 의 난이도
현재까지 AI 중 단 하나도 통과하지 못함

Poetiq의 성과:

55% 달성
지난주 Anthropic의 Claude Opus 4.6이 발표한 이전 최고 기록 53.1%보다 약 2%포인트 높음

최적화 비용의 충격

이 성과를 달성하는 데 드는 비용은 10만 달러 미만입니다. 이것이 얼마나 인상적인지 이해하려면:

일반적인 대규모 기반 모델 훈련: 수억 달러
Poetiq의 최적화: 10만 달러 미만
비용 대비 성능: 수천 배 향상

그리고 이 모든 것을 단 7명의 연구 과학자와 연구 엔지니어 가 달성했습니다. 이는 단순히 효율성의 문제가 아니라, 완전히 다른 접근 방식의 우월성 을 보여주는 증거입니다.

하네스 기술: 마법 같은 자동화

코드, 프롬프트, 데이터의 시너지

하네스(harness)는 본질적으로 하나 이상의 언어 모델 위에 구축된 코드, 프롬프트, 그리고 데이터 입니다. 원칙적으로는 수동으로 또는 Claude 코드를 사용하여 구축할 수 있지만, 실제로는 모든 통찰력을 얻고 이것을 잘 작동시키려면 엄청난 노력이 필요합니다.

Poetiq에서 개발한 핵심 기술은 바로 이 하네스를 자동으로 생성하고 최적화 하는 것입니다.

Poetiq 메타 시스템의 작동 원리

Poetiq 메타 시스템 은 어려운 문제를 해결하는 최적화된 시스템을 자동으로 출력합니다. 여기서 '어려운 문제'란:

GPT-5 같은 최고 성능 모델을 사용해도
신뢰할 수 있고 견고한 결과를 내기 어려운 것
지속적인 오류나 불안정성이 발생하는 것

이렇게 하면:

이러한 시스템을 훨씬 더 자동화된 방식 으로 생성 가능
특정 작업을 해결하기 위해 직접 팀을 고용 하려는 것보다 훨씬 빠르고 저렴
진정한 의미의 완전 자동화된 최적화 프로세스

엔지니어들의 새로운 역할

이 기술의 등장으로 엔지니어들의 역할이 변합니다:

과거 (수동 방식):

프롬프트 엔지니어가 직접 튜닝
평가 지표를 수동으로 개선
컨텍스트 스터핑을 직접 수행
끊임없는 수정과 재작업

현재 (Poetiq 방식):

Poetiq 메타 시스템이 데이터를 자동으로 분석
더 많은 컨텍스트가 필요한지 판단하여 자동 추가
필요한 예시를 자동으로 생성
인간 개입 최소화로 편향 제거

흥미롭게도, Arc AGI의 프롬프트 출력을 보면 '이건 인간이 쓴 게 아니다'라고 분명히 알 수 있습니다. 예상치 못한 창의적 접근도 있고, 매우 단순한 예시도 만드는데, 심지어 그중 일부는 기술적으로 '틀렸지만' 전체 성능에는 도움이 됩니다. Poetiq은 이를 개입해서 수정하지 않습니다. "이것이 우리가 얻은 결과니 그냥 두자"라고 판단합니다.

머신러닝 패러다임의 전환

역사적인 규칙의 폐기

역사적으로 머신러닝에는 중요한 규칙이 있었습니다: "데이터셋을 정말 잘 알아야 한다."

전문 연구자들은:

데이터셋의 특성을 깊이 있게 이해
잠재적 오류나 편향 찾아내기
성공과 실패의 패턴 분석
수동으로 이를 모두 반영하여 설계

새로운 패러다임: AI가 AI를 이해한다

이제 이 일을 AI 자체에 아웃소싱합니다.

AI가 이제:

데이터셋 자체를 깊이 있게 이해
실패 모드가 어디에 있는지 파악
더 나은 성능을 위해 필요한 견고한 추론 전략 식별
이를 모두 자동으로 구현

이것은 단순한 효율성 개선이 아니라 패러다임 자체의 전환 입니다.

추론 전략의 중요성

프롬프트 최적화와 추론 전략, 어느 것이 더 중요할까요?

이것은 문제마다 완전히 다릅니다. 하지만 DeepMind에서의 경험을 보면 흥미로운 패턴이 있습니다.

실제 사례:

프롬프트만 수동 최적화: Gemini 1.5 Flash로 약 5% 성능 개선
추론 전략 추가 후: 5%에서 95%로 급증 (즉, 90%포인트 개선)

이것이 일반적으로 보이는 현상입니다. 많은 사람들이 자동화된 프롬프트 최적화를 시도하고 있고 (유명한 논문들도 있습니다), 어느 정도의 성능 향상을 가져옵니다. 그러나 프롬프트 개선만으로는 얻을 수 있는 것과는 거리가 멀고, 코드로 작성된 추론 전략에 대해 깊이 있게 고민한다면 훨씬 더 많은 것을 얻을 수 있습니다.

이것이 Poetiq이 특별한 이유입니다. 단순히 텍스트 프롬프트를 최적화하는 것이 아니라, 전체 추론 파이프라인을 자동으로 구축하고 개선 합니다.

스타트업을 위한 Poetiq의 실제 적용

기존 에이전트의 성능 극대화

스타트업이 이미 어떤 에이전트를 구축했지만 더 나은 성능이 필요하다면? Poetiq이 할 수 있는 것:

전체 에이전트 최적화 - 전체 시스템을 재구축
부분 최적화 - 특정 부분만 개선
프롬프트만 최적화 - 텍스트 부분 개선
추론 전략만 최적화 - 로직 파트 개선

모든 것이 특정 요구사항과 현재 상황에 따라 유연하게 적용 됩니다.

S-곡선의 상승

이 기술의 매력은 무한한 상향 궤적 입니다:

각 모델 또는 모델 세트에는 고유한 S-곡선 이 있음
Poetiq 메타 시스템이 개선될수록, S-곡선이 계속 상승
기본 모델이 더 좋아질수록, 그 위의 S-곡선도 더 높아짐
결국 포화 상태에 도달하거나 AGI/초지능에 도달할 때까지 계속 상승

목표는 Poetiq으로 먼저 그 한계에 도달하는 것입니다. 그리고 새로운 모델이 나와도 자동으로 그 위에서 다시 상승하게 되는 것이죠.

얼리 액세스와 파트너십

현재 Poetiq은 아직 공식 출시되지 않았지만, poetiq.ai에 접속하면 얼리 액세스를 신청할 수 있는 버튼이 있습니다.

특히 찾고 있는 것:

정말 어려운 문제를 안고 있는 스타트업
온갖 노력을 다했지만 여전히 부족함을 느끼는 회사
더 많은 성능이 필요한데 새로운 모델만으로는 부족한 상황

이런 종류의 문제들이 바로 Poetiq의 강점을 보여줄 수 있는 최고의 사례입니다.

AI 시대의 엔지니어들을 위한 조언

한계를 찾아라

세상은 빠르게 변하고 있고, 가장 중요한 것은 직접 AI를 사용해보는 것 입니다. 많은 엔지니어들이 AI 스타트업을 시작하고 싶어 하는데, 어떻게 생각해야 할까요?

핵심 조언:

매일 AI를 활용해 무언가를 하세요
AI가 할 수 있는 것의 한계를 찾아내세요
자신이 만들고 싶은 것을 만드세요

자신을 제한하지 마라

직접 경험한 사례를 보면 이게 얼마나 중요한지 알 수 있습니다. 지난여름, 주말을 이용해 GPT의 도움을 받아 아이폰 앱을 만들었는데, 10년 동안 해본 적 없던 작업이 놀라울 정도로 빠르고 쉬웠습니다.

그것이 8개월 전이었는데, 지금은 훨씬 더 빠르고 간단합니다. 이 속도로 진화하면, 앞으로 몇 개월 뒤에는 또 얼마나 더 발전할까요?

상상 속의 아이디어를 현실로

스스로를 제한하지 마세요. 상상하는 모든 것을 AI를 사용해서:

시도해보세요
어디까지 할 수 있는지 확인해보세요
기술적 제약을 최소화하세요

이렇게 하면, 세상을 더 나은 곳으로 만들 수 있습니다. 이것이 AI 시대가 주는 가장 큰 기회입니다.

결론

Poetiq의 이야기는 단순히 한 회사의 성공 사례가 아닙니다. 이것은 AI 시대에 어떻게 경쟁해야 하는지에 대한 완전히 새로운 패러다임 을 제시합니다.

최고 성능 모델들과의 끝없는 경쟁에서 벗어나, 현재 있는 모델 위에서 지속적으로 개선하는 방식. 수억 달러의 훈련 비용 없이, 10만 달러 미만으로 최고의 성능을 달성하는 방법. 새로운 모델이 나올 때마다 모든 것을 다시 시작하지 않고, 자동으로 호환되고 더 나아지는 시스템.

이것이 바로 '죽마를 탄' 것입니다. 어떤 모델이 나오든, 그 위에서 계속 더 나은 성능을 내는 영원한 리더 위치를 보장받는 것입니다.

AI 스타트업을 꿈꾸고 있다면, Poetiq의 접근 방식에서 배우세요. 거대한 자본과 자원으로 정면 승부하지 마세요. 대신 더 똑똑한 방법으로 기존의 것을 더 잘 사용하세요. 그것이 바로 AI 시대의 진정한 혁신 입니다.

Original source: How A Team Of 7 Keeps Breaking AI Benchmark Records

powered by osmu.app

(Ycombinator) AI 벤치마크 신기록 달성: 7명 팀의 재귀적 자기개선 시스템