AI 제품 개발 완벽 가이드: 성공적인 AI 에이전트 구축법 | OSMU Blog

AI 제품 개발의 핵심 전략을 배우세요. 비결정적 특성, 에이전시 제어 트레이드오프, 지속적 보정 프레임워크로 AI 에이전트를 성공적으로 구축하는 방법을 완벽하게 설명합니다.

AI 제품 개발 완벽 가이드: 성공적인 AI 에이전트 구축법

핵심 요약

AI 제품은 다르다: 전통적 소프트웨어와 달리 AI 제품은 비결정적이며, 예측 불가능한 사용자 행동과 LLM의 확률적 응답이 특징입니다.
에이전시-제어 트레이드오프: AI 시스템에 자율성을 부여할수록 인간의 제어력이 감소하므로, 단계적 접근이 필수입니다.
작은 것부터 시작하세요: V1(높은 제어, 낮은 에이전시)에서 V3(낮은 제어, 높은 에이전시)로 점진적으로 진화시켜야 합니다.
지속적 보정이 핵심: 프로덕션 모니터링, 평가 메트릭, 사용자 행동 분석을 통해 지속적으로 시스템을 개선해야 합니다.
리더십이 중요: CEO와 리더는 AI 기술에 대해 깊이 있게 이해하고 적극적으로 참여해야 성공합니다.

AI 제품 개발의 근본적 차이점

AI와 전통 소프트웨어의 본질적 차이

AI 제품 개발은 기존의 비-AI 제품 개발과 완전히 다릅니다. 이 차이를 제대로 이해하지 못하면 많은 기업들이 실패의 함정에 빠집니다. AI 제품이 다른 이유는 두 가지 핵심 특성에 있습니다.

첫 번째는 비결정성(Non-determinism) 입니다. 전통적인 소프트웨어, 예를 들어 Booking.com 같은 플랫폼에서는 사용자의 의도가 특정하고 미리 정해진 액션으로 변환되어 예측 가능한 결과를 낳습니다. 반면, AI 제품, 특히 자연언어 인터페이스를 사용하는 제품에서는 사용자가 자신의 의도를 수없이 많은 방식으로 표현할 수 있습니다. 이는 입력 행동을 예측 불가능하게 만듭니다.

더욱 복잡한 것은 대규모 언어 모델(LLM)의 확률적 특성 입니다. LLM은 본질적으로 확률 기반이며 종종 블랙박스처럼 작동합니다. 모델의 출력은 프롬프트 표현에 민감하고 예측하기 어렵습니다. 실제 사례를 보면, 사용자가 "Did that"라고 말한 후 복구 링크를 사용하라는 지시를 받았을 때, 챗봇이 반복해서 "나중에 다시 시도하세요"라고 제안할 수 있습니다. 이처럼 입력 행동과 출력 행동 모두, 그리고 기저의 프로세스도 덜 이해되기 때문에, 개발자는 행동을 처방하기보다는 기대해야 합니다.

두 번째 차이는 에이전시-제어 트레이드오프(Agency-Control Tradeoff) 입니다. 많은 기업들이 자율적으로 작업을 수행할 수 있는 AI 에이전트 구축에 집착합니다. 그러나 의사결정 능력이나 자율성을 AI 시스템에 위임할 때마다, 인간의 제어력을 어느 정도 포기하게 됩니다. AI 에이전트가 이러한 의사결정 권한을 얻기 위해서는 신뢰를 구축하고 충분히 신뢰할 수 있어야 합니다. 이 트레이드오프는 AI 제품 구축을 시작할 때 매우 중요합니다.

이는 마치 요세미티의 하프돔 등산을 훈련하는 것과 같습니다. 첫 날부터 정상을 목표로 올라가는 것이 아니라, 작은 산부터 시작해서 천천히 능력을 향상시키는 것입니다.

비결정성이 의미하는 바

비결정성은 사용자 경험이 매번 다를 수 있다는 것을 의미합니다. 사용자는 다른 응답, 다른 출력, 다른 채팅 대화, 심지어 다른 UI(AI가 UI를 설계하는 경우)를 경험할 수 있습니다. 이는 분명 도전 과제이지만, 동시에 AI의 가장 아름다운 부분 이기도 합니다.

우리는 모두 버튼을 누르는 것보다 말하는 것이 훨씬 더 편합니다. AI 제품을 사용하는 진입 장벽이 매우 낮은 이유는 인간과 대화하는 것처럼 자연스럽게 소통할 수 있기 때문입니다. 그러나 이것이 동시에 문제를 야기합니다.

우리는 수많은 방식으로 의사소통하며, 의도가 제대로 전달되고 올바른 행동이 취해지기를 원합니다. 그런데 대부분의 시스템은 결정적(deterministic)이고, 결정적 결과를 달성하기를 원합니다. 비결정적 기술로 결정적 결과를 얻으려고 할 때 복잡성이 증가합니다. 이것이 AI 제품 개발을 어렵게 만드는 핵심입니다.

단계적 접근: 낮은 에이전시에서 높은 에이전시로

왜 작은 것부터 시작해야 하는가

AI 제품을 구축할 때는 절대로 첫날부터 모든 도구와 회사의 모든 컨텍스트를 갖춘 에이전트를 만들어서는 안 됩니다. 이러한 접근은 실패로 이어집니다. 대신, 의도적으로 최소한의 영향도와 높은 인간 제어가 있는 곳부터 시작해야 합니다.

작은 규모로 시작하면 현재 역량이 무엇인지, 그리고 이를 통해 무엇을 할 수 있는지를 이해할 수 있습니다. 그런 다음 점차적으로 더 많은 에이전시를 도입하고 제어를 줄여갑니다. 이를 통해 특정 문제를 직면하고 있고 AI가 그 정도까지 해결할 수 있다는 확신을 얻을 수 있습니다. 그 다음에는 어떤 컨텍스트를 추가할지, 어떤 도구를 추가할지를 생각할 수 있습니다.

좋은 측면은 외부 세계의 복잡성, 예를 들어 정교한 AI 에이전트의 복잡성을 보고 "나는 그것을 할 수 없다"고 느낄 필요가 없다는 것입니다. 모두가 매우 미니멀한 구조에서 시작하여 진화합니다. 이것은 회사에 원클릭 에이전트를 구축하려고 할 때, 이 모든 복잡성에 압도되지 않고 천천히 단계를 올라갈 수 있다는 것을 의미합니다.

실제 사례: 고객 지원 에이전트

가장 중요하고 널리 적용되는 AI 에이전트 애플리케이션 중 하나는 고객 지원입니다. 고객 지원 티켓이 많은 회사를 상상해 봅시다. 실제로 OpenAI는 Image와 GPT-5 같은 성공적인 제품을 출시했을 때 정확히 이 상황에 직면했습니다. 지원 요청 량이 급증했고, 고객들이 가져오는 문제의 종류가 달랐습니다.

이는 단순히 모든 헬프 센터 기사를 AI 에이전트에 집어넣는 것이 아닙니다. 먼저 무엇을 구축할 수 있는지 이해해야 합니다.

초기 단계 - 제안 모드(V1): 인간 지원 담당자는 여전히 직접 작업하지만, AI가 "이것이 올바른 대응이라고 생각합니다"라고 제안합니다. 인간 담당자로부터 피드백을 받습니다: "이것은 이 경우 좋은 제안입니다" 또는 "이것은 나쁜 제안입니다." 그런 다음 문제점과 맹점을 파악하고 이를 수정하는 방법을 이해합니다.

중간 단계 - 코파일럿 모드(V2): 이를 해결한 후, 자율성을 높일 수 있습니다. "인간에게 제안할 필요가 없습니다. 고객에게 직접 답변을 표시하겠습니다." 이 단계에서 고객은 AI가 제안한 답변을 직접 받게 됩니다.

최종 단계 - 완전 자동화(V3): 그런 다음 더 많은 복잡성을 추가합니다. "처음에는 헬프 센터 기사를 기반으로만 답변했지만, 이제 새로운 기능을 추가할 수 있습니다. 예를 들어, 고객에게 환불을 발급하거나 엔지니어링 팀에 기능 요청을 제출할 수 있습니다."

첫날부터 모든 것을 시작하면, 복잡성을 제어하기가 매우 어렵습니다. 따라서 단계적으로 구축하고 점차적으로 향상 시킬 것을 권장합니다.

다른 예시들

코딩 어시스턴트의 진화:

V1: 인라인 완성 및 보일러플레이트 스니펫만 제안
V2: 테스트 또는 리팩토링 같은 더 큰 블록을 생성하고 인간이 검토
V3: 변경 사항을 적용하고 PR을 자동으로 열기

마케팅 어시스턴트의 진화:

V1: 이메일 또는 소셜 복사본 초안 작성 ("이것이 내가 할 일입니다")
V2: 다단계 캠페인 구축 및 캠페인 실행
V3: 캠페인 시작, A/B 테스트, 채널 전체에서 자동으로 캠페인 최적화

의료 보험 사전 승인(Pre-Authorization)의 진화:
보험 사전 승인은 AI의 적절한 사용 사례입니다. 임상의는 혈액 검사, MRI 등을 승인하기 위해 많은 시간을 소비합니다. 그러나 모든 경우가 같지는 않습니다.

낮은 위험 케이스(V1-V2): MRI와 혈액 검사는 환자 정보만 있으면 승인하기 쉽습니다. AI가 이를 자동으로 처리할 수 있습니다.
높은 위험 케이스(V3): 침습적 수술 같은 경우는 더 높은 위험이 있으므로 인간이 개입하는 루프를 통해 처리해야 합니다.

이 과정 전반에서, 인간이 하는 일을 로깅합니다. 왜냐하면 시스템을 개선하기 위해 사용할 수 있는 플라이휠을 구축하고 싶기 때문입니다. 본질적으로 사용자 경험을 해치지 않으며, 신뢰를 훼손하지 않으면서, 동시에 시스템을 지속적으로 개선하기 위해 인간이 할 일을 로깅합니다.

성공적인 AI 제품 구축의 핵심 패턴

성공의 삼각형: 리더십, 문화, 기술

성공적인 AI 제품을 구축하는 회사들을 살펴보면, 기술 문제보다는 근본적으로 사람 문제 입니다. 우리의 경험에 따르면, 세 가지 차원이 일관되게 나타납니다:

1. 훌륭한 리더십

많은 리더들은 10년 또는 15년에 걸쳐 강력한 직관을 구축했으며, 이러한 통찰력으로 높은 평가를 받습니다. 그러나 AI가 등장하면서 이러한 직관을 재평가해야 합니다. 리더들은 이를 수행할 만큼 충분히 취약해야 합니다.

예를 들어, Rackspace의 CEO는 매일 아침 4시부터 6시까지 "AI 따라잡기"라는 시간을 따로 두어 최신 팟캐스트와 정보를 파악합니다. 심지어 주말에 "와이핑 코딩" 세션을 진행합니다.

리더들은 더욱 실무적(hands-on)이어야 합니다. 반드시 모든 것을 직접 구현할 필요는 없지만, 직관을 재구축해야 합니다. 그들의 오랫동안 보유한 직관이 항상 옳지는 않을 수 있다는 생각에 편해져야 하고, 모든 사람으로부터 배우려는 의지를 가져야 합니다. 이러한 학습 의지는 AI 제품을 성공적으로 구축하는 회사들을 구분하는 중요한 요소입니다.

종종 빌더들로부터 들려오는 말은 리더들이 AI의 전체 잠재력을 이해하지 못하거나, "와이핑 코딩"을 하고 프로덕션으로 가져가기가 쉽다고 가정한다는 것입니다. 리더들이 현재 AI의 역량을 이해하는 것은 회사 내 의사결정을 효과적으로 안내하기 위해 중요합니다.

2. 긍정적인 문화

문화가 엄청난 역할을 합니다. 우리는 AI가 주요 초점이 아니지만 경쟁 압박이나 특정 사용 사례로 인해 AI를 통합해야 하는 엔터프라이즈와 함께 일합니다. 많은 회사들은 "뜨거운 감자"(FOMO) 문화나 "당신은 대체될 것이다"는 내러티브를 조성합니다. 이는 직원들을 망설이게 만듭니다.

AI를 효과적으로 활용하기 위해서는 주제 전문가(Subject Matter Expert, SME)가 필수 입니다. 그들의 상담은 AI의 행동과 이상적인 결과를 이해하는 데 필수적입니다. 그러나 우리는 주제 전문가들이 참여하기를 꺼리는 회사들을 만났습니다. 그들의 직업이 위험에 처해 있다고 생각하기 때문입니다.

리더들은 직원들이 AI로 자신의 워크플로우를 강화하도록 장려하는 문화 를 조성해야 합니다. 이는 생산성을 10배로 늘릴 수 있습니다. 일자리 대체에 대한 두려움의 환경을 만들지 말아야 합니다. 실제로 AI는 그것이 닫는 것보다 더 많은 기회를 열어줍니다. 직원들이 더 많은 것을 성취할 수 있게 합니다.

3. 기술적 탁월성

성공적인 팀들은 자신의 워크플로우를 철저히 이해하고, AI 자동화에 적합한 부분과 여전히 인간 개입이 필요한 부분을 파악하는 데 집착합니다. 워크플로우의 어떤 부분을 자동화할 때, 그것은 단순히 모든 문제를 해결하기 위해 AI 에이전트를 배포하는 문제가 아닙니다. 일반적으로 머신러닝 모델이 일부 작업을 처리하고 결정적 코드가 다른 작업을 처리합니다. 따라서 워크플로우를 깊이 있게 이해하는 것이 올바른 도구를 선택하기 위해 가장 중요합니다.

평가(Evals) vs 프로덕션 모니터링

거짓 이분법 극복하기

커뮤니티 논의에서 "Evals가 모든 것을 해결하거나, 프로덕션 모니터링이 해결한다"는 거짓 이분법이 나타나고 있습니다. 우리는 어느 극단도 전적으로 신뢰할 이유가 없다고 봅니다.

평가(Evals) 는 본질적으로 제품에 대한 신뢰할 수 있는 이해, 즉 중요한 것이 무엇인지를 정의하는 데이터 세트입니다. 에이전트가 하면 안 되는 문제 유형을 정의하고, 에이전트가 이러한 영역에서 잘 수행되도록 하는 데이터 세트를 만드는 데 도움이 됩니다.

프로덕션 모니터링 은 애플리케이션을 배포하고 고객이 실제로 제품을 어떻게 사용하는지 추적합니다. 예를 들어, 고객이 에이전트의 상호작용에 엄지손가락을 올리면, 이를 알고 싶습니다. 프로덕션 모니터링은 제품에 오랫동안 존재했지만, AI 에이전트를 사용할 때는 훨씬 더 세밀한 수준에서 모니터링해야 합니다.

명시적인 고객 피드백만이 아니라, 암시적 피드백을 많이 수집할 수 있습니다. 예를 들어, ChatGPT에서 답변을 좋아하면 엄지손가락을 올릴 수 있습니다. 싫으면, 고객들은 종종 엄지손가락 내려를 하지 않지만, 대신 답변을 다시 생성합니다. 이는 초기 답변이 그들의 기대를 충족하지 못했다는 명확한 암시적 신호입니다.

문제 중심 접근법

원래 질문으로 돌아가면: Evals vs 프로덕션 모니터링? 다시 문제 중심 접근법 으로 돌아갑니다.

무엇을 구축하려고 하나요? 고객을 위해 안정적인 애플리케이션을 구축하려고 합니다. 이 애플리케이션은 일관되게 예상대로 수행되어야 합니다. 뭔가 잘못되면, 이를 해결할 준비가 되어 있어야 합니다.

우리는 이를 두 부분으로 나눕니다:

첫째: 아무도 실제로 테스트하지 않고 애플리케이션을 배포하지 않습니다. 이 테스트는 "바이브" 확인이거나, 변경에 관계없이 10가지 핵심 질문이 절대 실패하지 않아야 한다는 것을 보장하는 것일 수 있습니다. 우리는 이를 ** 평가 데이터 세트**라고 부릅니다.

둘째: 이제 배포했고, 올바르게 수행되고 있는지 이해해야 합니다. 높은 처리량 애플리케이션의 경우, 모든 단일 트레이스를 수동으로 평가할 수는 없습니다. 어떤 특정 영역에 주의가 필요한지 강조하는 일부 지표가 필요합니다. 이것이 정확히 ** 프로덕션 모니터링**이 중요한 이유입니다. 에이전트가 오작동할 수 있는 모든 가능한 방식을 예측할 수 없지만, 암시적 및 명시적 신호의 조합이 어떤 트레이스가 조사를 필요로 하는지 알려줄 것입니다.

프로덕션 모니터링은 이러한 문제들을 식별하는 데 도움이 됩니다. 이러한 트레이스를 가지면, 다양한 상호작용에서 관찰하는 실패 패턴을 검토해야 합니다. 절대 일어나면 안 되는 중요한 것이 있나요? 이러한 실패 모드를 식별하면, 이를 구체적으로 다루기 위해 평가 데이터 세트를 구축하는 것을 고려해야 합니다. 예를 들어, 에이전트가 명시적으로 구성되지 않았는데도 부당하게 환불을 제공하는 경우, 이 특정 시나리오를 다루기 위해 평가 데이터 세트를 만듭니다.

그 데이터 세트를 구축하고, 필요한 조정을 도구나 프롬프트에 하고, 제품의 새 버전을 배포한 후에도, 잠재적 문제를 모두 포착했다는 보장은 없습니다. 프로덕션 모니터링을 계속해야 하여 발생할 수 있는 다양한 종류의 문제들을 발견합니다.

따라서 평가 데이터 세트와 프로덕션 모니터링 모두 중요 합니다. 어느 하나가 모든 문제를 해결할 수 있다고 믿는 것은, 우리 의견으로는 완전히 거짓입니다.

지속적 보정 지속적 개발(CCCD) 프레임워크

프레임워크의 필요성

이 라이프사이클을 개발한 이유는 경쟁 압박을 받는 수많은 회사 때문입니다. 그들은 다른 회사들이 자율적 에이전트를 구축하는 것을 보고, 똑같이 해야 한다고 느낍니다. 우리는 결국 몇 가지 고객과 파트너하여 엔드-투-엔드 에이전트를 개발했습니다. 발견한 것은 사용자가 시스템과 상호작용하는 방식, 또는 AI가 생성할 수 있는 응답과 행동의 종류를 정확히 알 수 없는 상태에서 개발을 시작하면, 문제를 고치기가 극도로 어렵다는 것입니다.

4-5단계의 복잡한 워크플로우와 수많은 의사결정으로, 광범위한 디버깅과 지속적인 임시 수정이 필요합니다. 우리가 고객 지원 사용 사례를 구축했던 시점이 있었고, 이것이 우리의 뉴스레터에 나오는 바로 그 예입니다. 우리는 임시 수정의 거대한 양 때문에 제품을 종료해야 했습니다. 이것은 모든 이슈를 추적하거나 해결하기 불가능했습니다.

또한 온라인에서 여러 놀라운 사건들이 보도되었습니다. 예를 들어, 에어 캐나다는 자신들의 공식 플레이북의 일부가 아니었던 환불 정책을 에이전트가 환각(hallucinate)했던 상황을 경험했습니다. 그들은 법적으로 이를 준수할 의무가 있었습니다. 이러한 무서운 사건들은 이 프레임워크가 왜 그렇게 중요한지를 강조합니다. 고객 신뢰를 잃지 않으면서 어떻게 효과적으로 구축할 수 있을까요? AI 에이전트나 시스템이 회사에 해로운 의사결정을 하지 않도록 어떻게 보장할 수 있을까요? 동시에 계속 구축하려면?

이 플라이휠 모델 을 통해 제품을 지속적으로 개선할 수 있으며, 이것이 지속적 보정과 지속적 개발의 개념으로 이어졌습니다.

CCCD 프레임워크의 작동 방식

개념은 매우 간단합니다. 루프의 오른쪽은 지속적 개발 을 나타냅니다. 여기서 역량을 정의하고 데이터를 큐레이션합니다. 본질적으로 예상되는 입력과 출력의 데이터 세트를 생성합니다. 이것은 어떤 AI 제품을 시작하기 전에 훌륭한 연습이며, 종종 제품 행동에 대한 팀 간 불일치를 밝혀냅니다. 제품 관리자와 주제 전문가는 이 초기, 비록 포괄적이지는 않은, 데이터 세트 구축에 상당히 기여할 수 있습니다.

다음으로, 애플리케이션을 설정하고 적절한 평가 메트릭을 설계 합니다. 우리는 의도적으로 단순히 "evals"가 아니라 "평가 메트릭"을 사용합니다. 평가는 프로세스이고, 평가 메트릭은 그 프로세스 동안 초점을 두는 특정 차원입니다.

애플리케이션을 배포한 후, 이 평가 메트릭을 실행합니다. 이 사이클의 두 번째 부분은 지속적 보정 입니다. 여기서 초기 가정의 일부가 아니었던 예상 밖의 행동을 식별합니다. 개발을 시작할 때, 특정 데이터 세트에 최적화했지만, 사용자가 예측 불가능한 방식으로 시스템과 상호작용한다는 것을 자주 발견합니다. 이것은 보정이 필요합니다.

시스템을 배포한 후, 예상 밖의 패턴을 관찰하면, 평가 메트릭이 일부 통찰력을 제공해야 합니다. 그러나 때때로 이 메트릭들도 부족하며, 새로운, 예상하지 못한 오류 패턴을 밝혀냅니다. 이것은 행동을 분석하고 이러한 새로운 오류 패턴을 식별하는 데로 이어집니다. 그런 다음 식별된 문제에 대한 수정을 적용합니다. 새로운 패턴이 나타나면, 새로운 평가 메트릭도 설계합니다.

그러나 모든 문제가 새로운 메트릭을 필요로 하는 것은 아닙니다. 일부는 "스팟 오류"입니다—예를 들어, 정의가 불충분한 도구로 인한 도구 호출 오류—이는 수정 후 추가적인 반복적 메트릭 설계 없이 이동할 수 있습니다.

이것이 일반적으로 AI 제품 라이프사이클을 설명합니다. 핵심 포인트는 낮은 에이전시와 높은 제어 반복으로 시작한다는 것입니다. 이는 처음에는 AI 시스템의 의사결정을 제한하고 인간의 감시를 보장합니다. 점차적으로 행동의 플라이휠을 구축하면서 에이전시를 증가시키고 제어를 감소시킵니다. 사용 사례와 사용자 상호작용을 더 잘 이해합니다.

고객 지원 에이전트의 실제 예

V1 - 라우팅(Routing)

AI 에이전트가 정확하게 티켓을 분류하고 올바른 부서로 라우팅할 수 있나요? 누군가는 라우팅이 간단하다고 가정할 수 있지만, 엔터프라이즈 환경에서는 매우 복잡합니다. 유명한 소매 회사들은 보통 지저분하고 계층적인 분류법을 가집니다. 예를 들어, "신발", "여성 신발", "남성 신발"이 모두 같은 수준에 있을 수 있습니다. 이상적으로 "여성 신발"과 "남성 신발"은 "신발"의 하위 클래스여야 합니다. 또는 "여성을 위한" 및 "남성을 위한"이 "신발" 아래에 있지만, 제대로 집계되지 않은 중복 카테고리가 있을 수 있습니다.

이러한 문제들은 실제로 시스템을 구축하고 구현할 때까지 종종 주목되지 않습니다. 인간 담당자는 이러한 불일치를 식별할 수 있습니다—예를 들어, "여성을 위한"과 같은 노드가 2019년 이후 업데이트되지 않았음을 알아차리면서 그것이 구식이라고 알 수 있습니다. 그들은 다른, 활성 노드를 찾습니다.

이것은 에이전트나 모델이 이러한 뉘앙스를 이해할 수 없다는 것이 아닙니다. 그러나 엔터프라이즈는 종종 문서화되지 않은, 기이한 규칙을 가집니다. 목표는 에이전트에 모든 필요한 컨텍스트를 제공하는 것입니다. 불해결 문제를 제시하기보다는요.

V1으로 돌아가서, "라우팅"은 높은 제어를 유지합니다. 인간은 에이전트가 티켓을 잘못 라우팅하면 언제든 개입할 수 있습니다. 이 프로세스를 통해, 여러 데이터 품질 문제를 발견하고 다룹니다. 에이전트가 효과적으로 지원하도록 데이터 계층을 보장합니다.

V2 - 코파일럿(Copilot)

라우팅이 안정화되고 여러 반복 후 데이터 문제가 해결되면, 시스템은 고객 지원 담당자의 표준 운영 절차를 기반으로 제안을 제공하는 다음 단계로 진행할 수 있습니다.

고객 지원 담당자가 변경할 수 있는 초안만 생성할 수 있습니다. 이렇게 할 때, 인간의 행동도 로깅합니다. 고객 지원 담당자가 사용한 초안의 양, 생략한 것을 추적합니다. 이것은 효과적으로 무료 오류 분석을 제공합니다. 사용자가 하는 모든 것을 로깅하므로, 이를 플라이휠로 다시 공급할 수 있습니다.

V3 - 엔드-투-엔드 해결(End-to-End Resolution)

초안이 좋아 보이고 인간이 너무 많은 변경을 하지 않으면서, 초안이 그대로 사용되면, 이것이 엔드-투-엔드 해결 어시스턴트로 전환할 시기입니다. 해결책을 초안 작성하거나 완전히 티켓을 해결할 수 있습니다.

이들은 에이전시의 단계이며, 낮은 것에서 높은 에이전시로 진행합니다.

각 버전에서 테스트하고 배우기

각 버전에서 무엇을 테스트하는지, 다음 단계를 가능하게 하는 것을 배우는지, 그리고 어떤 정보를 다음 루프로 공급하는지를 설명하는 도움이 되는 테이블이 있습니다.

V1 - 라우팅 단계:

테스트: 시스템이 티켓을 안정적으로 분류하고 라우팅할 수 있나요?
배움: 사용자가 문제를 어떻게 설명하는지, 어떤 부서가 구분하기 어려운지, 어떤 메타데이터가 정말 유용한지
다음 단계에 공급: 라우팅 데이터를 정리하고 다음 반복을 위한 라우팅 결정을 명확히 합니다.

V2 - 코파일럿 단계:

테스트: 시스템이 고객 지원 담당자에게 유용한 초안을 제공할 수 있나요?
배움: 어떤 유형의 질문이 더 쉽거나 어려운지, 초안이 어떤 부분에서 실패하는지, 인간이 일반적으로 어떻게 수정하는지
다음 단계에 공급: 공통 수정 패턴을 식별하고 이를 기반으로 시스템을 개선합니다.

V3 - 엔드-투-엔드 해결:

테스트: 시스템이 최소한의 인간 개입으로 티켓을 해결할 수 있나요?
배움: 어떤 유형의 티켓이 자동화되기에 충분히 간단한지, 어떤 경우가 인간 개입이 필요한지
다음 단계에 공급: 더 복잡한 기능이나 도구를 추가할 때 우선순위를 정합니다.

성공의 핵심 원칙들

작은 것에서 시작하는 것의 이점

작은 규모로 시작할 때, 해결하려고 하는 핵심 문제에 대해 정말 생각해야 합니다. AI 발전의 모든 것 속에서, 쉬운 함정은 솔루션의 복잡성(평가 로직, 엣지 케이스, 버전 관리, 신뢰도 점수, 보호대책, 모니터링)만 생각하고 해결하려고 하는 핵심 문제를 ** 잊어버리는** 것입니다.

당신의 경쟁사들 중 첫 번째로 에이전트를 가지는 회사가 되는 것이 아닙니다. 시간이 지남에 따라 개선할 수 있도록 올바른 플라이휠을 갖춘 회사가 되는 것입니다.

많은 에이전트 제품들이 처음부터 완벽하지 않습니다. 학습, 구현, 무엇이 작동하고 무엇이 작동하지 않는지 이해하는 고통을 겪는 것이 특징입니다. 이 고통이 새로운 해자 입니다.

리더십의 역할

성공적인 AI 제품을 구축하는 데 있어 리더십의 역할을 과소평가할 수 없습니다. CEO나 창립자가 깊이 있게 관여하지 않으면, 회사는 AI 채택의 이점을 충분히 실현할 수 없습니다.

Dan Shipper와의 최근 대화에서 그는 CEO가 ChatGPT나 Claude 같은 도구와 하루에 여러 번 상호작용하는 것이 성공의 최고 예측 지표 라고 말했습니다.

현재 이용 가능한 정보를 고려할 때, 신뢰할 수 있는 고품질의 의견 출처를 선택하는 것이 중요 합니다. 모든 사람이 의견을 가지고 있기 때문입니다. Rackspace의 CEO는 단순히 두 세 개의 신뢰할 수 있는 출처로부터 일관되게 검사할 정보를 유지합니다. 그런 다음, 여러 AI 전문가들과 의논할 질문들의 범위를 통합합니다. 그들의 다양한 관점을 수집합니다. 이는 회사가 내리는 수많은 의사결정에 직접 영향을 미칩니다.

2026년의 AI 제품 개발 방향

코딩 에이전트의 미래

코딩 에이전트는 현재 과소평가되고 있습니다. Twitter와 Reddit에서 많은 이야기가 있지만, 특히 Bay Area 외부에서 실제 침투력과 영향은 여전히 낮습니다. 2025년과 2026년은 이러한 프로세스를 최적화하고 AI로 상당한 가치를 창출하기 위한 중심 연도가 될 것으로 예상됩니다.

제품 관점에서, 에이전트는 당신이 하고 싶은 것을 예상하고 당신보다 앞서 나갈 수 있게 되어가고 있습니다. ChatGPT Pulse 같은 것들이 이미 이를 하고 있습니다. 이것은 당신이 신경 쓸만한 것들에 대해 매일 업데이트를 제공합니다. 이것은 "오, 이건 내가 생각해보지 못한 것입니다. 아마 좋을 수도"라고 당신의 뇌를 깨우는 것이 좋습니다.

이제 이를 더 복잡한 작업으로 확장하면, 예를 들어 코딩 에이전트가 "좋아요, 당신의 선형 티켓 5개를 수정했고, 여기 패치들입니다, 아침에 검토해주세요"라고 말하는 경우, 이것이 극히 유용할 것입니다. 우리는 이것을 2026년에 제품들이 구축될 방향으로 봅니다.

멀티모달 경험의 부상

우리는 2026년의 멀티모달 경험에 완전히 찬성합니다. 2025년에 우리는 생성뿐만 아니라 이해 측면에서도 상당한 진전을 이루었습니다.

지금까지, LLM이 우리가 가장 흔히 사용하는 모델이었습니다. 그러나 인간으로서, 우리는 멀티모달 생물이라고 말할 수 있습니다. 언어는 아마도 우리의 진화의 마지막 형태 중 하나입니다. 우리 셋이 대화하고 있을 때, 우리는 계속해서 많은 신호들을 받고 있습니다. "오, Lenny가 고개를 끄덕이고 있으니까, 아마 이 방향으로 가야겠다" 또는 "Lenny가 지루해하는 것 같으니까, 말을 멈춰야겠다"고 생각할 수 있습니다.

당신의 사고 과정 뒤의 사고 과정이 있으며, 당신은 지속적으로 이를 변경하고 있습니다. 언어를 사용하면, 이 표현의 차원이 충분히 탐구되지 않습니다. 더 나은 멀티모달 경험을 구축할 수 있다면, 우리는 인간과 같은 대화 풍요로움에 더 가까워질 것입니다.

또한 많은 지루한 작업들이 AI에 적절합니다. 멀티모달 이해가 개선되면, 오늘날 최고의 모델들도 구문 분석할 수 없는 손으로 쓰인 문서와 엉망인 PDF가 너무 많습니다. 이것이 가능하면, 우리가 활용할 수 있는 엄청난 양의 데이터가 있을 것입니다.

성공하기 위해 개발할 기술들

취향, 판단, 일관성

좋은 AI 제품 구축을 위한 많은 최고의 실천법을 다루었습니다. 작은 것에서 시작하고, 반복을 잘하려고 하며, 플라이휠을 구축하는 등의 것들입니다.

그러나 10,000피트 높이에서 보면, 오늘날 구축하는 누구든, 향후 몇 년 동안 구현이 터무니없이 저렴해질 것입니다. 정말로 당신의 설계, 판단, 취향 등을 못박아야 합니다.

일반적으로, 당신의 경력을 구축하고 있다면, 당신의 처음 2-3년은 항상 실행, 메커닉 등에 초점을 맞춥니다. 이제 우리에게는 당신이 상당히 빨리 진행할 수 있도록 도와주는 AI가 있습니다. 몇 년 후, 우리는 모두 당신의 취향, 판단, 그리고 당신이 유일하게 가져오는 것의 문제가 됩니다.

이 부분에 못박으려고 시도하고, 그런 관점을 어떻게 가져올 수 있는지 파악하세요. 당신이 꽤 오래되거나 많은 경험이 없어도 됩니다.

우리는 최근 누군가를 고용했고, 우리는 작업 추적을 위해 이 매우 인기 있는 앱을 사용하고 있으며, 우리는 이 앱을 몇 년 동안 사용하고 있으며, 높은 구독료를 지불합니다. 이 사람은 자신의 맞춤형 앱을 미팅에 가져왔습니다. 그는 우리를 모두 온보딩했고, "좋아, 이것을 사용해봅시다"라고 말했습니다. 내가 생각한 것이 없었어요. 어떤 방식으로 일해왔다면, 당신은 구축 비용과 관련이 있습니다. 그리고 우리는 이 시대에 자라난 사람들이 그들의 마음 속에 구축과 관련된 훨씬 더 낮은 비용을 가지고 있다고 느낍니다. 그들은 단지 뭔가를 구축하고 계속하는 것을 신경 쓰지 않습니다. 그들은 또한 새로운 도구를 시도하는 것에 매우 열정적입니다.

이것은 아마도 AI 제품들이 이 보유 문제를 가지는 이유일 수도 있습니다. 왜냐하면 모든 사람이 이러한 새로운 도구들을 시도하는 데 너무 흥분하기 때문입니다. 그러나 본질적으로, 에이전시와 소유권을 가지고 있고, 경험을 정말로 다시 생각하는 것이, 모두가 차별화될 것입니다. 우리는 또한 "바쁜 일" 시대의 끝이 갈 것으로 생각합니다. 당신은 모서리에 앉아 회사에 바늘을 움직이지 않는 무언가를 하고 있을 수 없습니다. 당신은 정말로 엔드-투-엔드 워크플로우와 어떻게 더 많은 영향을 가져올 수 있는지에 대해 생각해야 합니다.

인내심과 고통이 새로운 해자

특히 AI 제품을 구축할 때 인내심도 매우 중요합니다. 특히 누군가가 뭔가를 구축하고 싶으면, 정보가 당신의 손가락 끝에 있습니다. 지난 십년 보다도요. 당신은 밤새 뭔가를 배우고 그런 Iron Man이 될 수 있습니다.

그러나 이것을 통해 인내심을 가지고, 학습의 고통, 이를 구현하는 것, 무엇이 작동하고 무엇이 작동하지 않는지 이해하는 것을 통해, 그리고 당신이 여러 접근법을 개발하고 문제를 해결하는 이 고통을 통해 진행합니다. 이것이 개인으로서의 실제 해자가 될 것입니다.

우리는 이를 "고통이 새로운 해자"라고 부릅니다. 회사로서, 새로운 영역에서 구축하고 있는 성공적인 회사들은 성공한 것이 아닙니다. 왜냐하면 그들이 시장에 처음이거나, 고객들이 더 좋아하는 멋진 기능이 있기 때문입니다. 그들은 무엇이 협상 불가능한 지, 그들이 그 문제를 해결하기 위해 사용할 수 있는 모델 역량이 무엇인지 이해하는 고통을 겪었습니다.

이것은 직선적인 프로세스가 아닙니다. 이것을 하기 위한 교과서나 직선적인 방법이 없습니다. 그래서 우리가 말하는 많은 고통은 "좋아요, 이것을 시도해봅시다. 이것이 작동하지 않으면, 이것을 시도해봅시다"라는 반복을 통해 진행합니다. 조직 전체 또는 당신의 자신의 경험을 통해 구축하는 이 지식이 회사의 해자입니다. 이것은 평가이거나, 또는 당신이 구축한 것일 수 있습니다. 이것이 게임 체인저가 될 것입니다.

결론

AI 제품 개발은 도전적이지만, 올바른 접근법을 따르면 충분히 관리 가능합니다. 작은 것에서 시작하고, 단계적으로 진화시키며, 지속적으로 보정하고, 문제에 집중하세요.

가장 중요한 것은, AI는 단순한 도구 일 뿐이라는 사실입니다. 해결하려고 하는 실제 문제, 고객의 실제 필요, 그리고 워크플로우의 실제 이해에 집중하세요. 80% AI 엔지니어와 PM은 가장 멋진 모델이나 워크플로우를 구축하는 것보다 자신들의 워크플로우를 정말 잘 이해하는 데 시간을 보냅니다.

이 여정은 쉽지 않을 것입니다. 고통이 있을 것입니다. 학습할 것이 많을 것입니다. 하지만 이 고통을 통해서만 진정한 경쟁 우위를 구축할 수 있습니다. 당신의 고객을 집착적으로 이해하고, 문제에 집중하고, 당신의 일을 하세요. 이것이 AI 제품 개발의 성공 비결입니다.

Original source: https://www.youtube.com/watch?v=z7T1pCxgvlA

powered by osmu.app

AI 제품 개발 완벽 가이드: 성공적인 AI 에이전트 구축법

AI 제품 개발 완벽 가이드: 성공적인 AI 에이전트 구축법

핵심 요약

AI 제품 개발의 근본적 차이점

AI와 전통 소프트웨어의 본질적 차이

비결정성이 의미하는 바

단계적 접근: 낮은 에이전시에서 높은 에이전시로

왜 작은 것부터 시작해야 하는가

실제 사례: 고객 지원 에이전트

다른 예시들

성공적인 AI 제품 구축의 핵심 패턴

성공의 삼각형: 리더십, 문화, 기술

평가(Evals) vs 프로덕션 모니터링

거짓 이분법 극복하기

문제 중심 접근법

지속적 보정 지속적 개발(CCCD) 프레임워크

프레임워크의 필요성

CCCD 프레임워크의 작동 방식

고객 지원 에이전트의 실제 예

각 버전에서 테스트하고 배우기

성공의 핵심 원칙들

작은 것에서 시작하는 것의 이점

리더십의 역할

2026년의 AI 제품 개발 방향

코딩 에이전트의 미래

멀티모달 경험의 부상

성공하기 위해 개발할 기술들

취향, 판단, 일관성

인내심과 고통이 새로운 해자

결론

관련 포스트

(Tom Tunguz) AI 추론 시장이 2,500억 달러로 폭발하는 이유: SaaS 기업 생존 전략

OpenAI Codex 완벽 가이드: 개발자가 꼭 알아야 할 모든 것

AI 네이티브 개발자 되는 법: 안드레 카파시가 말하는 소프트웨어 3.0

(Tom Tunguz) AI 이메일 비용 완벽 분석: 월 22~130달러 절감 전략

클로드 디자인 완벽 가이드: PPT·웹사이트 7가지 실전 예제

AI로 5억 재고 문제 해결한 방법 | 클로드 코드 실전 사례

댓글 (0)