AI 제품 개발에서 사용자가 겪기 전에 실패를 찾는 방법. 마릴리 니카 박사가 공개한 주간 의식과 5가지 품질 전략으로 AI PM 역량을 높이세요.
# AI 제품 감각을 빠르게 키우는 방법: 메타·구글 AI PM의 실패 모드 발견 프레임워크
## 핵심 요약
- **AI 제품 감각(Product Sense with AI)**은 확률 모델을 신뢰할 수 있는 제품으로 변환하는 능력으로, 메타와 구글 같은 대형 기술 회사에서 PM 채용의 필수 역량이 되었습니다
- 생성 모델이 실패할 수 있는 숨겨진 패턴을 찾아내는 구체적인 의식과 프레임워크를 통해 사용자 경험을 보호할 수 있습니다
- 최소 실행 가능 품질(MVQ) 개념과 세 가지 핵심 임계값을 정의하면 AI 기능 출시 판단을 객관적으로 할 수 있습니다
- 품질 기준을 조정하는 5가지 전략적 맥락 요인을 이해하면 비즈니스 목표와 사용자 만족도의 균형을 맞출 수 있습니다
- AI 안전장치 설계와 비용 추정의 조기 실행으로 예측 불가능한 문제를 미리 방지할 수 있습니다
## AI 제품 감각이 중요해진 이유
생성 AI와 대규모 언어 모델(LLM)이 모든 산업을 빠르게 변화시키고 있습니다. 하지만 AI 기능을 좋은 제품으로 만드는 것은 전통적인 제품 관리와는 완전히 다릅니다. 메타, 구글, OpenAI 같은 선도 기업들이 채용 과정에 "AI 제품 감각"이라는 새로운 평가 항목을 추가한 이유가 바로 이것입니다.
**AI 제품 감각이란 무엇인가요?** 이는 단순히 AI 기술을 이해하는 것이 아닙니다. 확률 기반 모델이 실제로 어떻게 동작하는지 깊이 있게 파악하고, 그것이 사용자 경험에 미치는 영향을 예측하며, 시스템의 약점을 찾아내기 전에 제거할 수 있는 능력입니다.
전통적인 소프트웨어는 결정론적입니다. 같은 입력이 항상 같은 출력을 만듭니다. 하지만 AI 모델은 확률적이므로, 예측 불가능한 방식으로 실패할 수 있습니다. 사용자는 때때로 형편없는 응답을 받을 수 있고, 그것이 얼마나 자주 발생하는지, 그리고 사용자에게 미치는 영향이 얼마나 심한지는 사전에 이해해야 합니다.
메타와 구글이 이 역량을 중요시하는 이유는 단순합니다. **AI 기반 제품 실패는 사용자 신뢰도에 직결되고, 이는 곧 회사의 평판과 수익에 영향을 미치기 때문입니다.** 따라서 AI PM은 모델의 약점을 먼저 발견하고, 사용자가 그것을 경험하기 전에 설계와 안전장치로 보호해야 합니다.
## 숨겨진 실패 모드를 찾아내는 의식과 프레임워크
가장 위험한 AI 실패는 통계적으로 드문 경우입니다. 예를 들어, ChatGPT가 99%의 경우 정확한 정보를 제공하더라도, 사용자가 중요한 의사결정에 그 1% 오류를 믿고 사용했다면 시스템은 실패한 것입니다.
마릴리 니카 박사가 제시하는 **실패 모드 발견 의식**은 다음과 같이 작동합니다:
### 1단계: 모델의 한계 시나리오 정의하기
먼저 모델이 가장 실패하기 쉬운 상황을 체계적으로 나열합니다. 예를 들어:
- 매우 드문 엣지 케이스(edge case)에서의 동작
- 모델 훈련 데이터에 포함되지 않은 새로운 주제나 맥락
- 모순되거나 불완전한 정보가 주어진 경우
- 사용자의 의도가 모호하거나 다중해석이 가능한 경우
### 2단계: 각 시나리오에서 발생 가능한 구체적 실패 형태 분석
모델이 단순히 "틀린 답"을 주는 것뿐만 아니라, 다양한 방식으로 실패할 수 있음을 이해해야 합니다:
- **할루시네이션(Hallucination)**: 완전히 거짓된 정보를 자신감 있게 제시
- **편향된 응답(Bias)**: 특정 그룹이나 관점을 부당하게 우대
- **맥락 손실(Context Loss)**: 긴 대화에서 중요한 이전 정보를 무시
- **톤 불일치(Tone Mismatch)**: 상황에 부적절한 감정이나 스타일로 응답
### 3단계: 위험도 평가 및 우선순위 지정
모든 실패가 동등하게 나쁜 것은 아닙니다. 일부 실패는 사용자 경험을 약간 해치지만, 일부는 법적 책임이나 큰 안전 문제를 야기할 수 있습니다. 의료, 금융, 법률 분야의 AI 실패는 일반 채팅 실패보다 훨씬 심각합니다.
### 4단계: 각 실패 시나리오별 보호 메커니즘 설계
이 단계가 가장 중요합니다. 단순히 실패 가능성을 인정하는 것만으로는 충분하지 않습니다. PM은 각 실패에 대응하는 구체적인 설계를 해야 합니다:
- 모델 출력에 신뢰도 점수 표시
- 사용자에게 "이것은 AI가 생성한 내용이며 검증이 필요할 수 있습니다"라는 명시적 경고
- 사용자가 모델의 추론 과정을 이해할 수 있는 설명 기능(Explainability)
- 핵심 분야에서는 인간 전문가의 검증 단계 추가
마릴리가 강조하는 핵심은 다음과 같습니다: **생성 모델이 실패하는 가장 많은 경우는 자신감 있게 틀린 구조를 만들어냅니다.** 따라서 높은 신뢰도 점수를 받은 응답일수록 더 주의 깊게 검증해야 합니다.
## 최소 실행 가능 품질(MVQ)과 세 가지 임계값 정의하기
전통적인 제품 관리에는 "최소 실행 가능 제품(MVP)"이라는 개념이 있습니다. 가장 기본적인 기능만으로 시장에 출시하고 사용자 피드백을 받는다는 의미입니다.
하지만 **AI 제품에서는 MVP보다 "최소 실행 가능 품질(MVQ, Minimum Viable Quality)"을 먼저 정의해야 합니다.** MVP는 기능의 범위에 관한 것이지만, MVQ는 그 기능이 얼마나 잘 작동해야 하는가에 관한 것입니다.
### MVQ의 세 가지 핵심 임계값
**1. 최소 정확도 임계값(Minimum Accuracy Threshold)**
모델이 달성해야 하는 최소 정확률은 무엇인가요? 예를 들어:
- 의료 진단 AI: 95% 이상의 정확도가 필요할 수 있습니다
- 이메일 스팸 필터: 95% 이상의 정확도가 필요하지만, 중요한 이메일을 스팸으로 분류하면 안 되므로 실제로는 "거짓 양성율(False Positive Rate)" 제어가 더 중요
- 콘텐츠 추천: 70% 정도의 관련성만 해도 충분할 수 있습니다
### 2. 신뢰도 범위 임계값(Confidence Range Threshold)**
모델이 제시하는 신뢰도(또는 확신도)가 실제 정확도와 일치해야 합니다. 예를 들어:
- 모델이 "90% 확신한다"고 했을 때, 실제로 90번 중 약 90번 정도 맞아야 합니다
- 이를 "보정(Calibration)"이라고 합니다
- 모델이 과자신(Overconfident)하면 사용자는 틀린 정보를 신뢰하게 됩니다
### 3. 응답 속도 및 레이턴시 임계값(Latency Threshold)**
모델이 얼마나 빠르게 응답해야 하나요?
- 실시간 채팅: 2초 이내
- 이메일 필터: 수 밀리초
- 백그라운드 분석: 몇 초 또는 몇 분도 괜찮을 수 있습니다
이 세 가지 임계값을 정의하면, PM은 객관적으로 "이 모델이 출시할 준비가 되었는가?"를 판단할 수 있습니다.
## 품질 기준을 조정하는 5가지 전략적 맥락 요인
실제로 MVQ 임계값은 고정된 수치가 아닙니다. 비즈니스 상황, 시장 경쟁, 사용자 기대치에 따라 조정될 수 있습니다. 마릴리가 제시하는 5가지 맥락 요인은 다음과 같습니다:
### 요인 1: 문제의 심각성(Severity of Problem)
같은 정확도의 모델이라도, 그것이 해결하는 문제의 중요도에 따라 요구되는 품질이 다릅니다.
- **높은 심각성**: 의료, 금융, 법률 = 더 높은 품질 기준 필요
- **중간 심각성**: 이커머스, 고객 서비스 = 중간 수준의 품질
- **낮은 심각성**: 엔터테인먼트, 일반 정보 = 더 낮은 품질도 허용 가능
### 요인 2: 사용자 기대치(User Expectations)**
사용자가 AI에 대해 얼마나 높은 기대를 가지고 있는가?
- 의료 전문가는 AI 진단 도구에 매우 높은 기준을 적용합니다
- 대학생은 ChatGPT의 에세이 작성 도움에 대해 더 관대할 수 있습니다
- 다만 사용자가 모르는 것은 "이것은 AI입니다"라는 명시를 통해 기대치를 조정할 수 있습니다
### 요인 3: 경쟁 환경(Competitive Landscape)**
경쟁사 제품은 어떤 수준의 품질을 제공하고 있나요?
- 만약 경쟁사가 90% 정확도를 제공한다면, 당신도 최소 그 수준 이상이어야 합니다
- 하지만 만약 당신의 AI가 고유한 가치(예: 더 빠른 속도, 더 낮은 비용)를 제공한다면, 품질 기준을 약간 낮출 수 있습니다
### 요인 4: 비용 효율성(Cost Efficiency)**
높은 품질을 유지하는 비용이 얼마나 많이 드는가?
- 더 큰 모델, 더 많은 훈련 데이터, 더 복잡한 검증 프로세스 = 더 높은 비용
- 만약 높은 품질 달성의 비용이 수익 모델과 맞지 않으면, PM은 다른 전략을 선택해야 합니다
- 예를 들어, "95% 정확도로 프리미엄 사용자에게 서비스하고, 70% 정확도로 무료 사용자에게 서비스"하는 방식
### 요인 5: 규제 및 법적 요구사항(Regulatory Requirements)**
업계 규정이 최소 품질 기준을 정하고 있나요?
- 의료 기기: FDA 승인 필요, 매우 높은 기준
- 금융 AI: GDPR, SOX 같은 규제 준수 필요
- 일반 소비자 제품: 더 낮은 규제 부담
이 5가지 요인을 분석하면, PM은 단순히 "가능한 한 좋은 모델을 만들자"가 아니라, **"주어진 상황에서 가장 적절한 품질 수준을 전략적으로 선택"할 수 있습니다.**
## AI 기능의 비용을 조기에 추정해야 하는 이유
많은 AI PM들이 범하는 실수는 "모델 정확도"는 신경 쓰지만, **"그 정확도를 유지하는 비용"을 무시한다는 것입니다.**
### AI 기능의 숨겨진 비용들
**1. 모델 크기와 계산 비용**
- 더 큰 모델 = 더 높은 정확도 (대부분의 경우)
- 더 큰 모델 = 더 높은 인프라 비용 (서버, GPU, 에너지)
- 예: GPT-4는 GPT-3.5보다 훨씬 정확하지만, API 가격이 10배 더 비쌉니다
**2. 데이터 라벨링 및 큐레이션 비용**
- 모델을 더 정확하게 만들려면 더 많은 고품질 훈련 데이터가 필요
- 데이터 라벨링은 대규모 비용이 들 수 있습니다 (인간 전문가 고용)
**3. 지속적인 모니터링 및 유지보수 비용**
- 모델의 성능은 시간이 지나면 저하될 수 있습니다 (모델 드리프트)
- 지속적인 모니터링, 재훈련, 업데이트 필요
- 새로운 사용 사례나 엣지 케이스에 대한 대응
**4. 안전장치 및 검증 시스템 비용**
- 높은 신뢰성을 위해서는 인간 검증 단계가 필요할 수 있습니다
- 예: 의료 AI는 의사의 최종 검증 단계를 거쳐야 하므로, 이는 상당한 운영 비용입니다
### 비용 추정의 조기 실행이 중요한 이유
만약 PM이 모델 개발 후반부나 출시 직전에 "아, 이 모델을 운영하는 데 매월 $1백만이 든다"는 것을 깨닫는다면, 이미 늦었습니다. 비용이 수익 모델과 맞지 않으면 제품 자체가 실패합니다.
**올바른 접근 방식:**
1. 원하는 정확도 수준을 정한다
2. 그 정확도를 달성하는 데 필요한 모델 크기, 데이터, 인프라를 추정한다
3. 그에 따른 월별 운영 비용을 계산한다
4. 그 비용이 수익 모델과 맞는지 판단한다
5. 맞지 않으면, 정확도 목표를 낮추거나, 수익 모델을 변경하거나, 다른 기술을 고려한다
마릴리의 경험에 따르면, 많은 스타트업과 심지어 대기업 내부 팀들도 이 단계를 건너뜁니다. 결과적으로 훌륭한 기술이 나쁜 비즈니스 결정으로 인해 실패합니다.
## 모델의 단점으로부터 사용자를 보호하는 안전장치 설계
AI 모델이 완벽할 수 없다는 것을 인정한다면, PM의 책임은 **"그 불완전함에도 불구하고 사용자를 보호하는 설계"를 하는 것입니다.**
### 안전장치 설계의 5가지 전략
**1. 명시적 한계 공개(Explicit Limitation Disclosure)**
사용자에게 명확하게 말합니다:
- "이 AI는 의료 조언을 제공하지 않습니다. 의사의 진단을 대체할 수 없습니다."
- "이 추천은 과거 데이터 기반이며, 미래를 보장하지 않습니다."
- "이 번역은 전문 번역가의 검수를 거치지 않았습니다."
**2. 신뢰도 점수 표시(Confidence Score Display)**
모델의 신뢰도를 사용자에게 시각적으로 표시합니다:
- 초록색(높은 신뢰도) vs. 노란색(중간) vs. 빨간색(낮은 신뢰도)
- 수치로 표시: "이 답변의 신뢰도는 78%입니다"
- 하지만 이것은 모델이 실제로 얼마나 정확한지를 정직하게 반영해야 합니다 (보정 필수)
**3. 인간 개입 단계(Human-in-the-Loop)**
중요한 결정에서는 사람의 검증을 추가합니다:
- 예: 고액 금융 거래 → AI 추천 → 재무 담당자 최종 승인
- 예: 의료 진단 → AI 분석 → 의사 검토 및 최종 결정
**4. 사용자 피드백 및 이의제기 시스템(Feedback and Appeal System)**
사용자가 AI의 결정에 이의를 제기할 수 있는 메커니즘:
- "이 추천이 부정확합니다"라고 표시할 수 있음
- 이의가 제기된 사항은 AI PM과 ML 엔지니어가 검토
- 큰 규모의 이의는 모델 재훈련의 신호
**5. 점진적 출시 및 A/B 테스트(Gradual Rollout and A/B Testing)**
모든 사용자에게 동시에 배포하지 않습니다:
- 초기 5% 사용자에게만 출시
- 그들의 피드백과 성능 데이터 수집
- 문제가 없으면 10%, 25%, 50% 등으로 확대
- A/B 테스트를 통해 AI 모델 vs. 기존 방식 비교
이러한 안전장치들은 모두 비용이 듭니다. 하지만 **AI 기반 제품의 한 번의 큰 실패는 회사의 평판 손상과 법적 책임으로 이어질 수 있으므로, 이 투자는 필수적입니다.**
## 실제 AI 제품 실패의 4가지 패턴과 대응 방법
마릴리 니카가 구글과 메타에서 경험한 실제 사례들을 분석하면, 대부분의 AI 제품 실패는 4가지 패턴으로 분류됩니다.
### 패턴 1: 할루시네이션(Hallucination) - "존재하지 않는 것을 발명하기"
**문제:** 생성 모델이 훈련 데이터에 없는 정보를 마치 있는 것처럼 생성합니다.
- ChatGPT가 존재하지 않는 학술 논문을 인용
- AI가 실제로 일어나지 않은 역사적 사건 설명
- 음성 비서가 없는 기능이 있다고 주장
**심각성:** 사용자가 이것이 할루시네이션임을 모르면, 신뢰도가 크게 훼손됩니다.
**대응 방법:**
- 모델에 "검색(Retrieval)" 기능 추가 → 실제 정보 소스에서 답변 검증
- 사용자에게 출처(Citation) 제시 → "이 정보는 Wikipedia에서 출처함"
- 신뢰도가 낮은 답변에는 명시적 경고 추가
- 특히 팩트(사실)에 관한 질문에서는 인간 검증 단계 추가
### 패턴 2: 편향(Bias) - "특정 그룹에 대한 불공정한 대우"
**문제:** 훈련 데이터의 편향이 모델에 반영됩니다.
- 채용 AI가 여성 지원자를 더 낮게 평가
- 대출 승인 AI가 특정 지역의 신청자를 차별
- 얼굴 인식 AI가 어두운 피부 사람을 덜 정확하게 인식
**심각성:** 매우 높습니다. 차별은 법적 책임과 평판 손상을 야기합니다.
**대응 방법:**
- 훈련 데이터 분석 및 편향 제거 (데이터 정제)
- 다양한 그룹에 대한 정확도 검증 → 모든 그룹에서 동일 성능 확인
- 편향 테스트 자동화 → 배포 전 매번 검증
- 투명성 보고서 공개 → "우리의 AI는 이 그룹에서 얼마나 정확한가?"
### 패턴 3: 문맥 이해 부족(Context Misunderstanding) - "상황을 잘못 해석하기"
**문제:** 모델이 사용자의 진정한 의도나 상황을 이해하지 못합니다.
- 고객이 "이 제품 정말 최악이네"라고 부정적 평가 → AI가 이를 긍정으로 잘못 분석
- 의료 챗봇이 "두통이 있어"라는 말을 뇌종양 증상으로 오진
- 감정 분석 AI가 아이러니나 조크를 진심으로 해석
**심각성:** 중간~높음 (특히 의료, 고객 서비스에서)
**대응 방법:**
- 더 많은 문맥 정보 활용 → 긴 대화 이력, 사용자 프로필, 이전 상호작용
- 사용자에게 확인 요청 → "당신이 원하는 것이 이것인가요?"
- 여러 해석이 가능할 때는 선택지 제시 → 사용자가 직접 선택
- 전문 도메인(의료, 법률)에서는 인간 전문가 검토 추가
### 패턴 4: 분포 외 입력(Out-of-Distribution Input) - "예상하지 못한 입력 처리"
**문제:** 모델은 훈련 데이터와 유사한 입력에서는 잘 작동하지만, 새롭거나 다른 입력에서 실패합니다.
- 이미지 분류 모델이 흑백 사진을 인식하지 못함 (훈련에는 칼라 사진만 사용)
- 채팅봇이 매우 특수한 주제나 새로운 사건에 대해 엉뚱한 답변
- 번역 AI가 신조어(예: 'NFT')를 번역하지 못함
**심각성:** 낮음~중간 (하지만 사용자 만족도 저하)
**대응 방법:**
- 모니터링 시스템으로 "분포 외" 입력 탐지
- 탐지되면 사용자에게 경고 → "이것은 일반적인 질문이 아니므로 답변이 부정확할 수 있습니다"
- 사용자 피드백 활용 → "이 답변이 부정확하다고 표시"하면 데이터 수집
- 주기적으로 새로운 데이터로 모델 재훈련
이 4가지 패턴은 모든 생성 AI 제품에서 나타날 가능성이 있습니다. **좋은 AI PM은 이 패턴들을 미리 예상하고, 각각에 대한 대응 설계를 해두는 것입니다.**
## 실무에서 적용할 수 있는 AI PM의 주간 의식
마릴리가 제시하는 "AI 제품 감각을 빠르게 키우는 주간 의식"은 다음과 같습니다:
### 월요일: 실패 모드 브레인스토밍
- 팀(PM, 엔지니어, 디자이너)과 함께 현재 개발 중인 AI 기능이 어떻게 실패할 수 있는지 논의
- 각 실패 사례를 "심각도"로 분류
- 하나의 실패마다 하나의 설계 솔루션 제안
### 화요일~목요일: 설계 및 구현
- 월요일에 식별한 실패 모드에 대한 해결책을 설계에 반영
- 코드 리뷰에서 "이 부분이 XYZ 실패 모드를 처리하는가?"라는 질문 추가
### 금요일: 품질 평가
- 주간 성과 검토
- 모델 정확도, 비용, 사용자 피드백 검토
- 다음 주 개선 사항 결정
### 지속적(Daily): 사용자 피드백 모니터링
- 실제 사용자의 불만 사항 추적
- "AI가 할루시네이션을 했다"는 보고가 있으면 즉시 조사
- 패턴이 보이면 모델 재훈련 또는 설계 변경 고려
## 결론
AI 기술이 빠르게 발전하고 있는 만큼, 이를 신뢰할 수 있는 제품으로 변환하는 능력은 이제 선택이 아닌 필수입니다. 메타, 구글 같은 대형 기술 회사가 PM 채용에 "AI 제품 감각"을 추가한 이유가 바로 이것입니다.
마릴리 니카 박사의 프레임워크는 단순합니다: **(1) 실패를 미리 찾아내고, (2) 각 실패에 대한 설계 솔루션을 제시하고, (3) 비용과 품질의 균형을 맞추며, (4) 안전장치로 사용자를 보호하세요.** 이렇게 하면 AI는 더 이상 "신기한 기술"이 아니라 "신뢰할 수 있는 제품"이 됩니다.
AI PM으로서 경력을 쌓고 싶다면, 이 주간 의식을 지금부터 시작해보세요. 당신의 AI 제품 감각은 빠르게 성장할 것이고, 그것이 조직에서 가장 중요한 자산이 될 것입니다.
Original source: Building AI product sense, part 2
powered by osmu.app