AIプロダクト開発は通常のソフトウェア開発と異なります。非決定性とエージェンシー制御のトレードオフを理解し、段階的なアプローチで成功するための実践的ガイド。
AIプロダクト開発完全ガイド:成功するための実践的アプローチ
AIプロダクト開発は、従来のソフトウェア開発とは根本的に異なります。2025年、多くの企業がAIを活用して自社のワークフローとユーザー体験を根本的に再構築しようとしています。しかし、実行の段階では混乱が生じています。AIは約3年前に登場した新興分野であり、確立されたプレイブックやテキストブックがありません。そのため、企業は手探りで進める必要があります。
本記事では、Aishwarya ReganthiとKirti Badamが、50以上のAIプロダクト展開を支援した経験から得た、AIプロダクト開発における重要な洞察と実践的アプローチを紹介します。彼らはOpenAI、Google、Kumo.AIなど、主要企業でAIとML基盤を構築し、Mavenで最高評価のAI講座を教えています。
核心要約
- 非決定性の理解:AIプロダクトの入力と出力は予測不可能であり、従来のソフトウェアのような確定的な結果が得られません
- エージェンシー制御トレードオフ:AIシステムに自律性を与えるほど、人間の制御を失うため、段階的な信頼構築が必須です
- 段階的アプローチの重要性:V1(低エージェンシー・高制御)から段階的にV3(高エージェンシー・低制御)へ進むことで、リスクを最小化できます
- リーダーシップの変革:CEOやリーダーが主体的にAIを学習し、直感を再構築する必要があります
- 継続的キャリブレーション・継続的開発:本番環境でのユーザー行動監視と段階的改善が成功の鍵です
AIプロダクト開発が従来のソフトウェアと異なる理由
1. 非決定性:予測不可能な入出力
従来のソフトウェアプロダクト、例えばBooking.comは、ユーザーの意図がクリックやフォーム入力を通じて特定の事前決定されたアクションに変換され、予測可能な結果をもたらします。しかしAIプロダクト、特に自然言語インターフェースの場合、ユーザーは無数の方法で意図を表現できるため、入力動作は予測不可能です。
さらに、大規模言語モデル(LLM)は確率的であり、しばしばブラックボックスとして機能し、その出力はプロンプトのフレーズングに敏感で、予測が困難です。つまり、入力と出力の両方の動作、および基礎となるプロセスが不透明になるため、開発者は動作を規定するのではなく、予測する必要があります。
これは同時に、AIプロダクトの最も美しい側面でもあります。人間は、一連のボタンに従うよりも、自然に話しかける方がはるかに快適です。そのため、AIプロダクトを使用するための敷居は低くなります。しかし、同時に、私たちはさまざまな方法でコミュニケーションを取り、意図が正しく伝達され、適切なアクションが実行されることを確認する必要があります。ほとんどのシステムは決定的であり、確定的な結果を達成したいのに対し、非決定的なテクノロジーを使用して目標を達成しなければならないという課題があります。
2. エージェンシー制御トレードオフ:自律性と人間のコントロール
多くの開発者は、あらゆる作業を実行できる自律的なAIエージェントの構築に夢中になっています。しかし、意思決定能力や自律性をAIシステムに委譲するたびに、人間側のコントロール権の一部を失います。AIエージェントが信頼を勝ち取り、そのような意思決定権を付与するのに十分な信頼性を持つことが重要です。
このトレードオフは、AIシステムに多くのエージェンシーを与えるほど、制御が減少することを意味し、AIがその信頼性を証明するための堅牢な信頼構築プロセスが必要です。これは、AIプロダクトの構築を開始する際に重要な区別です。
ユーセミテのハーフドームハイキングの訓練に似ています。いきなり完全なハイキングを始めるのではなく、段階的に小さな部分で訓練し、時間をかけて改善しますよね。AIプロダクト開発も全く同じアプローチが有効です。初日から、会社全体のすべてのツールとコンテキストを備えたエージェントを期待して構築を開始することはできません。最小限の影響力と最大限の人間制御がある場所で意図的に開始する必要があります。現在の能力が何であり、何ができるかをしっかり把握した上で、段階的に自律性を高めていきます。
これにより、特定の問題に直面していることを確実に理解でき、AIがそのレベルまで解決できることが明確になります。その後、どのコンテキストを導入し、どのようなツールを追加して経験を改善するかを考えることができます。
段階的アプローチ:顧客サポート用AIエージェントの例
カスタマーサポートはAIエージェントの重要で一般的なアプリケーションです。多くのカスタマーサポートチケットを抱えている企業を想像してください。実際、OpenAIはImageやGPT-5などの成功したプロダクトを立ち上げた際、サポートボリュームが大幅に増加しました。顧客から寄せられる質問の種類や問題が異なります。ヘルプセンターの記事をすべてAIエージェントにダンプするだけでは解決しません。まず、何が構築できるかを理解する必要があります。
V1段階:提案フェーズ(高制御・低エージェンシー)
最初のステップは、人間のサポートエージェントが存在する状態で、AIが「これが正しいアクションだと思う」という提案を行うことです。人間から「このケースではこの提案が良い」または「この提案は悪い」というフィードバックを得ます。その後、プロセスに戻って、問題点や盲点、それらを修正する方法を理解します。人間のサポートエージェントが提案に対して多くの変更を加えているかどうかを監視することで、AIが提案する内容がどれだけ有用かがわかります。
このプロセスを通じて、ヘルプセンターの記事の構造が非常に複雑で、冗長なカテゴリーがあることを発見するかもしれません。これらのデータ品質の問題は、実際にシステムを構築して展開して初めて明らかになります。人間のサポートエージェントは、例えば「女性向け」というノードが2019年以来更新されていないことに気づき、それが時代遅れであることを認識しており、別の有効なノードを探すことを知っています。これは、エージェントやモデルがこれらのニュアンスを理解できないことを意味するのではなく、企業には文書化されていない独特なルールが多いため、エージェントに必要なコンテキストをすべて提供する必要があることを示しています。
V2段階:コパイロットフェーズ(中程度制御・中程度エージェンシー)
ルーティングが安定し、複数回の反復後にデータの問題が解決されたら、システムはカスタマーサポートエージェントの標準的な操作手順に基づいて提案を行うことで、段階的に進化できます。これは、ドラフトを生成し、人間が変更を加えることができます。この過程で、人間の行動もログに記録されます。つまり、カスタマーサポートエージェントがドラフトのどの部分を使用したか、または何が省略されたかが追跡されます。これは、ユーザーが実行するすべてのことがログに記録されるため、効果的に無料のエラー分析を提供し、それをフライホイール全体に戻すことができます。
V3段階:エンドツーエンド解決(低制御・高エージェンシー)
ドラフトが良好に見え、カスタマーサポートエージェントがドラフトに対してあまり多くの変更を加えていないことがわかった場合、そのドラフトをそのまま使用する準備が整っています。その時点で、エンドツーエンド解決アシスタントに移行する準備ができています。これは、解決策を下書きするか、チケット全体を解決することさえできます。これらは自律性の段階であり、低自律性から高自律性へと進行します。
他のプロダクト分野での段階的アプローチの例
段階的アプローチは、カスタマーサポート以外にも多くのプロダクト分野に適用できます。開発した実装パターンを共有することは、より多くの人がこのアプローチから利益を得るのに役立ちます。
コーディングアシスタントの進化:
- V1:インラインコンプリーションとボイラープレートスニペットの提案
- V2:テストやリファクタリングなど、より大きなコードブロックを生成し、人間にレビューさせる
- V3:変更を自動的に適用し、PRを自律的にオープンする
マーケティングアシスタントの進化:
- V1:メールまたはソーシャルコピーの下書き(「これが私がすることです」というフォーマット)
- V2:複数ステップのキャンペーンを構築し、キャンペーンを実行
- V3:キャンペーンを起動し、A/Bテストを実行し、複数チャネル間でキャンペーンを自動最適化
AIプロダクト開発における成功要因:成功トリアングル
成功するAIプロダクト開発には、技術的なスキルだけでなく、複数の次元が関係しています。すべての技術的な問題は、根本的には人間の問題です。50以上のAIプロダクト展開との関わりの中で、3つの重要な次元が一貫して存在することがわかっています。
1. リーダーシップ:直感の再構築
多くのリーダーは10年または15年にわたって強い直感を構築しており、これらの洞察は高く評価されています。しかし、AIがクローズアップに見えるようになると、それらの直感を再評価し、リーダーはそれほど脆弱である必要があります。例えば、Rackspaceのティムは毎朝午前4時から6時を「AI追い上げ」と特別にラベル付けされた時間に充てていました。彼は最新のポッドキャストやニュースに追いつくために時間をかけています。さらに、彼は週末に「ワイプコーディング」セッションも開催しています。
リーダーはより実践的になる必要があります。これは、すべての実装を自分で行う必要があることを意味するのではなく、直感を再構築することです。彼らは、長年保有していた直感が常に正しいとは限らないというアイデアに満足している必要があり、進んで誰からでも学ぶ意欲を示す必要があります。この学習意欲は、成功するプロダクトを構築する企業を区別する重要な要因です。
多くの場合、これはボトムアップのプロセスではありません。リーダーがテクノロジーを信頼していないか、期待がずれていれば、エンジニアがリーダーから支持を得ることを期待することはできません。多くの構築者からは、リーダーが単にAIの完全な可能性を理解していない、または彼らが何かを「ワイプコード」して、それが本番環境に簡単に移行できると仮定しているという話をよく聞きます。AIの現在の能力を理解することは、企業内の決定を効果的に導くために重要です。
2. カルチャー:恐怖から力づけへ
カルチャーは非常に重要な役割を果たします。AIが主要な焦点ではなく、競争圧力やある使用事例が準備されているためにプロセスに統合する必要があるエンタープライズで働いています。多くの企業は「取り残されることへの恐怖」(FOMO)または「あなたは置き換わる」というナラティブの文化を育成しており、従業員を躊躇させることができます。
AIプロダクトを効果的に構築するには、主題専門家が不可欠です。彼らのコンサルテーションはAIの動作と理想的な成果を理解するために必要です。しかし、私は主題専門家が関わることに躊躇する企業に遭遇しました。彼らは自分たちの仕事がなくなることを恐れています。
リーダーは、従業員がAIを使用してワークフローを強化し、生産性を10倍にすることを励ます力づけの文化を育む必要があります。一方、仕事が置き換わるという環境を作るべきではありません。実際、AIは多くの機会を開きます。従業員はより多くを達成でき、より戦略的な仕事に焦点を当てることができます。
3. 技術的専門知識:ワークフロー理解の深さ
成功するチームは、ワークフローを徹底的に理解し、どの部分がAI自動化に適しているか、および人間の介入がまだ必要な場所を特定することに非常に執着しています。ワークフローの任意の部分を自動化する場合、AIエージェントをすべての問題を解決するために展開するだけの問題ではありません。通常、機械学習モデルがいくつかのタスクを処理し、決定的なコードが他のタスクを処理します。したがって、ワークフローを深く理解することは、ジョブに適切なツールを選択するために最重要です。
AIライフサイクルの理解:本番環境でのユーザー行動監視
成功するAIプロダクト開発のための重要な側面は、AIの開発ライフサイクルが基本的に異なることを理解することです。高速で反復し、カスタマー体験を損なわない方法で何かを構築し、動作を推定するのに十分なデータを同時に収集することに焦点を当てています。これは、「フライホイール」効果を急速に構築します。
今日の目標は、市場で最初にAIエージェントを持つ企業になることではなく、時間の経過とともに継続的に改善できるシステムを確立することです。誰かが「ワンクリックエージェント」を展開すれば、2〜3日で大幅な利益が得られると主張していたら、私は懐疑的になります。これは、基礎となるモデルが対応できないからではなく、エンタープライズデータとインフラストラクチャが本質的に複雑で乱雑だからです。
エージェント自体も、これらのシステムがどのように機能するかを理解するための時間とデータが必要です。多くの場合、整理されていないデータ分類法があり、人々は頻繁に顧客データのさまざまなバージョンを作成します。これらの既存の機能はすべて呼び出されており、対処する必要がある重要な技術的負債につながります。最終的に、問題自体に深く投資し、ワークフローを十分に理解している場合は、「プラグアンドプレイ」ソリューションを期待するのではなく、段階的にエージェントを改善する方法を理解します。
実際、「ワンクリックエージェント」は単なるマーケティングの誇大広告であることが多いです。時間の経過とともに学習し、改善する堅牢で適応的なパイプラインの構築に焦点を当てた企業とパートナーシップを構築する方が良いです。重要なワークフローを置き換えるか、実質的なROIを提供するものを開発するには、通常、データとインフラストラクチャが最適でも4〜6ヶ月かかります。
継続的キャリブレーション・継続的開発フレームワーク(CCCD)
AIプロダクト開発ライフサイクルを構築する理由は、競争圧力の中で多くの企業が自律型エージェントを構築する他の企業を観察し、同じことをしなければならないと感じているためです。いくつかの顧客とパートナーシップを組んで、これらのエンドツーエンドエージェントを開発しました。発見されたのは、ユーザーがシステムとどのようにやり取りするか、またはAIがどのような応答とアクションを生成する可能性があるかを正確に知らずに開発を開始すると、問題を修正することが非常に困難になるということです。
4または5つのステップと多数の決定を含む複雑なワークフローを使用すると、結局バグ修正に多くの時間を費やし、常にホットフィックスを行うことになります。カスタマーサポートのユースケースを構築していた時代がありました。実際、その例は本ニュースレターに掲載されています。ホットフィックスの量が非常に多いため、プロダクトをシャットダウンせざるを得ませんでした。さらに、オンラインで報告されている複数の怖いエピソードがあります。例えば、エアカナダは最近、AIエージェントが彼らの公式プレイブックに含まれていない払い戻しポリシーを幻覚として示した状況に直面し、法的に名誉を毀損する義務がありました。
これらの怖いエピソードは、このフレームワークが重要な理由を強調しています。カスタマー信頼を失わずに効果的に構築し、AIエージェントまたはシステムが企業に悪影響を与える決定を下さないようにするにはどうすればよいか、そして同時に構築を続けるにはどうすればよいか。
フライホイール・モデルにより、プロダクトを継続的に改善できます。これにより、継続的キャリブレーションと継続的開発の概念が生まれました。アイデアはかなりシンプルです。ループの右側は継続的開発を表します。ここで、機能を定義し、データをキュレーションします。本質的に、期待される入力と出力のデータセットを作成しています。これはAIプロダクトを開始する前に素晴らしい演習です。チーム内のプロダクト動作に関する不一致をしばしば明らかにするためです。プロダクトマネージャーと主題専門家はこの初期的で完全ではないデータセットを確立するのに大きく貢献できます。
その後、アプリケーションをセットアップし、適切な評価メトリクスを設計します。単に「evals」ではなく、「評価メトリクス」を意図的に使用しています。評価はプロセスであり、評価メトリクスはそのプロセス中に焦点を当てる特定の側面です。アプリケーションを展開した後、これらの評価メトリクスを実行します。
このサイクルの第2の部分は継続的キャリブレーションです。これは、初期の仮定の一部ではなかった予期しない動作を特定します。開発を開始すると、特定のデータセットに最適化しますが、頻繁に、それは不十分であることがわかります。ユーザーはシステムと予測不可能な方法でやり取りするため、キャリブレーションが必要です。
システムを展開した後、予期しないパターンを観察すると、評価メトリクスはいくつかの洞察を提供すべきです。しかし、これらのメトリクスさえ、新しい、予期しないエラーパターンを示している場合があります。これは、動作を分析し、これらの新しいエラーパターンを特定することにつながります。その後、特定された問題の修正を適用します。新しいパターンが出現する場合、新しい評価メトリクスも設計します。ただし、すべての問題が新しいメトリクスを必要とするわけではありません。「スポットエラー」のように、不十分に定義されたツールによるツール呼び出しエラーなどは、修正して先に進むことができ、さらなる反復的なメトリック設計を必要としません。
これは一般にAIプロダクトライフサイクルを説明しています。重要なポイントは、より低いエージェンシーとより高い制御の反復から始めることです。これは、AIシステムの意思決定を最初に制限し、人間の監視を確保することを意味します。段階的に、行動のフライホイールを構築し、ユースケースとユーザーインタラクションをより深く理解するにつれて、エージェンシーを増やし、制御を削減します。
評価(Evals)と本番環境監視のバランス
AIコミュニティの継続的な議論に関して、evals が問題を解決するのか、本番環境監視が問題を解決するのかを示唆する虚偽のニセットが存在しているように感じます。一方の極端だけに依存する理由は見当たりません。つまり、アプリケーションの成功全体を単一の極端に賭けることはしません。
一歩引いて考えると、Evalsは本質的に、プロダクトについての信頼できる理解またはプロダクトに情報を与える特定のデータセットを構築する知識を表します。彼らは、AIエージェントが実行してはいけないアクションの種類や、それらのエリアで良好に実行することを確認するために構築するデータセットを定義します。
一方、本番環境監視には、アプリケーションを展開し、顧客が実際にプロダクトを使用する方法を伝える主要メトリクスを追跡することが含まれます。例えば、顧客がエージェントのやり取りに親指を立てた場合、絶対にそれを知りたいです。本番環境監視は、長い間プロダクトの周りに存在してきましたが、AIエージェントを使用すると、はるかに高い粒度で監視する必要があります。それだけではなく、明示的なカスタマーフィードバックです。暗黙のフィードバックを大量に収集できます。
例えば、ChatGPTでは、答えが気に入った場合、親指を立てることができます。気に入らない場合、顧客はしばしば親指を下向きにしませんが、代わりに答えを再生成します。これは、初期の答えが期待に満たなかったという明確な暗黙の信号です。これらは、常に考慮する必要がある種類の暗黙の信号です。これらの信号に対する本番環境監視の範囲は拡大しています。
Evalsと本番環境監視の元の質問に戻ると、問題最初のアプローチに再度戻ります。あなたは何を構築しようとしていますか。顧客のための信頼できるアプリケーションを構築し、期待通りに一貫して実行し、正しいアクションを実行することを目指しています。または、何か悪いことをした場合、それに対処する準備ができています。本質的に、あなたは非常に迅速にアラートを受けます。
私はこれを2つの部分に分けます。まず、実際にテストせずにアプリケーションをデプロイする人はいません。このテストは「気持ち」についてでもあれば、特定の10個の質問がどの変更にも関わらず決して悪くならないかなどの特定のコア機能についてでもあります。これを評価データセットと呼びます。さて、これを構築してデプロイしたと想像してください。正常に動作しているかを理解する必要があります。高スループットアプリケーションの場合、すべてのトレースを手動で評価することは不可能です。特定の注意が必要な特定の領域を強調する指標が必要です。これは正確に本番環境監視が重要になる場所です。エージェントが誤動作するすべての可能な方法を予測することはできませんが、暗黙的な信号と明示的な信号の組み合わせは、調査が必要なトレースを伝えます。本番環境監視は、これらの問題を特定するのに役立ちます。
これらのトレースを入手したら、さまざまなインタラクション全体で観察している失敗パターンを検査する必要があります。 絶対に起こるべきではない何か重大なことがありますか。そのような失敗モードを特定した場合、そのシナリオに具体的に対処するための評価データセットを構築することを検討すべきです。例えば、明示的に設定されていないエージェント払い戻しを不適切に提供している場合、このシナリオに対処するための評価データセットを作成します。そのデータセットを構築し、ツールやプロンプトに必要な調整を行い、プロダクトの新しいバージョンをデプロイした後でも、すべての潜在的な問題をキャッチしたという保証はありません。別の種類の問題が発生する可能性があり、本番環境監視が必要です。したがって、評価データセットと本番環境監視の両方が重要です。1つだけがすべての問題を解決できると信じることは、完全に却下できるものです。
重要なポイントは、単に両方を実行することではなく、キャッチする問題の異なる種類があり、単一のアプローチがすべてのエリアをカバーできないことを認識することです。
AIプロダクトの成功を支える根本要素
AIプロダクト開発における成功の本質は、企業が真にAIを活用してプロセスを改善またはワークフローを効率化する範囲はまだ初期段階にあります。2025年はAIエージェント採用に関して非常に活発な年でしたが、実際の普及はまだそれほど広範ではなく、その利点を完全に実現するレベルに達していません。適切な人間ループチェックポイントを使用すれば、多くの潜在的な問題を回避でき、プロセス効率化に焦点を移すことができます。企業がAIを積極的に採用する必要があり、単にその否定的な側面を強調すべきではないことに楽観的です。
私たちが話をした企業は、AIが彼らを助けることができないと言ったことはありません。AIが最適化できる領域は常にあります。問題は、どのように適応するかです。
重要なのは、AIが企業のどの領域で影響を与えることができるかを理解し、その領域に段階的にアプローチするアプローチです。重要なワークフロー、信頼性が必要な領域から開始し、段階的により多くの自律性を導入します。企業がAIの能力と限界をより深く理解するにつれて、より複雑な使用事例を実装できるようになります。
リーダーシップの役割:CEOのAI理解
AIプロダクトから大きな影響を得るには、創業者またはCEOが深く関わっていることが本当に重要です。多くの企業のAI採用に関わるコンサルタントと交わした会話から、CEOがChatGPTやClaudeなどのツールと1日に複数回やり取りするのは、成功の最大の予測因子であることがわかりました。Rackspace CEOがAIニュースをしっかり把握することに関する例は、これを完璧に示しています。
CEOが毎朝4時から6時を「AI追い上げ」として確保し、信頼できるAI専門家との継続的な対話を維持することは、企業全体の意思決定に直接影響を与えます。彼は単に2〜3つの重要なソースのリストを保持し、一貫して確認しています。その後、さまざまな質問を統合し、複数のAI専門家と議論して、それらの視点を収集します。彼は、この努力が企業内で下される決定の多様性に直接影響することを説明しています。これは、プロダクト構築が単なるエンジニアリング問題ではなく、組織全体の学習、文化、および戦略的視点に依存していることを示しています。
結論
AIプロダクト開発の成功は、単なるテクノロジーの問題ではなく、人間、プロセス、およびシステム設計の複雑な交差点です。成功するAIプロダクトを構築するためのキーポイントは次の通りです。
顧客に執着し、問題に焦点を当てます。 AIは単なるツールであり、顧客のワークフローと問題を真に理解することが必須です。80%のAIエンジニア、AIプロダクトマネージャーは、最も複雑で最高のモデルやワークフローを構築するのではなく、ワークフローを非常によく理解するために時間を費やしています。彼らは、顧客の行動とデータを理解するために泥沼に没入しています。
段階的に構築し、信頼を構築します。 低エージェンシー、高制御の状態から開始し、段階的に自律性を増やします。各段階で学習を重ね、ユーザー行動のデータを収集し、その知見を次の段階に活かします。
リーダーシップが牽引します。 CEOや経営陣がAIを主体的に学習し、直感を再構築し、組織全体でAIへの前向きな文化を育成することが重要です。
継続的な学習と改善を習慣化します。 本番環境での監視、ユーザーフィードバック収集、予期しない動作の分析を通じて、継続的にシステムを改善します。
AIプロダクト開発において最も価値のあるスキルは、テクノロジーへの執着よりも、問題の核心を理解し、それを解決するための正しい判断力とセンスです。AIは複数の課題を解決するためのツールに過ぎません。真の競争優位性は、顧客と問題を深く理解し、段階的にそれを解決する忍耐力から生まれます。
「痛みが新しい城壁である」という考え方は、AIプロダクト開発の領域で特に当てはまります。成功する企業は、複雑な問題を理解し、実装し、検証するプロセスを通じた痛みを乗り越え、それが持続可能な競争上の優位性を生み出すのです。2025年以降、AIテクノロジーはより標準化され、アクセスしやすくなります。その時、真の差別化要因は、顧客ニーズをより深く理解し、より優れたプロダクト判断を下す能力になるでしょう。
Original source: https://www.youtube.com/watch?v=z7T1pCxgvlA
powered by osmu.app