SERVICE
すべてのリクエストに最高性能モデルは必要ない。
必要なのは、「見極める頭脳」です。
AI SaaSを運用していると、ほぼ確実にぶつかる壁があります。「APIコストが想定以上に膨らむ」という問題です。
全リクエストを最高性能モデル(Claude Opus 4.5やGPT-4.1など)に送れば品質は担保できますが、コストが膨大になります。かといって全リクエストを安価モデルに送ると、品質が低下してユーザー離脱を招きます。
ICLR 2025で発表されたRouteLLMの研究では、適切なルーティングによりGPT-4の性能の95%を維持しながら、コストを約48〜85%削減できることが実証されました。ABSのSmart Routing Engineは、この研究成果を実用化。タスクの複雑度を瞬時に判定し、最適なモデルへ自動で振り分けます。
仕組み:Strong / Weak 2モデルルーティング
Smart Routing Engineの基本思想はシンプルです。高性能な「Strongモデル」と高速・低単価な「Weakモデル」の2つを用意し、リクエストごとにどちらに送るかを自動判定します。
実際のリクエストの大半(65〜85%)は「要約して」「分類して」「抽出して」のような単純なタスクです。これらをフラッグシップモデルに送るのは、釘を打つのにハンマーでなくブルドーザーを使うようなもの。Smart Routingが「この釘にはハンマーで十分」と瞬時に判断します。
導入効果
月間100万リクエストの場合の試算です。
| 指標 | ルーティングなし | ルーティングあり | 改善幅 |
|---|---|---|---|
| 月間APIコスト | $8,750 | $1,750〜$3,500 | 60〜80%削減 |
| 品質スコア | 100% | 93〜97% | 微減(許容範囲) |
| 平均レイテンシ | 2,000ms | 800〜1,200ms | 40〜60%改善 |
3つのルーティング方式
技術力やニーズに応じて選べる3つの方式を提供します。
① ルールベースルーティング判定 < 1ms
「キーワードに『分析』を含む → Strongモデル」「入力トークン500未満 → Weakモデル」のように、ユーザー自身がIF-THEN形式でルールを定義する方式です。判定理由が完全に透明で、ルールの追加・変更も即時反映。最もシンプルで、初めてのルーティング導入に最適です。
利用できるフィールドは、入力トークン数・タスクタイプ・コードの有無・言語・キーワード・会話文脈・エンドユーザーの課金プラン・時間帯など多彩です。
② スコアリングルーティング判定 < 5ms
複数のシグナル(タスクタイプ・入力長・構造複雑度・ドメイン専門度・要求精度)を重み付きスコアで合算し、0.0〜1.0の複雑度スコアを算出。閾値との比較でルーティングを決定します。
閾値は3つのプリセットから選ぶだけ。自由設定もできます。
| プリセット | 閾値 | Strong率 | コスト削減 | 品質維持 |
|---|---|---|---|---|
| 💰 コスト最優先 | 0.70 | 約15% | 約80% | 約93% |
| ⚖️ バランス(推奨) | 0.50 | 約30% | 約65% | 約95% |
| 🎯 品質最優先 | 0.30 | 約55% | 約40% | 約97% |
③ MLルーター(将来拡張)判定 < 10ms
RouteLLM(ICLR 2025)で実証されたMatrix Factorizationベースの学習型ルーター。お客様のSaaSに蓄積された実データで継続的に精度が向上します。Scaleプラン以上で提供予定。
用途別の推奨モデルペア
AI Model Selectorの18モデルから、用途別に最適なStrong / Weakのペアをプリセットで用意しています。ワンクリックで設定完了。もちろんカスタムペアも自由に設定できます。
| 用途 | Strong Model | Weak Model | 最大削減率 |
|---|---|---|---|
| 汎用(推奨) | Claude Sonnet 4.5 | Grok 4.1 Fast | 96% |
| コード生成 | Claude Opus 4.5 | Claude Haiku 4.5 | 80% |
| 長文分析 | Gemini 2.5 Pro | Gemini 2.5 Flash | 93% |
| Web検索連携 | Sonar Pro | Sonar | 89% |
| 超低コスト | GPT-4.1 Mini | Grok 4.1 Fast | 65% |
| 最高品質 | Claude Opus 4.5 | Claude Sonnet 4.5 | 40% |
タスク自動分類エンジン
ルーティングの精度は「タスクの種類をどれだけ正確に見抜けるか」にかかっています。ABSは軽量な2段階分類で、12種類のタスクタイプを自動判定します。
Stage 1:高速フィルタ(< 1ms)——キーワード・パターンマッチで即座に判定。「要約して」→ summarization、「翻訳して」→ translation のように明確なパターンを高速処理。全リクエストの約40〜60%がこの段階で確定します。
Stage 2:ML分類器(< 5ms)——Stage 1で確定しなかったリクエストに対し、テキスト埋め込み+ロジスティック回帰で判定。信頼度スコアが低い場合は安全策としてStrongモデルへ送ります。
判定可能なタスクタイプは、分類・抽出・要約・翻訳・簡易Q&A・複雑なQ&A・創作文・コード生成・コードレビュー・数学・推論・マルチステップの12種類。お客様のSaaS特有のタスクパターンにもカスタムルールで対応できます。
障害に強いフォールバック設計
APIプロバイダーの障害やレート制限は、いつ起きてもおかしくありません。Smart Routing Engineは最大3段階のフォールバックで自動復旧します。
60秒間隔のヘルスチェック、レイテンシ劣化の自動検出、月間予算上限到達時の自動遮断など、プロダクション運用に必要な安全機構をすべて標準装備しています。
料金プラン別の利用範囲
| 機能 | Starter | Growth | Scale |
|---|---|---|---|
| ルーティング方式 | ルールベースのみ | 全方式 | 全方式 |
| モデルペア数 | 1ペア | 3ペア | 無制限 |
| カスタムルール数 | 5件 | 20件 | 無制限 |
| 閾値調整 | プリセットのみ | 自由設定 | 自由設定 |
| フォールバック | 1段 | 2段 | 3段 |
| ログ保持期間 | 7日 | 30日 | 90日 |
| MLルーター(将来) | — | — | ○ |
コスト削減の第一歩を。
Smart Routing Engineは、AI Model Selectorでモデルを選んだ後のステップとしてシームレスに連携します。ルーティング結果はFinOps Dashboardでリアルタイムに可視化。選定→最適化→監視を一気通貫で。