コンテンツにスキップ

検索パラダイム論: セマンティック検索 vs エージェンティック検索

thesis

一言で RAG といっても、セマンティック検索とエージェンティック検索はレイヤーが全く違う

セマンティック検索 — インデックス層

  • ほとんどのユースケースでユーザーの操作面にむき出し
  • 速度が優先 → インデックス設計が重要
  • ベクトル DB、HNSW、IVF、スパース検索 (BM25/SPLADE) 等
  • レイテンシの主体 = 検索インフラそのもの
  • 最適化しないと即ボトルネック

エージェンティック検索 — 推論層

  • LLM の出力に時間がかかるので、検索自体の最適化の有無は全体の待ち時間から見れば誤差
  • ファイルシステムをフルスキャンしても許容される
  • find コマンドが遅いのにも慣れているのと同じ感覚
  • レイテンシの主体 = LLM 推論
  • ツール選択・プロンプト設計の方がボトルネック

なぜごっちゃになるか

このレイヤー差を区別せず「RAG の最適化」と一括りにするから議論がすれ違う。

収束先

最終形態は両方のマージ:

高速 LLM が人間の意図を汲み取ってクエリ拡張を行い、検索を代行する

これはほぼ確実だが、現時点の技術水準では「ユーザーがその結果をどれだけ待てるか」という UX の視点が抜けた議論は不毛

レイヤー図 (TODO)

ユーザーの意図 ──→ LLM (クエリ拡張) ──→ セマンティック検索 (高速インデックス)
                                   インデックス最適化の領域
                                   (体感に直結)

読むべき論文

引っかかりメモ

(読み進めながら追記)