コンテンツにスキップ

Precise Zero-Shot Dense Retrieval without Relevance Labels (HyDE)

Verified license

  • License: arXiv non-exclusive
  • 検証日: 2026-05-24
  • 検証方法: pwsh -NoProfile -File scripts/check-arxiv-license.ps1
  • このページの掲載モード: summary-only

書誌情報

  • Authors: Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan
  • arXiv: https://arxiv.org/abs/2212.10496
  • 通称: HyDE — Hypothetical Document Embeddings

何の論文か

HyDE は、関連ラベルなしの zero-shot dense retrieval を改善するために、クエリそのものではなく「そのクエリに答えていそうな仮想文書」を LLM に生成させ、その仮想文書を embedding して検索する方法。

検索クエリが短い・曖昧・語彙が合わない場合、クエリ embedding だけでは corpus 側の文書分布にうまく乗らない。HyDE は LLM を query expansion / query rewriting の一種として使い、検索空間上でより文書らしい点に移動する。

仕組みの要点

  1. ユーザー query を LLM に渡す
  2. LLM が hypothetical document を生成する
  3. その仮想文書を encoder で embedding する
  4. corpus embedding に対して nearest neighbor search する
  5. 実在文書を取得する

重要なのは、LLM の生成文書に誤りが混ざっても、encoder の bottleneck と実 corpus への近傍探索によって、検索結果は実文書に grounding されるという考え方。

このプロジェクトで読む理由

HyDE は「高速 LLM が人間の意図を汲み取ってクエリ拡張し、検索を代行する」方向の代表例として読める。

ただし UX 上は注意が必要。

  • ふつうのセマンティック検索より LLM 呼び出し分だけ遅い
  • その遅延が許容される場面と、ユーザー操作面で許容されない場面がある
  • 検索 index の最適化と、query expansion の最適化は別レイヤー

つまり HyDE は、セマンティック検索とエージェンティック検索の中間にある。検索前に LLM が介入するが、最終的な retrieval は vector index の性能に依存する。

実用メモ

HyDE を入れるなら、少なくとも次を評価する。

  • 通常 query embedding との recall 比較
  • latency 増加
  • LLM 生成の安定性
  • ドメイン固有語での改善 / 悪化
  • hypothetical document の長さ
  • embedding model との相性
  • BM25 / SPLADE など sparse 検索との hybrid 効果

小規模実験なら Flat index で十分だが、本番では HyDE で生成される embedding も通常 query と同じ ANN index に入るため、IVF / HNSW / PQ の選定からは逃げられない。

Attribution

  • Original paper: Precise Zero-Shot Dense Retrieval without Relevance Labels
  • Authors: Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan
  • Source (read here): https://arxiv.org/abs/2212.10496 · https://ar5iv.labs.arxiv.org/html/2212.10496 · https://arxiv.org/pdf/2212.10496
  • License: arXiv non-exclusive (第三者再配布の許諾なし)
  • このページに含まれるもの: 自分の要約・解説、AIとの対話メモ、4要件を満たす短い引用のみ。
  • このページに含まれないもの: 原文全文、原文の段落単位コピー、全文翻訳、図表転載。
  • Disclaimer: This is an unofficial study note. No endorsement by the original authors is implied.