コンテンツにスキップ

SPLADE / Formal et al.: sparse lexical expansion retrieval

Verified license

  • License: CC BY-NC-SA 4.0 for the main SPLADE papers checked here
  • 検証日: 2026-05-24
  • 検証方法: pwsh -NoProfile -File scripts/check-arxiv-license.ps1
  • このページの掲載モード: summary-only
  • 掲載モードの理由: CC BY-NC-SA は ShareAlike (派生物に同一ライセンスを継承) を要求する。このサイト全体は MIT で公開しているため、ライセンス継承衝突を避けて原文転載・全文翻訳をしない。短い引用と自分の要約のみに留める。

「SPLADE / Formal Concepts」の用語確認

このページは 著者 Thibault Formal らによる SPLADE 系列 を扱う。 Formal Concept Analysis (FCA, Ganter & Wille による束論ベースの概念格子) とは別物。 もし FCA 側の話題 (情報検索における formal concept lattice 利用など) を読みたい場合は、別ページで扱う必要があるので追加リクエストしてください。

書誌情報

このページは Thibault Formal らによる SPLADE 系列をまとめる。

Paper Authors arXiv License
SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking Thibault Formal, Benjamin Piwowarski, Stéphane Clinchant https://arxiv.org/abs/2107.05720 CC BY-NC-SA 4.0
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant https://arxiv.org/abs/2109.10086 CC BY-NC-SA 4.0
SPLADE-v3: New baselines for SPLADE Carlos Lassance, Hervé Déjean, Thibault Formal, Stéphane Clinchant https://arxiv.org/abs/2403.06789 CC BY-NC-SA 4.0

何の論文か

SPLADE は、ニューラルモデルで 疎な lexical representation を学習し、転置インデックスで検索できるようにする手法。

dense retrieval は意味的な近さを扱いやすい一方、exact match、説明性、既存 inverted index との相性で課題がある。SPLADE は BERT 系モデルの語彙空間上に sparse な重みを作ることで、ニューラルな query / document expansion と、疎ベクトル検索の運用しやすさをつなぐ。

BM25 と dense retrieval の間

SPLADE は、ざっくり言えば次の間に立つ。

  • BM25: 語彙一致が強い。高速で説明しやすい。語彙ズレに弱い。
  • dense retrieval: 語彙ズレに強い。ANN index が必要。なぜ当たったかの説明が難しい。
  • SPLADE: 語彙空間上の sparse expansion により、語彙ズレを補いつつ inverted index の性質を使う。

インデックス観点での重要性

ユーザーが言う「インデックス」が IVF / PQ / HNSW などの vector index を指すとしても、実用検索では sparse index も同じくらい重要になる。

SPLADE は dense vector index ではなく、巨大語彙次元の sparse vector を作る。したがって検索基盤としては ANN graph ではなく inverted index 側の設計が効く。

DB / 検索エンジン選定では、以下の違いが効く。

観点 dense ANN SPLADE / sparse
index HNSW / IVF / PQ inverted index
強み 意味的近さ exact match + expansion
説明性 低め term weight を見やすい
メモリ raw vector / graph / code postings / impact scores
hybrid sparse と併用される側 dense と併用される側

RAG での読み替え

RAG では dense retrieval だけが注目されがちだが、実用では以下の理由で sparse / hybrid が残る。

  • 固有名詞・型番・エラーコードは exact match が強い
  • 日本語や専門語では embedding の取りこぼしがある
  • metadata / keyword filter と組み合わせやすい
  • 検索結果の説明性が高い
  • BM25 ベースの既存検索基盤に載せやすい

SPLADE は、この sparse 側をニューラルに強化する方向。

実用メモ

SPLADE 系を採用する場合に見る点。

  • index size がどれくらい膨らむか
  • query latency が BM25 と比べて許容範囲か
  • dense retrieval との hybrid で本当に改善するか
  • ドメイン内 fine-tuning / distillation が必要か
  • 日本語モデル・多言語モデルで使えるか
  • reranker 前の first-stage recall が上がるか

このプロジェクトへのメモ

「検索 = dense vector DB」と短絡すると、SPLADE のような sparse neural retrieval を見落とす。実用的な RAG では、vector index の選定と同時に、inverted index / sparse retrieval / hybrid ranking の基礎も必要になる。

Attribution

  • Original paper: SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking
  • Authors: Thibault Formal, Benjamin Piwowarski, Stéphane Clinchant
  • Source (read here): https://arxiv.org/abs/2107.05720 · https://ar5iv.labs.arxiv.org/html/2107.05720 · https://arxiv.org/pdf/2107.05720
  • License: CC BY-NC-SA 4.0
  • Original paper: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
  • Authors: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant
  • Source (read here): https://arxiv.org/abs/2109.10086 · https://ar5iv.labs.arxiv.org/html/2109.10086 · https://arxiv.org/pdf/2109.10086
  • License: CC BY-NC-SA 4.0
  • Original paper: SPLADE-v3: New baselines for SPLADE
  • Authors: Carlos Lassance, Hervé Déjean, Thibault Formal, Stéphane Clinchant
  • Source (read here): https://arxiv.org/abs/2403.06789 · https://ar5iv.labs.arxiv.org/html/2403.06789 · https://arxiv.org/pdf/2403.06789
  • License: CC BY-NC-SA 4.0
  • このページに含まれるもの: 自分の要約・解説、技術選定メモ、比較表、4要件を満たす短い引用のみ。
  • このページに含まれないもの: 原文全文、原文の段落単位コピー、全文翻訳、図表転載。
  • 掲載モードの選択理由: 原論文は CC BY-NC-SA 4.0 (NonCommercial + ShareAlike) のため、原文転載や全文翻訳を行うと派生物にも同条件 (NC + SA) が継承される。このサイト全体は MIT で公開しているため、ライセンス継承衝突を避けて summary-only に留める。
  • Disclaimer: This is an unofficial study note. No endorsement by the original authors is implied.