SPLADE / Formal et al.: sparse lexical expansion retrieval¶
Verified license
- License: CC BY-NC-SA 4.0 for the main SPLADE papers checked here
- 検証日: 2026-05-24
- 検証方法:
pwsh -NoProfile -File scripts/check-arxiv-license.ps1 - このページの掲載モード: summary-only
- 掲載モードの理由: CC BY-NC-SA は ShareAlike (派生物に同一ライセンスを継承) を要求する。このサイト全体は MIT で公開しているため、ライセンス継承衝突を避けて原文転載・全文翻訳をしない。短い引用と自分の要約のみに留める。
「SPLADE / Formal Concepts」の用語確認
このページは 著者 Thibault Formal らによる SPLADE 系列 を扱う。 Formal Concept Analysis (FCA, Ganter & Wille による束論ベースの概念格子) とは別物。 もし FCA 側の話題 (情報検索における formal concept lattice 利用など) を読みたい場合は、別ページで扱う必要があるので追加リクエストしてください。
書誌情報¶
このページは Thibault Formal らによる SPLADE 系列をまとめる。
| Paper | Authors | arXiv | License |
|---|---|---|---|
| SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking | Thibault Formal, Benjamin Piwowarski, Stéphane Clinchant | https://arxiv.org/abs/2107.05720 | CC BY-NC-SA 4.0 |
| SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval | Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant | https://arxiv.org/abs/2109.10086 | CC BY-NC-SA 4.0 |
| SPLADE-v3: New baselines for SPLADE | Carlos Lassance, Hervé Déjean, Thibault Formal, Stéphane Clinchant | https://arxiv.org/abs/2403.06789 | CC BY-NC-SA 4.0 |
何の論文か¶
SPLADE は、ニューラルモデルで 疎な lexical representation を学習し、転置インデックスで検索できるようにする手法。
dense retrieval は意味的な近さを扱いやすい一方、exact match、説明性、既存 inverted index との相性で課題がある。SPLADE は BERT 系モデルの語彙空間上に sparse な重みを作ることで、ニューラルな query / document expansion と、疎ベクトル検索の運用しやすさをつなぐ。
BM25 と dense retrieval の間¶
SPLADE は、ざっくり言えば次の間に立つ。
- BM25: 語彙一致が強い。高速で説明しやすい。語彙ズレに弱い。
- dense retrieval: 語彙ズレに強い。ANN index が必要。なぜ当たったかの説明が難しい。
- SPLADE: 語彙空間上の sparse expansion により、語彙ズレを補いつつ inverted index の性質を使う。
インデックス観点での重要性¶
ユーザーが言う「インデックス」が IVF / PQ / HNSW などの vector index を指すとしても、実用検索では sparse index も同じくらい重要になる。
SPLADE は dense vector index ではなく、巨大語彙次元の sparse vector を作る。したがって検索基盤としては ANN graph ではなく inverted index 側の設計が効く。
DB / 検索エンジン選定では、以下の違いが効く。
| 観点 | dense ANN | SPLADE / sparse |
|---|---|---|
| index | HNSW / IVF / PQ | inverted index |
| 強み | 意味的近さ | exact match + expansion |
| 説明性 | 低め | term weight を見やすい |
| メモリ | raw vector / graph / code | postings / impact scores |
| hybrid | sparse と併用される側 | dense と併用される側 |
RAG での読み替え¶
RAG では dense retrieval だけが注目されがちだが、実用では以下の理由で sparse / hybrid が残る。
- 固有名詞・型番・エラーコードは exact match が強い
- 日本語や専門語では embedding の取りこぼしがある
- metadata / keyword filter と組み合わせやすい
- 検索結果の説明性が高い
- BM25 ベースの既存検索基盤に載せやすい
SPLADE は、この sparse 側をニューラルに強化する方向。
実用メモ¶
SPLADE 系を採用する場合に見る点。
- index size がどれくらい膨らむか
- query latency が BM25 と比べて許容範囲か
- dense retrieval との hybrid で本当に改善するか
- ドメイン内 fine-tuning / distillation が必要か
- 日本語モデル・多言語モデルで使えるか
- reranker 前の first-stage recall が上がるか
このプロジェクトへのメモ¶
「検索 = dense vector DB」と短絡すると、SPLADE のような sparse neural retrieval を見落とす。実用的な RAG では、vector index の選定と同時に、inverted index / sparse retrieval / hybrid ranking の基礎も必要になる。
Attribution¶
- Original paper: SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking
- Authors: Thibault Formal, Benjamin Piwowarski, Stéphane Clinchant
- Source (read here): https://arxiv.org/abs/2107.05720 · https://ar5iv.labs.arxiv.org/html/2107.05720 · https://arxiv.org/pdf/2107.05720
- License: CC BY-NC-SA 4.0
- Original paper: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
- Authors: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant
- Source (read here): https://arxiv.org/abs/2109.10086 · https://ar5iv.labs.arxiv.org/html/2109.10086 · https://arxiv.org/pdf/2109.10086
- License: CC BY-NC-SA 4.0
- Original paper: SPLADE-v3: New baselines for SPLADE
- Authors: Carlos Lassance, Hervé Déjean, Thibault Formal, Stéphane Clinchant
- Source (read here): https://arxiv.org/abs/2403.06789 · https://ar5iv.labs.arxiv.org/html/2403.06789 · https://arxiv.org/pdf/2403.06789
- License: CC BY-NC-SA 4.0
- このページに含まれるもの: 自分の要約・解説、技術選定メモ、比較表、4要件を満たす短い引用のみ。
- このページに含まれないもの: 原文全文、原文の段落単位コピー、全文翻訳、図表転載。
- 掲載モードの選択理由: 原論文は CC BY-NC-SA 4.0 (NonCommercial + ShareAlike) のため、原文転載や全文翻訳を行うと派生物にも同条件 (NC + SA) が継承される。このサイト全体は MIT で公開しているため、ライセンス継承衝突を避けて summary-only に留める。
- Disclaimer: This is an unofficial study note. No endorsement by the original authors is implied.