Skip to content
Quay lại danh sách bài viết
AI/AGI14分

埋め込みモデル 2026 年版ランドスケープ: text-embedding-3-large・Voyage-3・Cohere Embed v4・BGE-M3・Jina v3

Embedding Models 2026 Landscape: text-embedding-3-large, Voyage-3, Cohere Embed v4, BGE-M3, Jina v3

青木 知美Senior AI Research Engineer
2026-04-2114分
EmbeddingMTEBJMTEBMatryoshkaColBERTRAG

Bài viết này được đăng bằng tiếng Nhật. Tóm tắt tiếng Việt ở dưới:

Embedding Models 2026 Landscape: text-embedding-3-large, Voyage-3, Cohere Embed v4, BGE-M3, Jina v3MTEB/BEIR/JMTEB で測る 2026 年の主要埋め込みモデル。OpenAI text-embedding-3-large、Voyage-3、Cohere Embed v4、OpenAI Embed-4、BGE-M3、Jina v3 を日本語と英語で徹底比較。Matryoshka Representation による次元削減と ColBERT の Late Interaction も実装レベルで解説。

埋め込みモデルが「性能差の主戦場」に戻った理由

  • 年の RAG ブーム初期、埋め込みモデルは「text-embedding-ada-002 で十分」とされ、差別化要素として軽視されがちだった。2026 年の状況は全く違う。LLM の生成性能が一部のタスクで飽和に近づく一方、Retrieval 側で取り逃す情報が RAG 全体の上限を決めることが共通理解になり、埋め込みモデルの選定とチューニングが最も ROI の高い投資領域として復権した。

Hugging Face の MTEB(Massive Text Embedding Benchmark)リーダーボードは 2026 年 4 月時点で 200 を超えるモデルがランクインしているが、日本語プロダクトで実用選択肢になるのは 10 モデル前後に絞られる。本稿では OpenAI、Voyage、Cohere、BAAI、Jina を横断し、MTEB/BEIR/JMTEB のスコアと実装上の扱いやすさを並べる。

2026 年 4 月のスコア表(要約)

  • OpenAI text-embedding-3-large: MTEB 64.6、JMTEB 75.2、3072 次元、8192 tokens、$0.13/M tokens
  • OpenAI Embed-4 (2026/02 リリース): MTEB 68.9、JMTEB 79.8、4096 次元、32k tokens、$0.18/M tokens
  • Voyage-3-large: MTEB 67.8、BEIR 58.3、1024/2048/4096 次元、32k tokens、$0.18/M tokens
  • Voyage-3: MTEB 64.2、1024 次元、32k tokens、$0.06/M tokens(コスパ最強クラス)
  • Cohere Embed v4: MTEB 68.1、JMTEB 77.5、1536 次元、128k tokens 対応、$0.12/M tokens、multimodal
  • BGE-M3 (BAAI): MTEB 59.4、JMTEB 73.1、1024 次元、8192 tokens、OSS (MIT)
  • Jina Embeddings v3: MTEB 65.5、JMTEB 74.8、1024 次元(Matryoshka)、8192 tokens、OSS + API

スコアだけ見ると Embed-4 と Voyage-3-large が頂上だが、「本番で何を使うか」は次の 4 軸で決まる: (1) ドメインでのファインチューン可能性、(2) レイテンシと次元、(3) 多言語/日本語性能、(4) データ越境コンプライアンス。

日本語性能: JMTEB が効く

JMTEB は東工大 Okazaki 研究室らが整備した日本語版 MTEB で、Retrieval、STS、Classification、Clustering、Reranking を総合評価する。英語 MTEB で上位でも日本語では順位が大きく動く。

  • 年 4 月時点の JMTEB 傾向:
  • 日本語の Retrieval サブセットでは Embed-4 > Voyage-3-large > Cohere Embed v4 > BGE-M3 > text-embedding-3-large
  • STS(文類似度)では Cohere Embed v4 が首位。日本語の敬語・言い回しバリエーションに強い
  • 多言語横断(英日の semantic search)では BGE-M3 が想定外に健闘し、Voyage-3-large と僅差

国内金融・公共でデータ越境が禁止される案件では OpenAI/Voyage/Cohere が使えず、BGE-M3 をセルフホストする以外に道がない。2026 年は Llama.cpp と vLLM で GGUF/AWQ 量子化済み BGE-M3 を H100 1 枚で 2000 req/s 処理できるため、オンプレ RAG のデファクト埋め込みに定着した。

Matryoshka Representation: 次元を階層化する

Voyage-3 と Jina v3、OpenAI text-embedding-3-* に共通する 2026 年の重要技術が Matryoshka Representation Learning (MRL) だ。1 つのモデルから得たベクトルの先頭 k 次元だけ使っても十分な意味を保つように、学習時に損失関数を階層化する手法。

従来は「3072 次元だと高精度だが重い、256 次元まで削ると精度が崩壊」だったのが、MRL 対応モデルでは「3072 次元でインデックス化しておき、first-stage 検索は 256 次元で高速に、second-stage で 3072 次元全体を使って再ランク」という二段構えが可能になった。

```python from openai import OpenAI import numpy as np

client = OpenAI() resp = client.embeddings.create( model="text-embedding-3-large", input=texts, dimensions=256, # MRL で先頭 256 次元のみ返却 ) short_vecs = np.array([d.embedding for d in resp.data])

# full 3072 次元版は別途取得しフル再ランクに使う resp_full = client.embeddings.create( model="text-embedding-3-large", input=texts, ) full_vecs = np.array([d.embedding for d in resp_full.data]) ```

  • M ベクトルを 3072 次元で保持すると生データだけで 1.2TB。MRL で 256 次元にトリミングすると 100GB まで落ち、HNSW 構築もメモリ常駐も現実的になる。これは Qdrant/Weaviate の multi-vector 機能と組み合わせるとさらに強力だ。

ColBERT と Late Interaction

  • 年、dense ベクトル一本ではなく Late Interaction(ColBERT 系)を実装する本番 RAG が増えた。ColBERT はドキュメントを 1 ベクトルに圧縮せず、トークン単位のベクトル群として保持し、クエリ側のトークンベクトルと MaxSim 演算で類似度を取る。
  • 長文ドキュメントでのニュアンス保持力が dense 単発より格段に高い
  • ストレージコストは dense の 10~50 倍(トークン数次第)
  • Qdrant 1.12、Vespa、Weaviate 1.28 が multi-vector ネイティブサポート

Jina-ColBERT-v2 や ColBERTv2(Stanford)は MTEB 非対称では dense top モデルに迫る Retrieval 性能を出しつつ、学習データから微妙にずれたドメインでも崩れにくい。長文契約書、論文、ソースコードなど「単一ベクトルでは押し込めない」ドメインで特に効く。

```python from ragatouille import RAGPretrainedModel

rag = RAGPretrainedModel.from_pretrained("jinaai/jina-colbert-v2") rag.index( collection=documents, index_name="contracts", max_document_length=512, split_documents=True, ) hits = rag.search("液晶パネルの保証期間に関する条項", k=20) ```

ドメイン特化ファインチューン

汎用埋め込みモデルは幅広くそこそこ強いが、専門領域(医療、法務、社内用語)では必ず負ける。2026 年は 対照学習ベースのファインチューンが数時間で回せるツールチェインが揃った。

  • sentence-transformers 3.x: `SentenceTransformerTrainer` で LoRA 付きファインチューン
  • Voyage Fine-tuning API: 自社ドメインクエリ/ドキュメントペアから 2 時間で専用モデル生成
  • Cohere Custom Models: Rerank と Embed 両方をドメイン学習可能

KGA の医療系プロジェクトでは、BGE-M3 を 5 万ペアの社内 Q&A でファインチューンし、JMTEB の医療 Retrieval サブセットで 8 ポイント、社内テストセットで 14 ポイントの nDCG@10 向上を得た。汎用最強モデルへの依存を断ち切れることの意味は大きい。

選定ルール

  • 幅広いドメイン、英語中心、API 許容 → Voyage-3-large
  • 日本語中心、長文 128k が必要 → Cohere Embed v4
  • オンプレ必須、MIT ライセンス → BGE-M3
  • コスパ最優先 → Voyage-3 または text-embedding-3-small
  • 画像+テキスト統合検索 → Cohere Embed v4 (multimodal)
  • 長文ニュアンス最優先 → Jina-ColBERT-v2(Late Interaction)

埋め込みは「モデルを 1 つ選んで終わり」ではなく、first-stage dense + second-stage Late Interaction + domain reranker の階層設計が 2026 年の本番形だ。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ