Sebab Model Embedding Kembali Menjadi "Medan Pertempuran Utama Perbezaan Prestasi"
Pada awal ledakan RAG 2023, model embedding dianggap "text-embedding-ada-002 sudah mencukupi" dan kerap dipandang ringan sebagai faktor pembeza. Keadaan pada 2026 adalah sama sekali berbeza. Sementara prestasi penjanaan LLM semakin mendekati ketepuan untuk sesetengah tugasan, pemahaman bersama telah terbentuk bahawa maklumat yang terlepas di bahagian Retrieval menentukan batas atas keseluruhan RAG — dan pemilihan serta penalaan model embedding kini telah kembali sebagai domain pelaburan dengan ROI tertinggi.
Papan pendahulu MTEB (Massive Text Embedding Benchmark) Hugging Face mempunyai lebih 200 model yang disenaraikan sehingga April 2026, tetapi pilihan yang praktikal untuk produk bahasa Melayu dan Jepun terhad kepada sekitar 10 model. Artikel ini membandingkan OpenAI, Voyage, Cohere, BAAI, dan Jina secara silang, menyenaraikan skor MTEB/BEIR/JMTEB dan kemudahan pengendalian dalam pelaksanaan.
Jadual Skor April 2026 (Ringkasan)
- OpenAI text-embedding-3-large: MTEB 64.6, JMTEB 75.2, 3072 dimensi, 8192 token, USD 0.13/juta token
- OpenAI Embed-4 (dilancarkan 02/2026): MTEB 68.9, JMTEB 79.8, 4096 dimensi, 32k token, USD 0.18/juta token
- Voyage-3-large: MTEB 67.8, BEIR 58.3, 1024/2048/4096 dimensi, 32k token, USD 0.18/juta token
- Voyage-3: MTEB 64.2, 1024 dimensi, 32k token, USD 0.06/juta token (kelas nilai terbaik)
- Cohere Embed v4: MTEB 68.1, JMTEB 77.5, 1536 dimensi, sokongan 128k token, USD 0.12/juta token, multimodal
- BGE-M3 (BAAI): MTEB 59.4, JMTEB 73.1, 1024 dimensi, 8192 token, OSS (MIT)
- Jina Embeddings v3: MTEB 65.5, JMTEB 74.8, 1024 dimensi (Matryoshka), 8192 token, OSS + API
Apabila melihat skor sahaja, Embed-4 dan Voyage-3-large berada di puncak, tetapi "apa yang digunakan dalam pengeluaran" ditentukan oleh empat paksi berikut: (1) keupayaan fine-tuning untuk domain, (2) latensi dan dimensi, (3) prestasi berbilang bahasa/bahasa Melayu, dan (4) pematuhan merentas sempadan data.
Prestasi Bahasa Melayu: JMTEB Berkesan
JMTEB adalah MTEB versi bahasa Jepun yang disediakan oleh kumpulan penyelidikan Okazaki di Tokyo Institute of Technology, menilai secara komprehensif Retrieval, STS, Classification, Clustering, dan Reranking. Walaupun berada di kedudukan atas dalam MTEB Inggeris, kedudukan boleh berubah dengan ketara dalam bahasa Jepun.
Tren JMTEB sehingga April 2026:
- Dalam subset Retrieval bahasa Jepun: Embed-4 > Voyage-3-large > Cohere Embed v4 > BGE-M3 > text-embedding-3-large
- Dalam STS (kesamaan teks), Cohere Embed v4 menduduki tempat pertama. Ia kuat dalam bahasa hormat Jepun dan variasi ungkapan
- Dalam carian semantik merentas bahasa (bahasa Inggeris-Jepun), BGE-M3 menunjukkan prestasi yang mengejutkan, hampir setanding dengan Voyage-3-large
Untuk projek kewangan dan awam tempatan di mana pelanggaran sempadan data dilarang, OpenAI/Voyage/Cohere tidak boleh digunakan, dan tiada pilihan selain hosting sendiri BGE-M3. Pada 2026, memandangkan BGE-M3 dalam kuantisasi GGUF/AWQ boleh memproses 2,000 req/s dengan satu GPU H100 menggunakan Llama.cpp dan vLLM, ia telah menjadi embedding de facto untuk RAG on-premises.
Matryoshka Representation: Menghierarkikan Dimensi
Teknologi penting 2026 yang dikongsi antara Voyage-3, Jina v3, dan OpenAI text-embedding-3-* adalah Matryoshka Representation Learning (MRL). Ini adalah teknik di mana, semasa latihan, fungsi rugi dihierarkikan supaya hanya menggunakan k dimensi pertama vektor yang diperoleh daripada satu model pun dapat mengekalkan makna yang mencukupi.
Sebelumnya "3072 dimensi memberikan ketepatan tinggi tetapi berat, dan memotong kepada 256 dimensi merosakkan ketepatan" — tetapi dengan model yang menyokong MRL, pendekatan dua peringkat di mana "diindeks pada 3072 dimensi, carian peringkat pertama dilakukan dengan pantas pada 256 dimensi, peringkat kedua menggunakan 3072 dimensi penuh" kini mungkin.
```python from openai import OpenAI import numpy as np
client = OpenAI() resp = client.embeddings.create( model="text-embedding-3-large", input=texts, dimensions=256, # MRL mengembalikan hanya 256 dimensi pertama ) short_vecs = np.array([d.embedding for d in resp.data])
# Versi 3072 dimensi penuh diperoleh berasingan untuk penyusunan semula penuh resp_full = client.embeddings.create( model="text-embedding-3-large", input=texts, ) full_vecs = np.array([d.embedding for d in resp_full.data]) ```
Menyimpan 100 juta vektor pada 3072 dimensi memerlukan data mentah sahaja 1.2TB. Memangkas kepada 256 dimensi dengan MRL mengurangkannya kepada 100GB, menjadikan pembinaan HNSW dan kediaman memori praktikal. Ini menjadi lebih berkuasa apabila digabungkan dengan fungsi multi-vector Qdrant/Weaviate.
ColBERT dan Late Interaction
Pada 2026, semakin banyak RAG pengeluaran yang melaksanakan Late Interaction (sistem ColBERT) berbanding satu vektor dense sahaja. ColBERT tidak memampatkan dokumen kepada satu vektor, sebaliknya menyimpannya sebagai kumpulan vektor pada peringkat token, dan mengambil kesamaan menggunakan operasi MaxSim dengan vektor token di bahagian pertanyaan.
- Keupayaan mengekalkan nuansa dalam dokumen panjang adalah jauh lebih baik berbanding dense tunggal
- Kos storan adalah 10 hingga 50 kali lebih besar berbanding dense (bergantung pada bilangan token)
- Qdrant 1.12, Vespa, dan Weaviate 1.28 menyokong multi-vector secara asli
Jina-ColBERT-v2 dan ColBERTv2 (Stanford) menunjukkan prestasi Retrieval yang hampir setanding dengan model dense teratas dalam MTEB asimetri, sementara kekal kukuh walaupun untuk domain yang sedikit berbeza daripada data latihan. Ia sangat berkesan untuk domain seperti kontrak panjang, kertas kerja akademik, dan kod sumber yang "tidak dapat dimuatkan dalam satu vektor".
```python from ragatouille import RAGPretrainedModel
rag = RAGPretrainedModel.from_pretrained("jinaai/jina-colbert-v2") rag.index( collection=documents, index_name="contracts", max_document_length=512, split_documents=True, ) hits = rag.search("Klausa berkaitan tempoh jaminan panel LCD", k=20) ```
Fine-Tuning Khusus Domain
Model embedding serba guna luas tetapi sederhana dalam prestasi, tetapi sentiasa lebih lemah dalam domain khusus (perubatan, undang-undang, istilah dalaman). Pada 2026, set alat yang membolehkan fine-tuning berasaskan pembelajaran kontrastif dijalankan dalam beberapa jam sudah tersedia.
- sentence-transformers 3.x: Fine-tuning dengan LoRA menggunakan `SentenceTransformerTrainer`
- Voyage Fine-tuning API: Menjana model khusus dalam 2 jam daripada pasangan pertanyaan/dokumen domain sendiri
- Cohere Custom Models: Pembelajaran domain tersedia untuk kedua-dua Rerank dan Embed
Dalam projek berkaitan penjagaan kesihatan KGA, BGE-M3 di-fine-tune dengan 50,000 pasangan soal jawab dalaman, menghasilkan peningkatan 8 mata dalam subset Retrieval perubatan JMTEB, dan 14 mata nDCG@10 dalam set ujian dalaman. Kebolehan memutuskan pergantungan kepada model universal terbaik adalah penting.
Peraturan Pemilihan
- Domain luas, berpusat bahasa Inggeris, API dibenarkan → Voyage-3-large
- Berpusat bahasa Jepun, dokumen panjang 128k diperlukan → Cohere Embed v4
- On-premises wajib, lesen MIT → BGE-M3
- Nilai terbaik yang diutamakan → Voyage-3 atau text-embedding-3-small
- Carian bersepadu imej + teks → Cohere Embed v4 (multimodal)
- Nuansa dokumen panjang diutamakan → Jina-ColBERT-v2 (Late Interaction)
Embedding bukan "pilih satu model dan selesai", tetapi reka bentuk berlapis yang menggabungkan dense peringkat pertama + Late Interaction peringkat kedua + penyusun semula domain adalah bentuk pengeluaran 2026.