Langkau ke kandungan
Kembali ke senarai artikel
Infrastructure15分

Pengurusan KV Cache untuk Inferens LLM 2026: Strategi dan Amalan Terbaik

KV Cache Management 2026: FP8 KV, MoE Memory Profiles, CPU/NVMe Offload, Multi-Tenant Isolation

吉田 遼Senior Systems Engineer, LLM Serving
2026-04-2215分
KV CacheFP8MoELMCacheSGLangvLLMMulti-Tenant

Mengapa KV Cache Menjadi Kesesakan dalam Serving

Menjalankan model dense bersaiz 70B pada panjang urutan 128K dengan 256 selarian memerlukan KV cache sahaja hampir 1TB HBM. Untuk MoE (seperti Mixtral-8x22B atau keluarga DeepSeek-V3), pengiraan adalah ringan kerana operasi jarang dalam pemilihan pakar, tetapi KV cache dikekalkan sepenuhnya, jadi tekanan kapasiti adalah sama atau melebihi model dense. Masalah yang dihabiskan sebahagian besar masa oleh pasukan serving 2026 ialah "bagaimana untuk memuatkan KV bagi mengisi pengkomputeran GPU", dan HBM sahaja jelas tidak mencukupi. Artikel ini merangkumkan kuantisasi FP8, paging, offload CPU/NVMe, RadixAttention, dan pengasingan berbilang penyewa sebagai satu reka bentuk bersatu.

Pertukaran Kualiti KV Cache FP8

KV FP8 (biasanya E5M2 atau E4M3) mengurangkan penggunaan HBM separuh berbanding FP16. Pada 2025, penurunan kualiti output menjadi kebimbangan, tetapi pada 2026, berdasarkan banyak kertas dan penanda aras dalaman, "jika kaedah kuantisasi yang sesuai dipilih, kehilangan kualiti adalah dalam 0.5%" telah menjadi pendapat umum. Cadangan adalah seperti berikut.

  • E5M2 (5 eksponen, 2 mantissa): Julat dinamik lebih luas. Lebih kuat untuk konteks panjang dan beban kerja berbilang bahasa. Kehilangan ketepatan sedikit lebih besar berbanding E4M3, tetapi kegagalan halusinasi lebih sedikit.
  • E4M3 (4 eksponen, 3 mantissa): Mantissa lebih banyak, cenderung kepada ketepatan. Sesuai untuk penjanaan kod dan penaakulan matematik. Aktivasi dengan nilai terpencil akan dipotong.
  • skala per-saluran + anjakan per-token: Sebagai kuantisasi sedar-aktivasi, ia menyerap nilai terpencil. Dilaksanakan dalam kedua-dua keluarga SGLang 0.4 dan vLLM 0.7.

Dalam penanda aras kualiti KGA (MT-Bench, HumanEval, JMMLU, 4 penanda aras RAG Jepun dalaman), penurunan skor agregat apabila mengurangkan Llama-3.3-70B dari KV FP16 ke KV FP8 E5M2 ialah -0.3%, dan Qwen3-72B ialah -0.6%. Sebaliknya, penggunaan HBM berkurangan separuh, dan bilangan sesi serentak pada GPU yang sama boleh dipertingkatkan 1.8 kali. Untuk deployment produksi, E5M2 sebagai tetapan awal dan pertimbangan E4M3 untuk endpoint khusus kod/matematik adalah operasi yang optimum.

Profil Memori MoE

Model MoE mudah disalah faham kerana kejarangan routing, tetapi KV cache dimaterialisasikan sepenuhnya untuk semua token. Dalam keluarga DeepSeek-V3 (671B jumlah, 37B diaktifkan), parameter pakar mendominasi sebahagian besar HBM, tetapi dalam operasi konteks panjang, KV melebihi dan menjadi dominan.

Terdapat tiga perkara penting dalam reka bentuk KV khusus MoE. Pertama, model keluarga MLA (Multi-head Latent Attention) mempunyai perwakilan mampat KV yang dipelajari dari masa latihan, dan kapasiti KV lebih 70% lebih kecil berbanding model dense dengan parameter setara. Ini mengurangkan kos serving secara drastik dalam keluarga DeepSeek-V3 dan Qwen3-MoE. Kedua, mencampurkan penempatan pakar setiap GPU (parallelisme pakar) dan penempatan KV cache (parallelisme tensor) akan menyebabkan ketidakseimbangan beban dan KV pada beberapa GPU penuh terlebih dahulu. Reka bentuk di mana EP dan TP dipisahkan dengan betul dan KV diagihkan sama rata ke semua GPU adalah wajib. Ketiga, terdapat kecenderungan dalam pakar yang diaktifkan oleh corak hot/cold routing, dan prefetch perlu direka bentuk dengan andaian KV pakar tertentu diakses dengan kerap.

Paging dan Offload CPU/NVMe

PagedAttention menguruskan KV dalam unit halaman 16 token dan tidak perlu memperuntukkan HBM fizikal secara berterusan. Pada 2026, konfigurasi di mana "halaman" ini merentasi tiga lapisan HBM, memori CPU, dan NVMe kini memasuki fasa praktikal.

Offload CPU. KV sesi yang tidak aktif (menunggu pengguna, langkah ejen yang sedang berfikir lama) dipindahkan ke memori CPU. Kos pemindahan PCIe semasa dimulakan semula adalah dalam lingkungan 40GB/s, dan KV urutan 128K model 70B boleh dipindahkan kembali ke GPU dalam beberapa ratus ms. Gunakan sama ada swap vLLM, backend offload SGLang, atau LMCache.

Offload NVMe. Sesi frekuensi lebih rendah (idle beberapa minit hingga jam) dipindahkan ke NVMe. Dengan NVMe Gen5, daya efektif ialah 12GB/s, dan kos pemulihan KV 128K ialah 2–3 saat. Semasa pemulihan selepas idle lama, pemulihan dua peringkat "dari NVMe ke CPU, dari CPU ke GPU" dipaipkan secara tak segerak.

Polisi bertingkat. Dalam kes pelanggan KGA, heuristik KV aktif dalam 30 saat terakhir ke HBM, 30 saat hingga 10 minit ke CPU, dan lebih daripada 10 minit ke NVMe adalah universal. Walau bagaimanapun, dalam berbilang penyewa, setiap penyewa perlu mempunyai TTL tersendiri.

Penanda Aras LMCache dan SGLang RadixAttention

Penanda aras yang disusun secara dalaman KGA pada Q1 2026. Beban kerja ialah sembang RAG (sistem gesaan 1.5K, konteks diperoleh 8K, purata giliran pengguna 200 token, purata berbilang giliran 6 giliran), model Qwen3-72B FP8, perkakasan H200 SXM 8 keping.

  • Hanya prefix caching vLLM: agregat throughput 2100 tok/s, TTFT p50 210ms, TTFT p99 720ms, kadar pengiraan semula prefill 38%.
  • SGLang RadixAttention: throughput 2650 tok/s, TTFT p50 140ms, TTFT p99 510ms, kadar pengiraan semula prefill 17%.
  • vLLM + LMCache (CPU+NVMe tempatan): throughput 2450 tok/s, TTFT p50 160ms, TTFT p99 430ms, kadar pengiraan semula prefill 11%.
  • vLLM + LMCache (teragih, NVMe dikongsi): throughput 2380 tok/s, TTFT p50 180ms, TTFT p99 480ms, kadar pengiraan semula prefill 6%. Semasa teragih, tidak dapat mengalahkan penggunaan semula HBM tempatan nod, tetapi kesan berkongsi cache merentasi keseluruhan kluster memberikan kesan pada p99.

Kesimpulannya, untuk nod tunggal gunakan SGLang RadixAttention, dan untuk keperluan cache dikongsi berbilang nod gunakan vLLM + LMCache — ini adalah dua pilihan utama semasa ini. TensorRT-LLM juga mempunyai fungsi setara, tetapi dari segi fleksibiliti konfigurasi, dua yang disebutkan di atas adalah lebih unggul.

Pengasingan dan Keadilan dalam Berbilang Penyewa

Apabila menjalankan serving berbilang penyewa dalam SaaS, lapisan KV mempunyai empat kekangan reka bentuk.

Risiko kebocoran. Jika gesaan sistem yang sama dikongsi, tiada masalah, tetapi kemungkinan "cache timing side channel" di mana permintaan penyewa lain merujuk KV yang mengandungi data khusus penyewa tidak sifar. Dalam domain keselamatan tinggi seperti kewangan, perubatan, dan kerajaan, pengasingan fizikal KV dengan memisahkan proses GPU atau kumpulan GPU mengikut penyewa adalah penyelesaian praktikal.

Keadilan. Dengan LRU naif, penyewa yang mengalirkan permintaan dalam jumlah besar mendominasi KV dan TTFT penyewa lain merosot. KGA mencadangkan "polisi hibrid di mana kuota KV ditetapkan setiap penyewa, bahagian yang melebihi kuota adalah LRU tetapi dalam operasi biasa maksimum 50% setiap penyewa".

Kualiti perkhidmatan mengikut SLA. Pelapisan di mana penyewa premium dijamin petak kekal HBM dan penyewa asas diutamakan offload CPU/NVMe semakin umum. Kedua-dua vLLM dan SGLang mempunyai penjadual boleh diulas dan polisi tersuai boleh dilaksanakan.

Keterlihatan. Mendashboardkan kadar paduan KV setiap penyewa, kadar pengusiran KV, dan penggunaan kuota KV dengan pengeksport prometheus membolehkan caj dan perancangan kapasiti diselaraskan. Dalam tindanan standard KGA, ini divisualisasikan dengan Grafana.

Contoh Konfigurasi: vLLM + LMCache + KV FP8

```python from vllm import LLM from lmcache.integration.vllm import LMCacheConnector

llm = LLM( model="Qwen/Qwen3-72B-Instruct", tensor_parallel_size=8, kv_cache_dtype="fp8_e5m2", enable_prefix_caching=True, enable_chunked_prefill=True, max_num_batched_tokens=8192, kv_transfer_config={ "kv_connector": "LMCacheConnector", "kv_role": "kv_both", "kv_buffer_size": 5e9, }, ) ```

Di sisi LMCache, 256GB diperuntukkan untuk lapisan CPU dan 2TB untuk lapisan NVMe, dengan namespace logik dipotong mengikut penyewa untuk menguruskan kuota.

Kesimpulan

KV cache 2026 bukan lagi era "menyimpan secara naif dalam jumlah yang muat dalam HBM". Kurangkan kapasiti separuh dengan KV FP8, kurangkan secara struktural dengan model keluarga MLA, hapuskan fragmentasi dengan PagedAttention, aktifkan perkongsian prefix dengan LMCache atau RadixAttention, simpan KV jangka panjang dengan lapisan CPU/NVMe, dan lindungi kualiti perkhidmatan dengan pengasingan berbilang penyewa dan polisi keadilan. Barulah setelah enam lapisan ini beroperasi serentak, daya tampung efektif beberapa ribu tok/s setiap nod dan SLO TTFT p99 500ms dapat dicapai serentak. Sesiapa yang menguasai KV akan menguasai serving LLM 2026.

Mari selesaikan cabaran teknikal anda bersama.

KGA IT Solutions mempunyai pasukan pakar AI, awan dan DevOps untuk memberikan penyelesaian optimum bagi cabaran anda.

Hubungi Kami