Apakah perkhidmatan IT yang KGA tawarkan?

KGA menyediakan perkhidmatan sokongan IT yang menyeluruh termasuk pemasangan dan penyediaan perisian, penyelenggaraan sistem SaaS, konfigurasi aplikasi, sokongan teknikal, perundingan digital (termasuk pembangunan laman web), perkhidmatan keselamatan serta pengurusan data & sandaran.

Kawasan manakah yang anda sokong?

Berpangkalan di Kosai, Shizuoka, kami menyediakan sokongan jarak jauh di seluruh Jepun. Sokongan di tapak tertumpu di rantau Tokai.

Bolehkah saya berunding sebelum menandatangani kontrak?

Ya, perundingan awal dan anggaran adalah percuma sepenuhnya. Kami akan mendengar cabaran IT anda dan mencadangkan penyelesaian terbaik.

Adakah sokongan kecemasan tersedia?

Ya, pelan Business (bulanan) merangkumi sokongan kecemasan 24 jam. Pelan Annual Basic dan Annual Premium menyediakan respons keutamaan semasa waktu bekerja.

Bolehkah anda menyediakan aplikasi TV antarabangsa?

Ya, kami menyokong pemasangan dan konfigurasi aplikasi TV antarabangsa serta pemain media. Kami membantu menyediakan persekitaran akses sah kepada kandungan antarabangsa.

Adakah anda menyediakan sokongan berbilang bahasa?

Kami menyokong 9 bahasa: Jepun, Inggeris, Portugis, Korea, Cina, Melayu, Filipino, Vietnam dan Sepanyol.

Adakah terdapat yuran pemasangan atau caj tersembunyi?

Tidak. Semua harga yang dipaparkan adalah harga akhir dan termasuk cukai. Tiada yuran pemasangan, caj tersembunyi atau invois mengejut. Anda bayar tepat seperti yang dipaparkan.

Bolehkah saya menukar pelan kemudian?

Boleh. Anda boleh menaik taraf, menurun taraf atau membatalkan pada bila-bila masa. Naik taraf berkuat kuasa serta-merta dan kami akan mengira perbezaan secara pro-rata. Turun taraf berkuat kuasa pada kitaran pembaharuan seterusnya.

Kaedah pembayaran apakah yang anda terima?

Kami menerima semua kad kredit utama (Visa, Mastercard, JCB, American Express) melalui Stripe dan Komoju, serta pindahan bank dan pembayaran kedai serbaneka di Jepun. Pembayaran melalui invois tersedia untuk pelanggan Business IT Plan.

Adakah anda menawarkan bayaran balik?

Ya. Kami menawarkan jaminan bayaran balik 14 hari untuk semua pelan tahunan — tanpa soalan. Langganan bulanan Business IT Plan boleh dibatalkan pada bila-bila masa dengan bayaran balik pro-rata untuk tempoh yang tidak digunakan.

Apakah perbezaan antara pelan tahunan dan Business IT Plan?

Pelan tahunan merangkumi konfigurasi aplikasi dan sokongan untuk individu dan pasukan kecil. Business IT Plan ialah langganan bulanan menyeluruh untuk syarikat yang memerlukan pembangunan laman web, pengurusan sistem, automasi, keselamatan dan pengurus akaun khusus.

Adakah anda menyediakan sokongan dalam Bahasa Melayu?

Ya. Pasukan kami menyediakan sokongan berbilang bahasa yang lengkap dalam bahasa Jepun, Inggeris, Portugis, Korea, Cina, Melayu, Filipina, Vietnam dan Sepanyol — melalui e-mel, sembang dan panggilan video yang dijadualkan.

vLLM 0.8 セルフホスト実践 2026: 4×4090・1×H100 でのスループット最適化 — KGA Tech Blog

vLLM 2026 系のなにが変わったか

vLLM は 2026 年に入って Model Runner V2（MRV2）と呼ばれる実行コアの再実装をリリースした。vLLM 公式ブログによれば、MRV2 は API 互換を維持しつつ CPU-GPU 同期点を削減し、投機的デコーディング時に時間あたり出力トークン（TPOT）の改善が報告されている。本稿では公開情報の範囲で、4×RTX 4090（24GB ×4）と 1×H100 80GB という中小企業でも届きうる2構成について、設計と運用の勘所を整理する。架空のベンチ数字は出さず、設定パラメータと根拠を中心に説明する。

4×RTX 4090: コンシューマGPU での実用域

×RTX 4090 構成（合計 96GB VRAM）は、Qwen 3 32B や Llama 3.x 70B 級を AWQ / GPTQ / FP8 量子化で動かす現実的なエントリ構成として、SI 案件でも増えている。注意点は PCIe 帯域と NVLink 非対応で、テンソル並列 (TP) を上げすぎると通信律速になることだ。実運用ではパイプライン並列 (PP) と TP の混在を避け、TP=4 + データ並列でバッチサイズを稼ぐのが安定する。

```bash # 4x RTX 4090 で AWQ 量子化 70B を起動する例（パラメータ最小セット） vllm serve Qwen/Qwen3-72B-Instruct-AWQ \ --tensor-parallel-size 4 \ --quantization awq_marlin \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```

`--enable-prefix-caching` は社内チャット用途で同じシステムプロンプトを使い回す場合に効く。プロンプトキャッシュのヒット率が運用 KPI として最も効くため、Grafana ダッシュボードに必ず置きたい指標だ。

1×H100 80GB: 単機の決定版

×H100 80GB はサーバルームを持つ中小企業や AI 事業会社の単機構成として強力だ。HBM3 80GB により、AWQ-INT4 で 100B 超のモデルもギリギリ載る。FP8 (e4m3) 推論を活かすには Hopper 専用の最適化パスが必要で、vLLM では `--quantization fp8` および対応モデルチェックポイントが前提となる。

シングル GPU 構成でこそ威力を発揮するのが投機的デコーディングだ。vLLM ドキュメントによれば、EAGLE・MTP・MLP・ドラフトモデル・n-gram など複数の方式が選べる。チャット系のように対話的なレイテンシ要求が強い用途では、ドラフトモデルか EAGLE の併用が現実解となる。Red Hat Developer の公開記事では、ShareGPT データセットでの投機的デコーディングが約 21% のスループット向上と約 20% のレイテンシ削減をもたらしたと報告されている。

```bash # H100 単機で投機的デコーディングを有効化する起動例 vllm serve meta-llama/Llama-3.3-70B-Instruct-FP8 \ --quantization fp8 \ --max-model-len 65536 \ --speculative-config '{"method":"eagle","num_speculative_tokens":4}' \ --enable-prefix-caching \ --kv-cache-dtype fp8_e5m2 ```

チューニングの勘所

スループット最適化はバッチサイズ、KVキャッシュサイズ、最大コンテキスト長の三角形で決まる。`--max-num-seqs` を上げてバッチを増やすほどスループットは伸びるが、待ち行列の頭で1リクエストが詰まると全体の TTFT（最初のトークンまでの時間）が悪化する。SLOG に TTFT P95 と ITL P95（出力トークン間隔）を必ず分けて取り、SLA をどちらに合わせるかを最初に決めることだ。

KV キャッシュの量子化（`--kv-cache-dtype fp8_e5m2` など）は H100 / RTX 4090 いずれでも実用域にあり、ロングコンテキスト用途では効果が大きい。一方、量子化の組み合わせには相性があり、AWQ + FP8 KV キャッシュなど特定組み合わせは出力品質に影響する場合があるため、ローンチ前のオフライン回帰テストは必須だ。

監視・運用：Prometheus + 推論固有メトリクス

vLLM は `/metrics` エンドポイントで Prometheus 形式のメトリクスを公開する。GPU 利用率や VRAM はもちろん、待ち行列長、プロンプトキャッシュヒット率、投機的デコーディングの受理率（acceptance rate）を必ず可視化したい。受理率が低下しているときは、ドラフトモデルとターゲットモデルの分布乖離が起きており、モデル更新時の見逃しに繋がる。

中小企業視点のコスト感

サーバ筐体・電源・ラック空調を含めた TCO で見れば、4×RTX 4090 構成は本体実装で約数百万円、月の電力で数万円規模。社外 API を月数百万円規模で使っている事業であれば、半年から1年で回収するシナリオは十分現実的だ。KGA IT では、PoC 段階では Ollama / LM Studio で要件を固め、本番想定トラフィックが見えた時点で vLLM への移行設計を引く2段構えを推奨している。

vLLM 0.8 セルフホスト実践 2026: 4×4090・1×H100 でのスループット最適化