KGA cung cấp những dịch vụ IT nào?

KGA cung cấp dịch vụ hỗ trợ IT toàn diện bao gồm cài đặt và thiết lập phần mềm, bảo trì hệ thống SaaS, cấu hình ứng dụng, hỗ trợ kỹ thuật, tư vấn số (bao gồm phát triển website), dịch vụ bảo mật và quản lý dữ liệu & sao lưu.

Các khu vực bạn hỗ trợ?

Đặt tại Kosai, Shizuoka, chúng tôi cung cấp hỗ trợ từ xa trên toàn Nhật Bản. Hỗ trợ tại chỗ chủ yếu ở vùng Tokai.

Tôi có thể tư vấn trước khi ký hợp đồng không?

Có, tư vấn ban đầu và báo giá hoàn toàn miễn phí. Chúng tôi sẽ lắng nghe vấn đề IT của bạn và đề xuất giải pháp tối ưu.

Có hỗ trợ khẩn cấp không?

Có, gói Business (hàng tháng) bao gồm hỗ trợ khẩn cấp 24 giờ. Gói Annual Basic và Annual Premium có phản hồi ưu tiên trong giờ làm việc.

Bạn có thể cài đặt ứng dụng TV quốc tế không?

Có, chúng tôi hỗ trợ cài đặt và cấu hình các ứng dụng TV quốc tế và trình phát media. Chúng tôi giúp thiết lập môi trường truy cập hợp pháp vào nội dung quốc tế.

Bạn có hỗ trợ đa ngôn ngữ không?

Chúng tôi hỗ trợ 9 ngôn ngữ: tiếng Nhật, Anh, Bồ Đào Nha, Hàn, Trung, Mã Lai, Philippines, Việt và Tây Ban Nha.

Có phí cài đặt hoặc phí ẩn nào không?

Không. Tất cả giá hiển thị đều là giá cuối cùng đã bao gồm thuế. Không có phí cài đặt, phí ẩn hay hóa đơn bất ngờ. Bạn trả đúng những gì bạn thấy.

Tôi có thể đổi gói sau không?

Có. Bạn có thể nâng cấp, hạ cấp hoặc hủy bất cứ lúc nào. Việc nâng cấp có hiệu lực ngay lập tức và chúng tôi sẽ tính chênh lệch theo tỷ lệ ngày. Việc hạ cấp sẽ có hiệu lực vào chu kỳ gia hạn tiếp theo.

Bạn chấp nhận những phương thức thanh toán nào?

Chúng tôi chấp nhận tất cả các thẻ tín dụng chính (Visa, Mastercard, JCB, American Express) thông qua Stripe và Komoju, cùng với chuyển khoản ngân hàng và thanh toán tại cửa hàng tiện lợi ở Nhật Bản. Khách hàng Business IT Plan có thể thanh toán qua hóa đơn.

Bạn có hoàn tiền không?

Có. Chúng tôi cung cấp bảo đảm hoàn tiền trong 14 ngày cho tất cả các gói hàng năm — không cần giải thích. Đăng ký Business IT Plan hàng tháng có thể hủy bất cứ lúc nào với khoản hoàn tiền theo tỷ lệ cho thời gian chưa sử dụng.

Sự khác biệt giữa các gói hàng năm và Business IT Plan là gì?

Các gói hàng năm bao gồm cấu hình ứng dụng và hỗ trợ cho cá nhân và nhóm nhỏ. Business IT Plan là một gói đăng ký hàng tháng toàn diện cho các công ty cần phát triển website, quản lý hệ thống, tự động hóa, bảo mật và người quản lý tài khoản riêng.

Bạn có hỗ trợ bằng tiếng Việt không?

Có. Đội ngũ của chúng tôi cung cấp hỗ trợ đa ngôn ngữ đầy đủ bằng tiếng Nhật, tiếng Anh, tiếng Bồ Đào Nha, tiếng Hàn, tiếng Trung, tiếng Mã Lai, tiếng Philippines, tiếng Việt và tiếng Tây Ban Nha — qua email, chat và các cuộc gọi video đã lên lịch.

ローカル LLM 量子化トレードオフ 2026: Q4_K_M / AWQ / GPTQ / FP8 / INT4 を実務で使い分ける — KGA Tech Blog

量子化は「無料の最適化」ではない

量子化は VRAM とメモリ帯域の両方を削減する強力な手段だが、選び方を誤ると体感品質が大きく落ちる。本稿では 2026 年 4 月時点で主流の Q4_K_M / AWQ / GPTQ / FP8 / INT4 の 5 形式を取り上げ、ハードとランタイム別の最適解を整理する。

5 形式の早見比較

公開ベンチを集約した perplexity の傾向と用途は以下の通り。Llama 3.1 8B FP16 を基準とした、複数の独立したベンチ集計の中央値である。

| 形式 | 主ランタイム | サイズ目安 | perplexity 増 | 特性 | |---|---|---|---|---| | FP16 (基準) | vLLM / TGI | 100% | 0% | 品質基準 | | FP8 (E4M3) | vLLM / TRT-LLM | 約 50% | 〜0.5% | Hopper/Blackwell 必須 | | Q4_K_M (GGUF) | llama.cpp / Ollama | 約 27% | 〜1.5% | CPU/Metal/CUDA 万能 | | AWQ 4-bit | vLLM | 約 27% | 〜1.0% | NVIDIA GPU 最高品質 | | GPTQ 4-bit | vLLM / ExLlamaV2 | 約 27% | 〜2.5% | 軽量だが品質劣後 | | INT4 (TRT-LLM) | TensorRT-LLM | 約 25% | 〜2.0% | Jetson / 本番最適 |

注意: 上記は代表値で、モデルとデータセットにより 0.5〜1% 程度ぶれる。複数のオープンソース集計 (oobabooga blog 等) で「AWQ ≒ Q4_K_M < GPTQ」の品質序列はおおむね一貫して観測されている。

Q4_K_M: 最も汎用、迷ったらこれ

GGUF 形式の Q4_K_M は llama.cpp / Ollama / LM Studio すべてが標準サポートし、CPU・Metal・CUDA・ROCm 全環境で動く。perplexity 増加は約 1.5%、サイズは FP16 比 27% 程度で、70B でも約 42GB に収まる。Apple Silicon (Mac Studio / MacBook Pro) でローカル LLM を動かす場合は事実上 Q4_K_M 一択である。デメリットは vLLM の高スループット推論には向かないこと。

AWQ: NVIDIA GPU で最高品質を狙うなら

Activation-aware Weight Quantization (AWQ) は、活性化分布を考慮したキャリブレーションにより、4-bit でも FP16 にきわめて近い品質を維持する。複数のベンチで Q4_K_M よりわずかに低い perplexity (約 6.84 vs 6.74 など) を達成しているという報告がある一方、計算経路の違いで AWQ がやや高い perplexity を示すケースもあり、結論はモデル依存である。Marlin カーネルを併用すれば vLLM 上で 700+ tok/s 級のスループットが出る。本番 RAG / コーディング支援用途でとくに推奨される。

GPTQ: レガシー資産は活用、新規は AWQ 推奨

GPTQ は 2023 年以降長らく NVIDIA GPU の 4-bit 量子化標準だったが、AWQ・FP8 の台頭で位置付けが微妙になっている。複数集計で GPTQ 4-bit は AWQ 比で 1〜2% 程度 perplexity が高い傾向にある。既存 Hugging Face にある GPTQ チェックポイントを使う以外は、新規プロジェクトでは AWQ または FP8 を選んだほうが良い。

FP8: Hopper / Blackwell 世代の本命

FP8 (E4M3 / E5M2) は H100 / H200 / B200 / RTX 5090 で本格的にハードウェアアクセラレーションされる新標準だ。FP16 比でほぼ無損失 (perplexity 増 0.5% 以下) でありながら、メモリ・帯域を半減できる。vLLM の FP8 KV キャッシュサポートも安定し、長コンテキスト推論の VRAM 削減効果が極めて大きい。注意点は、Ada Lovelace (RTX 4090) 以前では FP8 演算ユニット非搭載のため恩恵が限定的なこと。

\`\`\`bash # vLLM 0.8 系での FP8 起動例 (RTX 5090) vllm serve Qwen/Qwen3-32B-FP8 \\ --quantization fp8 \\ --kv-cache-dtype fp8_e5m2 \\ --max-model-len 65536 \\ --gpu-memory-utilization 0.92 \`\`\`

INT4 / TensorRT-LLM: エッジと Jetson の本番

Jetson AGX Orin や Drive Thor 等の組み込み環境では、TensorRT-LLM の INT4 量子化が事実上の標準になりつつある。SmoothQuant + INT4 + TensorRT 最適化により、Jetson AGX Orin 64GB でも Mistral 7B 系で 100 tok/s 超が報告されている。本番デプロイのオフライン量子化フローはやや煩雑だが、得られる速度は Q4_K_M を大きく上回る。

実務での選択フロー

\`\`\`text - Mac で動かす → Q4_K_M (GGUF) 一択 - NVIDIA GPU + 品質最優先 → AWQ 4-bit - RTX 5090 / H100 + 高速重視 → FP8 - Jetson / エッジ本番 → INT4 (TensorRT-LLM) - 既存資産活用 → GPTQ 4-bit - 検証・PoC で迷ったら → Q4_K_M で起動 \`\`\`

KGA IT のローカル LLM 導入支援でも、最初の PoC は Q4_K_M で立ち上げ、本番化フェーズで AWQ / FP8 への移行を検討するという 2 段階アプローチを基本にしている。ハード制約と品質要件が決まれば、最適な量子化は機械的に絞り込める。

ローカル LLM 量子化トレードオフ 2026: Q4_K_M / AWQ / GPTQ / FP8 / INT4 を実務で使い分ける