KGA cung cấp những dịch vụ IT nào?

KGA cung cấp dịch vụ hỗ trợ IT toàn diện bao gồm cài đặt và thiết lập phần mềm, bảo trì hệ thống SaaS, cấu hình ứng dụng, hỗ trợ kỹ thuật, tư vấn số (bao gồm phát triển website), dịch vụ bảo mật và quản lý dữ liệu & sao lưu.

Các khu vực bạn hỗ trợ?

Đặt tại Kosai, Shizuoka, chúng tôi cung cấp hỗ trợ từ xa trên toàn Nhật Bản. Hỗ trợ tại chỗ chủ yếu ở vùng Tokai.

Tôi có thể tư vấn trước khi ký hợp đồng không?

Có, tư vấn ban đầu và báo giá hoàn toàn miễn phí. Chúng tôi sẽ lắng nghe vấn đề IT của bạn và đề xuất giải pháp tối ưu.

Có hỗ trợ khẩn cấp không?

Có, gói Business (hàng tháng) bao gồm hỗ trợ khẩn cấp 24 giờ. Gói Annual Basic và Annual Premium có phản hồi ưu tiên trong giờ làm việc.

Bạn có thể cài đặt ứng dụng TV quốc tế không?

Có, chúng tôi hỗ trợ cài đặt và cấu hình các ứng dụng TV quốc tế và trình phát media. Chúng tôi giúp thiết lập môi trường truy cập hợp pháp vào nội dung quốc tế.

Bạn có hỗ trợ đa ngôn ngữ không?

Chúng tôi hỗ trợ 9 ngôn ngữ: tiếng Nhật, Anh, Bồ Đào Nha, Hàn, Trung, Mã Lai, Philippines, Việt và Tây Ban Nha.

Có phí cài đặt hoặc phí ẩn nào không?

Không. Tất cả giá hiển thị đều là giá cuối cùng đã bao gồm thuế. Không có phí cài đặt, phí ẩn hay hóa đơn bất ngờ. Bạn trả đúng những gì bạn thấy.

Tôi có thể đổi gói sau không?

Có. Bạn có thể nâng cấp, hạ cấp hoặc hủy bất cứ lúc nào. Việc nâng cấp có hiệu lực ngay lập tức và chúng tôi sẽ tính chênh lệch theo tỷ lệ ngày. Việc hạ cấp sẽ có hiệu lực vào chu kỳ gia hạn tiếp theo.

Bạn chấp nhận những phương thức thanh toán nào?

Chúng tôi chấp nhận tất cả các thẻ tín dụng chính (Visa, Mastercard, JCB, American Express) thông qua Stripe và Komoju, cùng với chuyển khoản ngân hàng và thanh toán tại cửa hàng tiện lợi ở Nhật Bản. Khách hàng Business IT Plan có thể thanh toán qua hóa đơn.

Bạn có hoàn tiền không?

Có. Chúng tôi cung cấp bảo đảm hoàn tiền trong 14 ngày cho tất cả các gói hàng năm — không cần giải thích. Đăng ký Business IT Plan hàng tháng có thể hủy bất cứ lúc nào với khoản hoàn tiền theo tỷ lệ cho thời gian chưa sử dụng.

Sự khác biệt giữa các gói hàng năm và Business IT Plan là gì?

Các gói hàng năm bao gồm cấu hình ứng dụng và hỗ trợ cho cá nhân và nhóm nhỏ. Business IT Plan là một gói đăng ký hàng tháng toàn diện cho các công ty cần phát triển website, quản lý hệ thống, tự động hóa, bảo mật và người quản lý tài khoản riêng.

Bạn có hỗ trợ bằng tiếng Việt không?

Có. Đội ngũ của chúng tôi cung cấp hỗ trợ đa ngôn ngữ đầy đủ bằng tiếng Nhật, tiếng Anh, tiếng Bồ Đào Nha, tiếng Hàn, tiếng Trung, tiếng Mã Lai, tiếng Philippines, tiếng Việt và tiếng Tây Ban Nha — qua email, chat và các cuộc gọi video đã lên lịch.

オンデバイスSLM 2026：Phi-4・Gemma 3・Llama 3.3 8B量子化で8GB RAMに何が載るか — KGA Tech Blog

オンデバイスSLMは「全てをクラウドに投げる」アーキテクチャからの離脱点として注目を集めている。レイテンシ、プライバシー、オフライン動作、そしてコストの4点で上位モデルに勝ち目があるからだ。2026年時点で実用レンジに入った代表格が Microsoft Phi-4（14B／mini 3.8B）、Google Gemma 3（4B／12B／27B）、Meta Llama 3.3 8B 系統である。本稿ではこれらを「8GB RAM の民生機に載る」前提で比較する。

量子化とメモリ消費の基本

FP16（半精度）での重みサイズはおおむね「パラメータ数 × 2 バイト」。8Bモデルなら約16GBで、8GB RAM には載らない。ここで登場するのが量子化である。INT8 で約半分、Q4_K_M（llama.cpp の4bit量子化）で概ね 1/4 まで縮む。8Bモデルの Q4_K_M は約4.5〜5.2GB 程度が目安で、KVキャッシュとOS常駐分を含めて 8GB RAM ギリギリに収まる。Phi-4 mini（3.8B）なら Q4 で 2〜2.5GB 程度となり、余裕がある。

Phi-4（Microsoft）

Microsoft が2024年末に公開した Phi-4 は合成データ重視のトレーニングで、数学・推論ベンチで同クラスを上回る傾向が公式テクニカルレポートで報告されている（未検証の独自ベンチではない）。mini 版（3.8B）はモバイル・組み込みを明確に意識した位置づけで、ライセンスは MIT 系に近い寛容な条件。日本語は「通じる」が、母語話者レベルの自然さはまだ物足りない印象で、翻訳用途や要約用途に寄せるのが無難だ。

Gemma 3（Google）

Gemma 3 は 4B／12B／27B の3サイズ展開で、4B がオンデバイスの主力候補。公式発表ではマルチモーダル対応（画像入力）と 128K コンテキストが特徴とされ、8GB RAM でも Q4 量子化で動作が可能とされている（実測は環境依存）。ライセンスは Gemma Terms of Use で、商用利用に追加条件がある点は事前確認が必須。日本語の自然さは Phi-4 より優位との評価が散見されるが、用途により逆転もある。

Llama 3.3 8B 系統

Meta の Llama 3.3 は 70B が主力だが、派生・ファインチューン版で 8B 級のバリアントが流通している。Llama.cpp・Ollama・LM Studio 等のエコシステムが最も成熟しており、ツール連携・プロンプト資産の再利用性で実務上の優位がある。ライセンスは Llama Community License で、月間アクティブユーザー7億超の企業には別契約が要る。

性能の天井

SLM はいずれも「長文の論理的破綻」「マルチステップのツール呼び出し精度」「専門知識の深さ」で上位モデルに届かない。エージェント的運用をオンデバイスで回すのは2026年時点ではまだ厳しく、用途は要約、下書き、翻訳、分類、RAG のリーダー役などに限定した方がいい。ルーティング（簡単なものはSLM、難しいものはクラウド）構成が現実解である。

選び方の指針

日本語の自然さ重視なら Gemma 3 4B、軽量さと数学/推論なら Phi-4 mini、エコシステム・ツール資産を活かすなら Llama 3.3 8B 派生。いずれも本番投入前には自社タスクでの実測が必須で、公開ベンチマークだけで決めるのは禁物だ。

実行環境の選択

macOS 環境では Apple Silicon の Metal アクセラレーションに最適化された llama.cpp／MLX が事実上の標準。Windows は CUDA が使えるなら llama.cpp か Ollama、CPU のみなら量子化レベルを Q4 より下げる必要がある場合もある。Linux サーバでは vLLM や TGI がスループット重視で強いが、単一クライアントの会話用途なら llama.cpp で十分なことが多い。モバイル（iOS／Android）では MLC LLM や llama.cpp の派生ビルドが選択肢になる。

KVキャッシュとコンテキスト長

忘れがちなのが KVキャッシュのメモリ消費だ。8Bモデルで 8K トークンのコンテキストを保持すると、キャッシュだけで 1〜2GB 程度食う場合があり、RAM の見積もりが狂う。長文要約や RAG で大きなコンテキストを張る用途では、コンテキスト長を現実的な範囲に絞るか、量子化レベルをさらに下げるトレードオフが発生する。

ライセンスとオフライン配布

オンデバイス配布では「アプリにモデルを同梱するか」「初回起動時にダウンロードするか」の設計も重要だ。モデルファイルは数GB級になり、アプリサイズと配信コストに直結する。Phi-4 の MIT 系寛容ライセンスは再配布も含めて最も扱いやすい部類で、Gemma・Llama は条件付きのため、配布形態を含めた法務確認を最初のスプリントに入れることを推奨する。

オンデバイスSLM 2026：Phi-4・Gemma 3・Llama 3.3 8B量子化で8GB RAMに何が載るか