KGAはどのようなITサービスを提供していますか？

KGAは、ソフトウェア導入・設定、SaaSシステムの保守運用、アプリケーション設定代行、テクニカルサポート、デジタルコンサルティング（ウェブサイト制作含む）、セキュリティ対策、データ管理・バックアップなど、包括的なITサポートサービスを提供しています。

対応エリアはどこですか？

静岡県湖西市を拠点に、リモートサポートで全国対応しています。訪問サポートは東海圏を中心に対応しております。

契約前に相談できますか？

はい、初回のご相談・お見積もりは完全無料です。お客様のIT課題をお聞かせいただき、最適なソリューションをご提案いたします。

緊急対応は可能ですか？

はい、Business プラン（月額）では24時間緊急対応が可能です。Annual Basic および Annual Premium プランでは営業時間内の優先対応を行っています。

海外のテレビアプリの設定もできますか？

はい、海外のテレビアプリケーションやメディアプレーヤーの導入・設定をサポートしています。合法的な海外コンテンツへのアクセス環境を構築いたします。

多言語でのサポートは可能ですか？

日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語でサポートを提供しています。

初期費用や隠れた料金はありますか？

一切ございません。表示価格はすべて税込の最終金額です。初期費用・隠れた請求・想定外の追加料金は発生しません。表示価格のままお支払いいただけます。

途中でプランを変更できますか？

はい、いつでも変更・解約いただけます。アップグレードは即時適用し、差額を日割りでご請求いたします。ダウングレードは次回更新時からの適用となります。

利用可能な支払い方法を教えてください。

StripeおよびKomoju経由で主要クレジットカード（Visa・Mastercard・JCB・American Express）をご利用いただけます。銀行振込・コンビニ決済にも対応しています。ビジネスITプランのお客様には請求書払いもご用意しています。

返金には対応していますか？

はい。すべての年間プランに14日間の全額返金保証をご用意しています（理由を問いません）。月額制のビジネスITプランはいつでも解約可能で、未使用期間分を日割りでご返金いたします。

年間プランとビジネスITプランの違いは何ですか？

年間プランは個人・小規模チーム向けのアプリ設定とサポートが対象です。ビジネスITプランは、Web制作・システム運用・業務自動化・セキュリティ・専任担当者まで含む、企業向けの包括的な月額サブスクリプションです。

英語でのサポートは可能ですか？

はい。日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語で、メール・チャット・Web会議にて完全対応いたします。

DeepSeek を日本リージョンにデプロイする: vLLM・SGLang・Tokyo GPU 構成の実戦 — KGA Tech Blog

なぜ Tokyo リージョンでセルフホストするのか

中国本土経由の DeepSeek 公式 API は安価だが、レイテンシ・データ越境規制・SLA の不安定さが課題になる。GMO・さくら・AWS Tokyo の GPU インスタンス、もしくは ConoHa/IDC フロンティアの自社 GPU 群でセルフホストする経路は、決済・医療・金融など秘匿性が要求される業務での現実解だ。

ハードウェア選定

| 構成 | 推奨モデル | 月額目安 | 備考 | | --- | --- | --- | --- | | 単機 H100 80GB ×1 | DeepSeek-V2.5 / Coder Lite | 80-120 万円 | PoC 段階に向く | | H100 80GB ×4 | DeepSeek-V3.2 (FP8 + MLA) | 320-450 万円 | 本番最小構成 | | H200 141GB ×4 | DeepSeek-R1 + V3.2 同居 | 480-600 万円 | KV キャッシュ余裕大 | | GB200 NVL72 共有 | R1 大規模並列推論 | 月 1,000 万円超 | 多テナント前提 |

vLLM での設定例

```bash vllm serve deepseek-ai/DeepSeek-V3.2 \ --tensor-parallel-size 4 \ --enable-expert-parallel \ --kv-cache-dtype fp8_e5m2 \ --max-model-len 65536 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```

`enable-expert-parallel` を有効化すると expert を GPU 間に分割でき、活性化通信は NVLink/InfiniBand が前提となる。NVSwitch がない構成では性能劣化が大きいので、PCIe オンリーのサーバでは非推奨である。

SGLang との比較

SGLang は RadixAttention によるプレフィックスキャッシュが強力で、エージェントワークロード（同一 system プロンプトの大量並列）では vLLM より 1.4-1.8 倍速いという報告が公開されている。社内 R&D の構造化出力ベンチでも SGLang のほうが JSON Schema 制約付き生成のスループットで優位だった。

| 観点 | vLLM | SGLang | | --- | --- | --- | | ドキュメント | 充実 | 中程度 | | Prefix Caching | あり | より高速 | | Constrained Decoding | あり | あり (xgrammar 統合) | | MoE Expert Parallel | あり | あり | | 運用知見 | 豊富 | 増えつつある |

ランニングコスト試算

社内 R&D での目安として、月 200M トークン処理を H100×4 セルフホストで賄うと 350-450 万円程度。DeepSeek 公式 API なら 30-50 万円。Claude Opus 4.5 経由なら 1,500-2,500 万円。コストだけ見れば公式 API が圧倒的だが、規制対応・SLA・データ越境を加味すると Tokyo セルフホストの選択は正当化されやすい。

観測と運用

Prometheus + Grafana で TTFT、TPOT、KV キャッシュ占有率、expert 活性度を可視化
expert 活性度の偏りが続く場合は `--load-format auto` の再ロードや load balancer 側のシャーディング見直しを検討
nginx リバースプロキシで OpenAI 互換 API として公開し、社内アプリは無改修で接続可能

結論

DeepSeek を本番運用するなら、vLLM はドキュメントとコミュニティの厚さで初手として安定。SGLang はエージェント中心ワークロードでの伸びしろが大きい。日本リージョンでの GPU 確保は GMO・さくら・AWS の在庫を継続監視して機会を逃さないこと。

DeepSeek を日本リージョンにデプロイする: vLLM・SGLang・Tokyo GPU 構成の実戦