KGAはどのようなITサービスを提供していますか？

KGAは、ソフトウェア導入・設定、SaaSシステムの保守運用、アプリケーション設定代行、テクニカルサポート、デジタルコンサルティング（ウェブサイト制作含む）、セキュリティ対策、データ管理・バックアップなど、包括的なITサポートサービスを提供しています。

対応エリアはどこですか？

静岡県湖西市を拠点に、リモートサポートで全国対応しています。訪問サポートは東海圏を中心に対応しております。

契約前に相談できますか？

はい、初回のご相談・お見積もりは完全無料です。お客様のIT課題をお聞かせいただき、最適なソリューションをご提案いたします。

緊急対応は可能ですか？

はい、Business プラン（月額）では24時間緊急対応が可能です。Annual Basic および Annual Premium プランでは営業時間内の優先対応を行っています。

海外のテレビアプリの設定もできますか？

はい、海外のテレビアプリケーションやメディアプレーヤーの導入・設定をサポートしています。合法的な海外コンテンツへのアクセス環境を構築いたします。

多言語でのサポートは可能ですか？

日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語でサポートを提供しています。

初期費用や隠れた料金はありますか？

一切ございません。表示価格はすべて税込の最終金額です。初期費用・隠れた請求・想定外の追加料金は発生しません。表示価格のままお支払いいただけます。

途中でプランを変更できますか？

はい、いつでも変更・解約いただけます。アップグレードは即時適用し、差額を日割りでご請求いたします。ダウングレードは次回更新時からの適用となります。

利用可能な支払い方法を教えてください。

StripeおよびKomoju経由で主要クレジットカード（Visa・Mastercard・JCB・American Express）をご利用いただけます。銀行振込・コンビニ決済にも対応しています。ビジネスITプランのお客様には請求書払いもご用意しています。

返金には対応していますか？

はい。すべての年間プランに14日間の全額返金保証をご用意しています（理由を問いません）。月額制のビジネスITプランはいつでも解約可能で、未使用期間分を日割りでご返金いたします。

年間プランとビジネスITプランの違いは何ですか？

年間プランは個人・小規模チーム向けのアプリ設定とサポートが対象です。ビジネスITプランは、Web制作・システム運用・業務自動化・セキュリティ・専任担当者まで含む、企業向けの包括的な月額サブスクリプションです。

英語でのサポートは可能ですか？

はい。日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語で、メール・チャット・Web会議にて完全対応いたします。

分散推論 2026: Prefill/Decode 分離と SplitWise・DistServe の実装 — KGA Tech Blog

なぜ Prefill/Decode を分けるのか

LLM 推論は性質が大きく異なる 2 フェーズで構成される。Prefill は計算密度が高く（compute-bound）、Decode はメモリ帯域が支配的（memory-bound）。同じ GPU で両方を処理すると、互いの最適点を犠牲にする。disaggregation は両者を別 GPU プールで処理し、それぞれ最適な構成にする。

Prefill ノードと Decode ノード

Prefill ノード: コア性能重視、KV キャッシュは生成後に decode ノードに転送
Decode ノード: HBM 帯域重視、KV キャッシュをローカルに展開
両者は高速ネットワーク（NVLink / InfiniBand）で接続

実装フレームワーク

SplitWise (Microsoft Research): 理論的なフレーム提案
DistServe (Peking University): 実装公開、複数モデル対応
Mooncake (Moonshot): Kimi の運用知見をオープン化
vLLM 0.9+ の disaggregated mode: 実験的サポート

ベンチ（社内 R&D）

| 構成 | TTFT p95 | TPOT p95 | スループット | | --- | --- | --- | --- | | 一体型 (H100 ×8) | 1.2 s | 35 ms | 1.8x | | 分離型 (Prefill 4 + Decode 4) | 0.7 s | 28 ms | 2.6x |

レイテンシ・スループットとも明確な改善。ただし運用複雑度は大きく上がる。

注意点

KV キャッシュ転送がボトルネックになる場合あり、NVLink 経由必須
障害時のフェイルオーバーが複雑化（Prefill ノード障害 → 全体停止のリスク）
観測対象が増える（2 種類のノードを別個に監視）

ユースケース適性

適合: 大規模 SaaS 推論、TTFT 厳しい要求、長文プロンプトが多い
不適合: 小規模社内利用、運用要員が少ない、単純な構成で十分なケース

まとめ

Disaggregated inference は 2026 年中盤から大手プロバイダで標準採用が進む見込み。SMB が直接構築するのは早いが、原理を理解しておくと「マネージド推論サービスを選ぶ際の評価軸」が明確になる。

分散推論 2026: Prefill/Decode 分離と SplitWise・DistServe の実装

なぜ Prefill/Decode を分けるのか

Prefill ノードと Decode ノード

実装フレームワーク

ベンチ（社内 R&D）

注意点

ユースケース適性

まとめ

まずは無料相談から