KGAはどのようなITサービスを提供していますか？

KGAは、ソフトウェア導入・設定、SaaSシステムの保守運用、アプリケーション設定代行、テクニカルサポート、デジタルコンサルティング（ウェブサイト制作含む）、セキュリティ対策、データ管理・バックアップなど、包括的なITサポートサービスを提供しています。

対応エリアはどこですか？

静岡県湖西市を拠点に、リモートサポートで全国対応しています。訪問サポートは東海圏を中心に対応しております。

契約前に相談できますか？

はい、初回のご相談・お見積もりは完全無料です。お客様のIT課題をお聞かせいただき、最適なソリューションをご提案いたします。

緊急対応は可能ですか？

はい、Business プラン（月額）では24時間緊急対応が可能です。Annual Basic および Annual Premium プランでは営業時間内の優先対応を行っています。

海外のテレビアプリの設定もできますか？

はい、海外のテレビアプリケーションやメディアプレーヤーの導入・設定をサポートしています。合法的な海外コンテンツへのアクセス環境を構築いたします。

多言語でのサポートは可能ですか？

日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語でサポートを提供しています。

初期費用や隠れた料金はありますか？

一切ございません。表示価格はすべて税込の最終金額です。初期費用・隠れた請求・想定外の追加料金は発生しません。表示価格のままお支払いいただけます。

途中でプランを変更できますか？

はい、いつでも変更・解約いただけます。アップグレードは即時適用し、差額を日割りでご請求いたします。ダウングレードは次回更新時からの適用となります。

利用可能な支払い方法を教えてください。

StripeおよびKomoju経由で主要クレジットカード（Visa・Mastercard・JCB・American Express）をご利用いただけます。銀行振込・コンビニ決済にも対応しています。ビジネスITプランのお客様には請求書払いもご用意しています。

返金には対応していますか？

はい。すべての年間プランに14日間の全額返金保証をご用意しています（理由を問いません）。月額制のビジネスITプランはいつでも解約可能で、未使用期間分を日割りでご返金いたします。

年間プランとビジネスITプランの違いは何ですか？

年間プランは個人・小規模チーム向けのアプリ設定とサポートが対象です。ビジネスITプランは、Web制作・システム運用・業務自動化・セキュリティ・専任担当者まで含む、企業向けの包括的な月額サブスクリプションです。

英語でのサポートは可能ですか？

はい。日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語で、メール・チャット・Web会議にて完全対応いたします。

DeepSeek V3.2 アーキテクチャ徹底解説: MLA・MoE・FP8トレーニングの実装詳解 — KGA Tech Blog

なぜ DeepSeek V3.2 を読むべきか

DeepSeek V3.2 は MIT ライセンスで公開されているにもかかわらず、複数の独立ベンチマークで GPT-4o や Claude 3.5 Sonnet 系列に肉薄するスコアを出している MoE モデルである。総パラメータ 671B のうち推論時に活性化されるのは約 37B にとどまり、HuggingFace に公開されたモデルカードによれば、入力 1M トークンあたりの公式 API 価格は $0.14 という安さである。アーキテクチャ自体に新規性が多く、後続の Qwen / GLM / MiniMax 系の参考実装にも影響を与えている。

Multi-head Latent Attention (MLA)

V3.2 が継承する最大の独自要素が MLA だ。標準の MHA では K/V を head 数ぶん持つ必要があり、長文推論時の KV キャッシュサイズが GPU メモリを圧迫する。MLA は K/V を低ランクの潜在ベクトルに圧縮した上で、推論時に必要な head に投影しなおす。実装上は学習時のオーバーヘッドが軽く、推論時は `kv_cache_quant=fp8` と組み合わせると 128k コンテキストでも 1.7 倍ほどメモリを節約できる、というのが社内 R&D での観測値である。

```python # 概念コード: MLA の K/V 圧縮 class MLA(nn.Module): def __init__(self, d_model, n_heads, kv_lora_rank=512): super().__init__() self.kv_a_proj = nn.Linear(d_model, kv_lora_rank, bias=False) self.kv_b_proj = nn.Linear(kv_lora_rank, n_heads * d_head * 2, bias=False)

def forward(self, x): kv_latent = self.kv_a_proj(x) # 低ランクへ圧縮 kv = self.kv_b_proj(kv_latent) # 必要時に展開 return kv ```

補助損失なし MoE 負荷分散

通常の MoE モデルは expert 利用率を平準化するために auxiliary loss を導入するが、V3.2 では各 expert に学習可能なバイアスを足すだけで済ませている。バイアスは over-utilized な expert に対して引き下げられ、under-utilized な expert に対して引き上げられる、というシンプルな更新規則だ。論文では auxiliary loss を撤廃したことで MMLU スコアで +0.7 ポイントの改善が報告されている。

| 設定 | MMLU | GSM8K | HumanEval | | --- | --- | --- | --- | | Aux loss あり | 87.1 | 89.3 | 82.6 | | Bias 補正のみ | 87.8 | 89.5 | 83.4 |

FP8 ネイティブ学習

V3.2 は H800 クラスタで FP8 を主要な学習データ型として採用した最初の大規模モデルである。BF16 と比較して通信帯域は半分、MFU は 1.4 倍程度改善する。安定化のため、forward は per-tile 量子化、backward は per-block 量子化、master weight だけは BF16 で保持する設計である。

日本語ベンチでの所感

JMMLU、JCommonSenseQA、AI王で社内 R&D テストを行った範囲では、Qwen2.5-72B-Instruct と同等以上、Claude 3.5 Sonnet にはやや及ばないが GPT-4o-mini と互角という体感である。日本語コーディング（Python ライブラリ呼び出し）では Tools 系のフォーマットがやや弱く、出力フォーマットの厳格化プロンプトが必要だった。

デプロイ指針

vLLM 0.7+ または SGLang 0.4+ で MLA とFP8 KV キャッシュを有効化
4×H100 80GB 構成なら 32k コンテキスト・150 tok/s 程度
API 利用なら DeepSeek 公式 + バックアップに OpenRouter 二重化が無難
機密データを扱う場合は中国国内サーバ経由を避け、OSS 重みを Tokyo の GPU でセルフホストする経路を選ぶ

DeepSeek V3.2 アーキテクチャ徹底解説: MLA・MoE・FP8トレーニングの実装詳解