KGAはどのようなITサービスを提供していますか？

KGAは、ソフトウェア導入・設定、SaaSシステムの保守運用、アプリケーション設定代行、テクニカルサポート、デジタルコンサルティング（ウェブサイト制作含む）、セキュリティ対策、データ管理・バックアップなど、包括的なITサポートサービスを提供しています。

対応エリアはどこですか？

静岡県湖西市を拠点に、リモートサポートで全国対応しています。訪問サポートは東海圏を中心に対応しております。

契約前に相談できますか？

はい、初回のご相談・お見積もりは完全無料です。お客様のIT課題をお聞かせいただき、最適なソリューションをご提案いたします。

緊急対応は可能ですか？

はい、Business プラン（月額）では24時間緊急対応が可能です。Annual Basic および Annual Premium プランでは営業時間内の優先対応を行っています。

海外のテレビアプリの設定もできますか？

はい、海外のテレビアプリケーションやメディアプレーヤーの導入・設定をサポートしています。合法的な海外コンテンツへのアクセス環境を構築いたします。

多言語でのサポートは可能ですか？

日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語でサポートを提供しています。

初期費用や隠れた料金はありますか？

一切ございません。表示価格はすべて税込の最終金額です。初期費用・隠れた請求・想定外の追加料金は発生しません。表示価格のままお支払いいただけます。

途中でプランを変更できますか？

はい、いつでも変更・解約いただけます。アップグレードは即時適用し、差額を日割りでご請求いたします。ダウングレードは次回更新時からの適用となります。

利用可能な支払い方法を教えてください。

StripeおよびKomoju経由で主要クレジットカード（Visa・Mastercard・JCB・American Express）をご利用いただけます。銀行振込・コンビニ決済にも対応しています。ビジネスITプランのお客様には請求書払いもご用意しています。

返金には対応していますか？

はい。すべての年間プランに14日間の全額返金保証をご用意しています（理由を問いません）。月額制のビジネスITプランはいつでも解約可能で、未使用期間分を日割りでご返金いたします。

年間プランとビジネスITプランの違いは何ですか？

年間プランは個人・小規模チーム向けのアプリ設定とサポートが対象です。ビジネスITプランは、Web制作・システム運用・業務自動化・セキュリティ・専任担当者まで含む、企業向けの包括的な月額サブスクリプションです。

英語でのサポートは可能ですか？

はい。日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語で、メール・チャット・Web会議にて完全対応いたします。

Qwen3-72B を東京リージョンに展開する: vLLM 設定・日本語チューニング・運用の実戦 — KGA Tech Blog

なぜ Qwen3-72B か

Qwen3 は Apache 2.0 ライセンスで配布されるアリババ Cloud の最新オープンウェイトで、72B Dense / 110B MoE のバリエーションが提供されている。漢字圏知識・コード生成・指示追従の総合点が高く、日本語タスクでも DeepSeek 系列と肩を並べる強さを持つ。本記事では 72B-Instruct を Tokyo の H100 80GB ×4 にセルフホストし、社内利用基盤として組み上げた構成を共有する。

vLLM 設定

```bash vllm serve Qwen/Qwen3-72B-Instruct \ --tensor-parallel-size 4 \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching \ --quantization fp8 \ --kv-cache-dtype fp8_e5m2 ```

H100 80GB ×4 で BF16 ロードはギリギリ収まらないため、FP8 量子化を必須とする。社内 R&D での速度計測では FP8 で 25-30 tok/s（連続生成、コンテキスト 8k）。

日本語プロンプト調整

Qwen は中国語起点の学習データ比率が高いため、敬語・丁寧体での出力安定性に注意する必要がある。`system` プロンプトに「日本語で、ですます調・敬語不要、技術的に正確に答えること」と明示するだけで一貫性が大きく改善する。

長文コンテキスト

公開仕様では 128k までスケールするが、実用上は 32-64k に制限したほうが品質が安定する。RoPE スケール（YaRN）を 4 倍まで上げると JMMLU で約 1.5 ポイントの劣化が見られたので、社内 R&D では 32k 固定で運用している。

観測項目

TTFT / TPOT
Prefix キャッシュヒット率
失敗ジョブ率（OOM / タイムアウト）
expert 活性度（MoE 版の場合）
ガード判定によるブロック率

まとめ

Qwen3-72B は日本語業務 AI のオープンウェイト基盤としてバランスがよく、特に多言語が混じる業務（中国語仕入先資料 + 日本語 FAQ など）で強い。Tokyo H100 ×4 + vLLM FP8 という構成は月額 320-420 万円で運用可能。

Qwen3-72B を東京リージョンに展開する: vLLM 設定・日本語チューニング・運用の実戦

なぜ Qwen3-72B か

vLLM 設定

日本語プロンプト調整

長文コンテキスト

観測項目

まとめ

まずは無料相談から