KGAはどのようなITサービスを提供していますか？

KGAは、ソフトウェア導入・設定、SaaSシステムの保守運用、アプリケーション設定代行、テクニカルサポート、デジタルコンサルティング（ウェブサイト制作含む）、セキュリティ対策、データ管理・バックアップなど、包括的なITサポートサービスを提供しています。

対応エリアはどこですか？

静岡県湖西市を拠点に、リモートサポートで全国対応しています。訪問サポートは東海圏を中心に対応しております。

契約前に相談できますか？

はい、初回のご相談・お見積もりは完全無料です。お客様のIT課題をお聞かせいただき、最適なソリューションをご提案いたします。

緊急対応は可能ですか？

はい、Business プラン（月額）では24時間緊急対応が可能です。Annual Basic および Annual Premium プランでは営業時間内の優先対応を行っています。

海外のテレビアプリの設定もできますか？

はい、海外のテレビアプリケーションやメディアプレーヤーの導入・設定をサポートしています。合法的な海外コンテンツへのアクセス環境を構築いたします。

多言語でのサポートは可能ですか？

日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語でサポートを提供しています。

初期費用や隠れた料金はありますか？

一切ございません。表示価格はすべて税込の最終金額です。初期費用・隠れた請求・想定外の追加料金は発生しません。表示価格のままお支払いいただけます。

途中でプランを変更できますか？

はい、いつでも変更・解約いただけます。アップグレードは即時適用し、差額を日割りでご請求いたします。ダウングレードは次回更新時からの適用となります。

利用可能な支払い方法を教えてください。

StripeおよびKomoju経由で主要クレジットカード（Visa・Mastercard・JCB・American Express）をご利用いただけます。銀行振込・コンビニ決済にも対応しています。ビジネスITプランのお客様には請求書払いもご用意しています。

返金には対応していますか？

はい。すべての年間プランに14日間の全額返金保証をご用意しています（理由を問いません）。月額制のビジネスITプランはいつでも解約可能で、未使用期間分を日割りでご返金いたします。

年間プランとビジネスITプランの違いは何ですか？

年間プランは個人・小規模チーム向けのアプリ設定とサポートが対象です。ビジネスITプランは、Web制作・システム運用・業務自動化・セキュリティ・専任担当者まで含む、企業向けの包括的な月額サブスクリプションです。

英語でのサポートは可能ですか？

はい。日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語で、メール・チャット・Web会議にて完全対応いたします。

TensorRT-LLM vs vLLM: H100 上でのスループット・レイテンシ実測 — KGA Tech Blog

比較条件

ハードウェア: H100 80GB SXM5 ×4 (NVLink 900GB/s)
モデル: Llama-3.3-70B-Instruct, Qwen3-72B-Instruct, DeepSeek-V2.5-16B
ワークロード: 入力 2k / 出力 1k トークン、同時接続 32
量子化: FP8 統一

結果

Llama-3.3-70B (FP8)

| 指標 | TensorRT-LLM | vLLM 0.9 | | --- | --- | --- | | TTFT p50 | 0.42 s | 0.55 s | | TPOT p50 | 18 ms | 22 ms | | スループット (concurrent 32) | 2,400 tok/s | 1,950 tok/s |

Qwen3-72B (FP8)

| 指標 | TensorRT-LLM | vLLM 0.9 | | --- | --- | --- | | TTFT p50 | 0.45 s | 0.58 s | | TPOT p50 | 19 ms | 23 ms | | スループット (concurrent 32) | 2,300 tok/s | 1,880 tok/s |

純パフォーマンスでは TensorRT-LLM が明確に優位。ただし運用観点では別途考慮が必要。

運用面の比較

| 観点 | TensorRT-LLM | vLLM | | --- | --- | --- | | モデル追加の容易さ | 専用ビルドが必要 | git clone で即起動 | | 多モデル切替 | 限定的 | LoRA / multi-model 対応 | | 量子化サポート | INT4/8, FP8, AWQ | FP8, AWQ, GPTQ など | | エコシステム | NVIDIA Triton 連携 | OpenAI 互換, 単体運用 | | ドキュメント | 厚い、ただし学習曲線急 | 軽い、公式ドキュメントが整備 |

選定指針

純粋スループットと低レイテンシ最優先 → TensorRT-LLM + Triton
多モデル運用、頻繁なモデル更新 → vLLM
開発者 1-2 名の小規模運用 → vLLM
大規模 SaaS、運用専任チーム有り → TensorRT-LLM

まとめ

TensorRT-LLM は性能で優位、vLLM は運用容易性で優位。SMB は基本 vLLM、SaaS 提供で性能が直接コストに効く局面では TensorRT-LLM、というのが現実的な選び分け。社内 R&D では複数モデルが混在する案件は vLLM、単一モデル × 高負荷の案件は TensorRT-LLM、と切り分けている。

TensorRT-LLM vs vLLM: H100 上でのスループット・レイテンシ実測

比較条件

結果

Llama-3.3-70B (FP8)

Qwen3-72B (FP8)

運用面の比較

選定指針

まとめ

まずは無料相談から