KGAはどのようなITサービスを提供していますか？

KGAは、ソフトウェア導入・設定、SaaSシステムの保守運用、アプリケーション設定代行、テクニカルサポート、デジタルコンサルティング（ウェブサイト制作含む）、セキュリティ対策、データ管理・バックアップなど、包括的なITサポートサービスを提供しています。

対応エリアはどこですか？

静岡県湖西市を拠点に、リモートサポートで全国対応しています。訪問サポートは東海圏を中心に対応しております。

契約前に相談できますか？

はい、初回のご相談・お見積もりは完全無料です。お客様のIT課題をお聞かせいただき、最適なソリューションをご提案いたします。

緊急対応は可能ですか？

はい、Business プラン（月額）では24時間緊急対応が可能です。Annual Basic および Annual Premium プランでは営業時間内の優先対応を行っています。

海外のテレビアプリの設定もできますか？

はい、海外のテレビアプリケーションやメディアプレーヤーの導入・設定をサポートしています。合法的な海外コンテンツへのアクセス環境を構築いたします。

多言語でのサポートは可能ですか？

日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語でサポートを提供しています。

初期費用や隠れた料金はありますか？

一切ございません。表示価格はすべて税込の最終金額です。初期費用・隠れた請求・想定外の追加料金は発生しません。表示価格のままお支払いいただけます。

途中でプランを変更できますか？

はい、いつでも変更・解約いただけます。アップグレードは即時適用し、差額を日割りでご請求いたします。ダウングレードは次回更新時からの適用となります。

利用可能な支払い方法を教えてください。

StripeおよびKomoju経由で主要クレジットカード（Visa・Mastercard・JCB・American Express）をご利用いただけます。銀行振込・コンビニ決済にも対応しています。ビジネスITプランのお客様には請求書払いもご用意しています。

返金には対応していますか？

はい。すべての年間プランに14日間の全額返金保証をご用意しています（理由を問いません）。月額制のビジネスITプランはいつでも解約可能で、未使用期間分を日割りでご返金いたします。

年間プランとビジネスITプランの違いは何ですか？

年間プランは個人・小規模チーム向けのアプリ設定とサポートが対象です。ビジネスITプランは、Web制作・システム運用・業務自動化・セキュリティ・専任担当者まで含む、企業向けの包括的な月額サブスクリプションです。

英語でのサポートは可能ですか？

はい。日本語・英語・ポルトガル語・韓国語・中国語・マレー語・フィリピン語・ベトナム語・スペイン語の9言語で、メール・チャット・Web会議にて完全対応いたします。

ベンチマーク劇場: 飽和・汚染・誇張の構造 — KGA Tech Blog

プレスリリースのスコアを疑うことから始める

新モデルの発表が出るたびに、HumanEval、MMLU、GSM8K、SWE-Bench、MATH などのベンチマーク数値が表組みで並ぶ。その瞬間に SNS 上で「GPT-x を越えた」「オープンソースがフロンティアに追いついた」といった単純化が拡散する。しかし2026年の現在、これらの数値はすでに素朴に受け取れる段階を過ぎている。本稿ではよく参照される4つのベンチマークについて、言説を相対化する材料を整理する。

HumanEval の飽和

HumanEval は164問のコード生成タスク群で、2021年に OpenAI が公開した初期の主要指標である。2023年の時点で上位モデルはすでに80%台に到達し、2025〜2026年には主要フロンティアモデルが90%後半に張り付いている、と各社の技術レポートは報告している。つまり、新モデルのプレスで HumanEval のスコアを大きく掲げること自体が、数年前の尺度で測っていることを露呈する所作になりつつある。

飽和が示唆するのは、「このベンチマークはもう識別力を失った」という事実だ。数点の差が実務性能の差を反映しているかは不明で、プロンプト設計、temperature、評価スクリプトの細部で上下する。HumanEval+ や EvalPlus のように評価を厳格化した派生版が活用されているが、それらを掲載しないプレスは、測定の自由度を利用した可能性を疑うべき対象になる。

MMLU の学習データ汚染

MMLU は57科目、約1.6万問からなる広範な知識テストだ。公開直後は人間の専門家水準との距離を測る良質な指標だったが、2023〜2024年にかけて「事前学習コーパスに MMLU の問題文が部分的に混入している」という汚染疑義が複数の研究者から報告された。Web クロールで収集される訓練データに、ベンチマーク問題の解説記事や学生の質問投稿が含まれるため、完全な未汚染データセットを保つのは極めて困難である。

対策として MMLU-Pro、MMLU-Redux、GPQA Diamond などの後継・派生版が提案されている。GPQA は博士課程レベルの専門問題で、Web 上の解答が相対的に少ないとされる。新モデル発表で MMLU のみを掲示している場合、より汚染耐性の高い指標を併記しない理由を問う姿勢が必要だ。

SWE-Bench の運用揺らぎ

SWE-Bench は実際の GitHub Issue と修正 PR をもとにした、エージェント型コーディング評価である。実務を模した素晴らしい設計だが、運用上の揺らぎが大きい。解決に必要なリポジトリ状態の準備、依存関係、テスト実行環境、ツール呼出の許可範囲、評価時の補助プロンプトなど、設定が多いため、同じモデルでもスコアが10%以上振れるケースが報告されている。

SWE-Bench Verified のような人手選別サブセット、SWE-Bench Lite、SWE-Bench Multimodal などの派生が順次登場している。プレス発表を読む際は、(a) どの派生版か、(b) エージェントの補助ツール構成、(c) 何試行の best-of-n か、を必ず確認したい。条件開示のないスコアは、事実上の自己申告と同格に扱うべきだ。

プレスリリースのチェリーピッキング

各社のモデル発表は、戦略的な指標選択の上に成立している。自社が強い指標だけを主題化し、弱い指標を脚注へ追いやる所作は、もはや業界の標準文法である。これは詐欺ではなく、マーケティング装置としての正常動作だが、ユーザー側は装置の仕様を理解して読む必要がある。

実務的には、自社ユースケースの代表タスク10〜30件で、複数モデルをブラインド評価する内製プロセスが最も信頼できる。KGA では、顧客の本番ログから匿名化・サンプリングした評価セットをリポジトリ化し、新モデルが出るたびに再走させる運用を推奨している。公開ベンチマークは一次スクリーニングには使えるが、採用判断の主根拠には据えない。

評価文化の再設計へ

ベンチマーク劇場の問題は、個々のベンチマークの欠陥というより、「単一数値で優劣を語る」社会的習慣にある。モデル能力は多次元であり、ユースケースごとに重視すべき軸が違う。2026年現在、評価の主戦場は、共通ベンチマークの絶対値より、「自分たちの業務タスクで安定して動くか」という契約的な評価基盤の整備に移りつつある。

数値の見栄えで資金を集めるフェーズから、数値の意味を監査されるフェーズへ、市場の成熟が始まっている。プレスの大きなフォントのパーセント表示に、読み手として一呼吸置く習慣を、業界全体で取り戻したい。

ベンチマーク劇場: 飽和・汚染・誇張の構造