¿Qué servicios de TI ofrece KGA?

KGA ofrece servicios integrales de soporte de TI que incluyen instalación de software, mantenimiento de sistemas SaaS, configuración de aplicaciones, soporte técnico, consultoría digital (incluyendo desarrollo web), servicios de seguridad y gestión de datos y respaldo.

¿Qué áreas cubren?

Con sede en Kosai, Shizuoka, brindamos soporte remoto en todo Japón. El soporte presencial se concentra en la región de Tokai.

¿Puedo consultar antes de firmar un contrato?

Sí, la consulta inicial y las estimaciones son completamente gratuitas. Escucharemos sus desafíos de TI y propondremos la solución óptima.

¿Hay soporte de emergencia?

Sí, el plan Business (mensual) incluye soporte de emergencia 24 horas. Los planes Annual Basic y Annual Premium ofrecen respuesta prioritaria en horario de oficina.

¿Pueden configurar apps de TV internacionales?

Sí, damos soporte a la instalación y configuración de aplicaciones de TV internacionales y reproductores multimedia. Ayudamos a configurar entornos para el acceso legal a contenido internacional.

¿Ofrecen soporte multilingüe?

Brindamos soporte en 9 idiomas: japonés, inglés, portugués, coreano, chino, malayo, filipino, vietnamita y español.

¿Hay cargos de configuración o costos ocultos?

No. Todos los precios mostrados son finales e incluyen impuestos. No hay cargos de configuración, costos ocultos ni facturas sorpresa. Pagas exactamente lo que ves.

¿Puedo cambiar de plan más adelante?

Sí. Puedes subir, bajar o cancelar tu plan en cualquier momento. Los upgrades se aplican de inmediato y prorrateamos la diferencia. Los downgrades se aplican en el siguiente ciclo de renovación.

¿Qué métodos de pago aceptan?

Aceptamos todas las tarjetas de crédito principales (Visa, Mastercard, JCB, American Express) a través de Stripe y Komoju, además de transferencia bancaria y pago en tiendas de conveniencia en Japón. Para clientes del Business IT Plan también ofrecemos facturación.

¿Ofrecen reembolsos?

Sí. Ofrecemos garantía de devolución de 14 días en todos los planes anuales, sin preguntas. Las suscripciones mensuales del Business IT Plan pueden cancelarse en cualquier momento con reembolso proporcional por el período no utilizado.

¿Cuál es la diferencia entre los planes anuales y el Business IT Plan?

Los planes anuales cubren la configuración de aplicaciones y soporte para individuos y equipos pequeños. El Business IT Plan es una suscripción mensual integral para empresas que necesitan desarrollo web, gestión de sistemas, automatización, seguridad y un gestor de cuenta dedicado.

¿Ofrecen soporte en español?

Sí. Nuestro equipo ofrece soporte multilingüe completo en japonés, inglés, portugués, coreano, chino, malayo, filipino, vietnamita y español — por correo, chat y videollamadas programadas.

MMLU-Pro 徹底解説：設計思想・top-N モデル比較と評価の落とし穴 (2026 Q2) — KGA Tech Blog

なぜ MMLU では足りなくなったのか

年に Hendrycks らが公開した MMLU は 57 科目・15,908 問の選択式で、長らく汎用知識ベンチの代表格だった。しかし 2026 年 4 月時点、公開情報によれば (2026-04 時点) 主要フロンティアモデルは標準 MMLU でほぼ 89-92% のレンジに収束しており、モデル差を識別する解像度が失われている。Vellum や Artificial Analysis のリーダーボードでも、上位群は誤差バンド内で重なる状態が続いていると報告される。

MMLU-Pro の三つの改良

Wang et al. の論文「MMLU-Pro: A More Robust and Challenging Multi-task Language Understanding Benchmark」（2024）は、(1) 選択肢を 4 から 10 に拡張、(2) 推論集約的な問題を増強、(3) ノイジーな問題と容易に当たる問題を除外、という三点で MMLU を再設計した。結果、ランダム推測のベースラインが 25% から 10% に下がり、CoT（chain-of-thought）の効果がスコアに明確に現れるようになった。

2026 Q2 の上位スコア

公開リーダーボード（Artificial Analysis、llm-stats、pricepertoken）の集計によれば (2026-04 時点)、MMLU-Pro 上位は Gemini 3.1 Pro Preview が 90.99%、Gemini 3 Pro が 90.10%、Claude Opus 4.7 が 89.87% 前後と報告される。標準 MMLU と比べてレンジが広がり、上位間でも 1-2 ポイントの実質的差が見えるようになった点が運用上の価値である。ただしベンダー側の自己申告と第三者再現値で 1-3 ポイントずれる事例も観測されており、単一ソースで決め打ちしないことが推奨される。

評価実装で再現性を壊す要因

MMLU-Pro を社内再現するときの典型的な落とし穴を列挙する。第一に CoT を使うか否かで上位モデルでも 5-10 ポイント変動する。第二にプロンプトのフォーマット（A/B/C... vs 1/2/3...、各選択肢の前置詞）でスコアがぶれる。第三に正解抽出のパース（最後の \`Answer:\` に頼るか、JSON モードを強制するか）で誤判定が混入する。第四に 10 択になった分、序数バイアス（A を選びやすい等）の影響が拡大している。これらを揃えずにベンダー比較すると、モデルではなく評価ハーネスの差を測ることになる。

モデル選定への接続

KGA IT のような中堅 SI が顧客に「どのモデルを採用すべきか」を助言する局面では、MMLU-Pro の絶対値だけでなく、(1) 自社ドメインに近い科目（法務・医療・工学など）のサブスコア、(2) コスト・レイテンシとのトレードオフ、(3) 他ベンチ（GPQA、SWE-Bench、LiveBench）との整合性、を併読する必要がある。MMLU-Pro 単独では「広く浅い知識」に偏った視点しか得られない。

まとめ：飽和の次の指標

MMLU-Pro は 2026 年現在、汎用知識ベンチの実質標準として機能しているが、上位群の収束が進めばさらに後継（高 PhD 級問題、汚染対策、推論深度測定）が必要になる。リーダーボードの数字を読むときは、版（Wang らの v1 か、コミュニティ拡張版か）、CoT 設定、温度、サンプル数、を毎回確認する習慣が、長期にわたって信頼できる比較を支える。

MMLU-Pro 徹底解説：設計思想・top-N モデル比較と評価の落とし穴 (2026 Q2)