Quais serviços de TI a KGA oferece?

A KGA oferece serviços abrangentes de suporte de TI, incluindo instalação de software, manutenção de sistemas SaaS, configuração de aplicativos, suporte técnico, consultoria digital (incluindo criação de sites), serviços de segurança e gerenciamento de dados e backup.

Quais áreas vocês atendem?

Sediados em Kosai, Shizuoka, oferecemos suporte remoto em todo o Japão. Atendimento presencial concentrado na região de Tokai.

É possível consultar antes de contratar?

Sim, a consulta inicial e orçamentos são completamente gratuitos. Ouviremos seus desafios de TI e proporemos a solução ideal.

Há suporte de emergência?

Sim, o plano Business (mensal) inclui suporte de emergência 24 horas. Os planos Annual Basic e Annual Premium oferecem atendimento prioritário em horário comercial.

Vocês configuram apps de TV internacionais?

Sim, oferecemos suporte para instalação e configuração de aplicativos de TV internacionais e media players. Ajudamos a configurar ambientes para acesso legal a conteúdo internacional.

Oferecem suporte em múltiplos idiomas?

Atendemos em 9 idiomas: japonês, inglês, português, coreano, chinês, malaio, filipino, vietnamita e espanhol.

Existe alguma taxa de setup ou custo oculto?

Não. Todos os preços exibidos são finais e incluem impostos. Não há taxas de setup, cobranças ocultas ou faturas-surpresa. O valor que você vê é exatamente o que paga.

Posso trocar de plano depois?

Sim. Você pode fazer upgrade, downgrade ou cancelar a qualquer momento. Upgrades entram em vigor imediatamente e a diferença é calculada proporcionalmente. Downgrades valem a partir do próximo ciclo de renovação.

Quais formas de pagamento vocês aceitam?

Aceitamos todos os principais cartões de crédito (Visa, Mastercard, JCB, American Express) via Stripe e Komoju, além de transferência bancária e pagamento em lojas de conveniência no Japão. Pagamento via boleto/fatura está disponível para clientes do Business IT Plan.

Vocês oferecem reembolso?

Sim. Oferecemos garantia de reembolso de 14 dias em todos os planos anuais — sem perguntas. Assinaturas mensais do Business IT Plan podem ser canceladas a qualquer momento, com reembolso proporcional do período não utilizado.

Qual a diferença entre os planos anuais e o Business IT Plan?

Os planos anuais cobrem configuração e suporte de apps para indivíduos e pequenas equipes. O Business IT Plan é uma assinatura mensal abrangente para empresas que precisam de desenvolvimento web, gerenciamento de sistemas, automação, segurança e um gerente de conta dedicado.

Vocês oferecem suporte em português?

Sim. Nossa equipe oferece suporte multilíngue completo em japonês, inglês, português, coreano, chinês, malaio, filipino, vietnamita e espanhol — por e-mail, chat e videochamadas agendadas.

MMLU-Pro 徹底解説：設計思想・top-N モデル比較と評価の落とし穴 (2026 Q2) — KGA Tech Blog

なぜ MMLU では足りなくなったのか

年に Hendrycks らが公開した MMLU は 57 科目・15,908 問の選択式で、長らく汎用知識ベンチの代表格だった。しかし 2026 年 4 月時点、公開情報によれば (2026-04 時点) 主要フロンティアモデルは標準 MMLU でほぼ 89-92% のレンジに収束しており、モデル差を識別する解像度が失われている。Vellum や Artificial Analysis のリーダーボードでも、上位群は誤差バンド内で重なる状態が続いていると報告される。

MMLU-Pro の三つの改良

Wang et al. の論文「MMLU-Pro: A More Robust and Challenging Multi-task Language Understanding Benchmark」（2024）は、(1) 選択肢を 4 から 10 に拡張、(2) 推論集約的な問題を増強、(3) ノイジーな問題と容易に当たる問題を除外、という三点で MMLU を再設計した。結果、ランダム推測のベースラインが 25% から 10% に下がり、CoT（chain-of-thought）の効果がスコアに明確に現れるようになった。

2026 Q2 の上位スコア

公開リーダーボード（Artificial Analysis、llm-stats、pricepertoken）の集計によれば (2026-04 時点)、MMLU-Pro 上位は Gemini 3.1 Pro Preview が 90.99%、Gemini 3 Pro が 90.10%、Claude Opus 4.7 が 89.87% 前後と報告される。標準 MMLU と比べてレンジが広がり、上位間でも 1-2 ポイントの実質的差が見えるようになった点が運用上の価値である。ただしベンダー側の自己申告と第三者再現値で 1-3 ポイントずれる事例も観測されており、単一ソースで決め打ちしないことが推奨される。

評価実装で再現性を壊す要因

MMLU-Pro を社内再現するときの典型的な落とし穴を列挙する。第一に CoT を使うか否かで上位モデルでも 5-10 ポイント変動する。第二にプロンプトのフォーマット（A/B/C... vs 1/2/3...、各選択肢の前置詞）でスコアがぶれる。第三に正解抽出のパース（最後の \`Answer:\` に頼るか、JSON モードを強制するか）で誤判定が混入する。第四に 10 択になった分、序数バイアス（A を選びやすい等）の影響が拡大している。これらを揃えずにベンダー比較すると、モデルではなく評価ハーネスの差を測ることになる。

モデル選定への接続

KGA IT のような中堅 SI が顧客に「どのモデルを採用すべきか」を助言する局面では、MMLU-Pro の絶対値だけでなく、(1) 自社ドメインに近い科目（法務・医療・工学など）のサブスコア、(2) コスト・レイテンシとのトレードオフ、(3) 他ベンチ（GPQA、SWE-Bench、LiveBench）との整合性、を併読する必要がある。MMLU-Pro 単独では「広く浅い知識」に偏った視点しか得られない。

まとめ：飽和の次の指標

MMLU-Pro は 2026 年現在、汎用知識ベンチの実質標準として機能しているが、上位群の収束が進めばさらに後継（高 PhD 級問題、汚染対策、推論深度測定）が必要になる。リーダーボードの数字を読むときは、版（Wang らの v1 か、コミュニティ拡張版か）、CoT 設定、温度、サンプル数、を毎回確認する習慣が、長期にわたって信頼できる比較を支える。

MMLU-Pro 徹底解説：設計思想・top-N モデル比較と評価の落とし穴 (2026 Q2)