KGA는 어떤 IT 서비스를 제공하나요?

KGA는 소프트웨어 설치·설정, SaaS 시스템 유지보수, 애플리케이션 설정 대행, 기술 지원, 디지털 컨설팅(웹사이트 제작 포함), 보안 서비스, 데이터 관리·백업 등 종합적인 IT 지원 서비스를 제공합니다.

서비스 지역은 어디인가요?

시즈오카현 코사이시를 거점으로 일본 전국에 원격 지원을 제공합니다. 방문 지원은 도카이 지역을 중심으로 대응합니다.

계약 전에 상담이 가능한가요?

네, 초기 상담과 견적은 완전히 무료입니다. 고객의 IT 과제를 듣고 최적의 솔루션을 제안합니다.

긴급 지원이 가능한가요?

네, Business 플랜(월 결제)은 24시간 긴급 대응이 가능합니다. Annual Basic 및 Annual Premium 플랜은 영업시간 내 우선 대응을 제공합니다.

해외 TV 앱 설정도 가능한가요?

네, 해외 TV 애플리케이션 및 미디어 플레이어의 설치·설정을 지원합니다. 합법적인 해외 콘텐츠 접근 환경을 구축해 드립니다.

다국어 지원이 가능한가요?

일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어의 9개 언어로 지원을 제공합니다.

초기 비용이나 숨겨진 요금이 있나요?

없습니다. 표시된 모든 가격은 세금이 포함된 최종 금액입니다. 초기 비용, 숨겨진 요금, 예상치 못한 청구가 일절 발생하지 않습니다. 표시된 그대로 결제하시면 됩니다.

나중에 플랜을 변경할 수 있나요?

네, 언제든지 업그레이드, 다운그레이드, 해지하실 수 있습니다. 업그레이드는 즉시 적용되며 차액은 일할 계산됩니다. 다운그레이드는 다음 갱신 주기부터 적용됩니다.

이용 가능한 결제 수단은 무엇인가요?

Stripe와 Komoju를 통해 주요 신용카드(Visa, Mastercard, JCB, American Express)를 이용하실 수 있으며, 일본 내 계좌이체 및 편의점 결제도 지원합니다. 비즈니스 IT 플랜 고객에게는 세금계산서 발행도 가능합니다.

환불이 가능한가요?

네. 모든 연간 플랜에 대해 14일 전액 환불 보장을 제공하며, 사유를 묻지 않습니다. 월 정기 비즈니스 IT 플랜은 언제든지 해지 가능하며 미사용 기간에 대해 일할 환불됩니다.

연간 플랜과 비즈니스 IT 플랜의 차이는 무엇인가요?

연간 플랜은 개인 및 소규모 팀을 위한 앱 설정과 지원을 제공합니다. 비즈니스 IT 플랜은 웹사이트 개발, 시스템 운영, 자동화, 보안, 전담 계정 매니저까지 포함된 기업용 종합 월 구독 서비스입니다.

한국어로도 지원되나요?

네. 일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어 9개 언어로 이메일, 채팅, 화상 회의를 통해 완벽하게 지원해 드립니다.

ベンチマーク汚染 2026：MMLU から SWE-Bench まで、汚染フリー評価の現実解 — KGA Tech Blog

なぜ汚染が起きるのか

LLM の事前学習コーパスは数兆トークン規模で、Common Crawl、GitHub、arXiv、Stack Exchange などを含む。公開ベンチマークはほぼ確実にこの中に混入している。GSM8K の問題文、MMLU の選択肢、HumanEval の関数シグネチャが学習データに含まれると、モデルは「解く」のではなく「思い出す」ことで高得点を出し得る。これを dataset contamination、または test set leakage と呼ぶ。

主要ベンチマークの汚染状況

年の複数の監査研究が、以下を報告している。GSM8K は問題文を逐語検索で容易に見つけられる。MMLU は問題・選択肢・正解の組がまとまって web 上に存在する。HumanEval は関数名と docstring が GitHub 上で露出している。SWE-Bench はリポジトリベースで issue/PR ごとまるごと学習される危険があり、「過去の自分の修正を思い出す」形での高スコアが懸念される。ベンダー側も対策を進めているが、完全な除去は事実上不可能だと報告される。

Canary String という古典的対策

BIG-bench が導入した canary string（「この UUID を含むテキストは評価用なので学習に入れないでください」）は、データ提供者側の対策として広く採用された。しかしこれは自己申告に近く、ベンダーが遵守するかは監査不能だ。さらに、ベンチマークが翻訳・改変されて再配布されると canary が剥がれる。必要条件ではあるが十分条件ではない。

LiveBench：時間軸で汚染を回避する

White、LeCun、Goldblum らが立ち上げた LiveBench は「毎月新しい問題を追加し、古い問題を徐々に引退させる」運用で汚染を構造的に避ける。ニュース記事からの要約、数学競技の新問題、最近公開された論文に基づく質問などを混ぜる。モデルが学習済みデータを持たない時期の問題で評価されるため、記憶での得点が難しい。欠点は問題の難易度・分布が月次で揺らぐことで、絶対スコアより同一月内の相対比較に向く。

自社ホールドアウトという最終防衛

本当に信頼できる評価は、社外に出していない私的データセットで測ることだ。実装ポイントは (1) 公開されない URL・S3 バケットに置く、(2) 評価 API は入出力をログせず即捨て、(3) スコアの数値のみを社内共有、(4) 問題文を含めた blog や slide を公開しない、の 4 点。さらに、同じデータを月次でローテーションし、特定のホールドアウトが長期的に「使い込まれる」ことも避ける。

実務的組み合わせ

年現在、以下の三段構えが現実解と報告される。第一段は公開ベンチマークをベースラインとして走らせる（汚染込みで相対傾向を見る）。第二段は LiveBench 等の時間軸ベンチで汚染フリーの目安を得る。第三段は自社ホールドアウトで本番想定タスクの精度を測る。どれか一つに依存するのではなく、差分と整合性を見ることで汚染のシグナルを検出する。

ベンチマーク汚染 2026：MMLU から SWE-Bench まで、汚染フリー評価の現実解