KGA는 어떤 IT 서비스를 제공하나요?

KGA는 소프트웨어 설치·설정, SaaS 시스템 유지보수, 애플리케이션 설정 대행, 기술 지원, 디지털 컨설팅(웹사이트 제작 포함), 보안 서비스, 데이터 관리·백업 등 종합적인 IT 지원 서비스를 제공합니다.

서비스 지역은 어디인가요?

시즈오카현 코사이시를 거점으로 일본 전국에 원격 지원을 제공합니다. 방문 지원은 도카이 지역을 중심으로 대응합니다.

계약 전에 상담이 가능한가요?

네, 초기 상담과 견적은 완전히 무료입니다. 고객의 IT 과제를 듣고 최적의 솔루션을 제안합니다.

긴급 지원이 가능한가요?

네, Business 플랜(월 결제)은 24시간 긴급 대응이 가능합니다. Annual Basic 및 Annual Premium 플랜은 영업시간 내 우선 대응을 제공합니다.

해외 TV 앱 설정도 가능한가요?

네, 해외 TV 애플리케이션 및 미디어 플레이어의 설치·설정을 지원합니다. 합법적인 해외 콘텐츠 접근 환경을 구축해 드립니다.

다국어 지원이 가능한가요?

일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어의 9개 언어로 지원을 제공합니다.

초기 비용이나 숨겨진 요금이 있나요?

없습니다. 표시된 모든 가격은 세금이 포함된 최종 금액입니다. 초기 비용, 숨겨진 요금, 예상치 못한 청구가 일절 발생하지 않습니다. 표시된 그대로 결제하시면 됩니다.

나중에 플랜을 변경할 수 있나요?

네, 언제든지 업그레이드, 다운그레이드, 해지하실 수 있습니다. 업그레이드는 즉시 적용되며 차액은 일할 계산됩니다. 다운그레이드는 다음 갱신 주기부터 적용됩니다.

이용 가능한 결제 수단은 무엇인가요?

Stripe와 Komoju를 통해 주요 신용카드(Visa, Mastercard, JCB, American Express)를 이용하실 수 있으며, 일본 내 계좌이체 및 편의점 결제도 지원합니다. 비즈니스 IT 플랜 고객에게는 세금계산서 발행도 가능합니다.

환불이 가능한가요?

네. 모든 연간 플랜에 대해 14일 전액 환불 보장을 제공하며, 사유를 묻지 않습니다. 월 정기 비즈니스 IT 플랜은 언제든지 해지 가능하며 미사용 기간에 대해 일할 환불됩니다.

연간 플랜과 비즈니스 IT 플랜의 차이는 무엇인가요?

연간 플랜은 개인 및 소규모 팀을 위한 앱 설정과 지원을 제공합니다. 비즈니스 IT 플랜은 웹사이트 개발, 시스템 운영, 자동화, 보안, 전담 계정 매니저까지 포함된 기업용 종합 월 구독 서비스입니다.

한국어로도 지원되나요?

네. 일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어 9개 언어로 이메일, 채팅, 화상 회의를 통해 완벽하게 지원해 드립니다.

Kubernetes本番運用2026: 我々が学んだ教訓 — KGA Tech Blog

3年間のKubernetes運用を振り返る

KGAがKubernetesを本番環境に導入して3年が経過した。EKS（AWS）をメインに、一部GKEも運用している。この3年で大小合わせて23件の本番インシデントを経験し、そのうち5件はSeverity 1（サービス全停止）だった。この記事では恥を忍んで失敗談を共有し、同じ轍を踏まないための教訓をまとめる。

教訓1: HPAの設定ミスは致命的

Horizontal Pod Autoscaler (HPA)の設定ミスで2回のSev-1インシデントが発生した。

回目: CPU使用率80%でスケールアウトするように設定したが、CPU requestsを実際の使用量より大幅に低く設定していた。結果、実際のCPU使用率が80%に達してもHPAのメトリクスでは200%と表示され、Podが際限なく増殖。最終的にNodeのリソースを食い尽くしてクラスタ全体がダウンした。

教訓: CPU/memory requestsは実際の使用量の80%を設定し、limitsはrequestsの150%にする。この比率はKGAの3年間の運用で最も安定した値だ。

回目: スケールダウンのstabilizationWindowSecondsを短くしすぎた（60秒）。トラフィックのスパイクに対してスケールアウト→スケールイン→スケールアウトが激しく繰り返され、コネクションの断絶が多発。300秒に延長して解決。

教訓2: PDBを設定しないと痛い目に見る

PodDisruptionBudget (PDB)を設定していなかったために、Nodeのローリングアップデート中に全Podが同時に退避され、サービスが5分間完全停止した。maxUnavailable: 1 または minAvailable: N-1 のPDBを全Deploymentに設定することを義務化した。

これは基本中の基本だが、KGAでは初期のスピード優先でスキップしてしまった。Infrastructure as Codeで全リソースを管理し、PDBのないDeploymentはCI/CDパイプラインでrejectする仕組みを導入した。

教訓3: Observabilityは投資ではなく保険

KGAのObservabilityスタックは、Prometheus + Grafana（メトリクス）、Loki（ログ）、Tempo（トレース）のGrafana三兄弟構成。導入コスト（人件費込み）は約500万円、月間運用コストは約30万円。高く感じるかもしれないが、Observabilityなしで発生していたインシデントの平均復旧時間は4時間。導入後は平均22分に短縮された。月1回のSev-1インシデントの機会損失を考えると、ROIは1ヶ月で回収できている。

具体的に役立ったダッシュボードを紹介する。Golden Signals（レイテンシ、トラフィック、エラー率、サチュレーション）のリアルタイム表示。Pod restart historyとOOMKilled検出。Node別のリソース使用率ヒートマップ。APIエンドポイント別のp50/p95/p99レイテンシ。

教訓4: コスト最適化は継続的な取り組み

Kubernetesのコストは放置すると際限なく膨らむ。KGAのEKSクラスタの月額費用推移。導入直後: $3,200/月。6ヶ月後: $8,500/月（リソース要求の見直しなし）。最適化後: $4,100/月。

最も効果があったのはSpot Instanceの活用だ。ステートレスなワークロード（Webサーバー、APIサーバー）をSpot Instance上で動かし、Nodeの中断に対してはPDBとgraceful shutdownで対応。これだけで月額の35%を削減した。

次に効果があったのはright-sizingだ。Kubecostを導入してPod単位のコストと実際のリソース使用量を可視化。多くのPodがrequestsの20-30%しかリソースを使っていないことが判明し、requestsを適正値に調整。これで月額の20%を削減。

教訓5: Namespaceの分離戦略

最初は全環境（dev、staging、production）を1クラスタのNamespace分離で運用していた。コスト的には効率的だが、dev環境のメモリリークがproduction Nodeのリソースを圧迫するインシデントが発生。以後、productionは独立クラスタに分離した。

ResourceQuotaとLimitRangeでNamespace単位のリソース制限は設定していたが、Node自体は共有だったため、Nodeレベルのリソース競合を防げなかった。Namespace分離は論理的な分離であり、物理的な分離ではないことを身をもって学んだ。

実際のインシデント事後分析

年9月のSev-1インシデントを詳細に共有する。発生: 金曜日18:00（よりによって）。症状: 全APIがタイムアウト。原因: CronJobで実行していたバッチ処理がメモリリークし、OOMKillerが関連のないPodを道連れにした。対応: 手動でCronJobのPodを削除し、影響を受けたPodが再起動するまで23分のダウンタイム。再発防止: CronJobを専用NodePoolに隔離、メモリlimitsの厳格化、OOMKillerの挙動監視アラート追加。

このインシデントから学んだ最大の教訓は「バッチ処理とオンラインサービスは物理的に分離せよ」だ。NodePoolを分け、taint/tolerationで確実に分離する。論理的な分離だけでは不十分。

Kubernetes本番運用2026: 我々が学んだ教訓