KGA는 어떤 IT 서비스를 제공하나요?

KGA는 소프트웨어 설치·설정, SaaS 시스템 유지보수, 애플리케이션 설정 대행, 기술 지원, 디지털 컨설팅(웹사이트 제작 포함), 보안 서비스, 데이터 관리·백업 등 종합적인 IT 지원 서비스를 제공합니다.

서비스 지역은 어디인가요?

시즈오카현 코사이시를 거점으로 일본 전국에 원격 지원을 제공합니다. 방문 지원은 도카이 지역을 중심으로 대응합니다.

계약 전에 상담이 가능한가요?

네, 초기 상담과 견적은 완전히 무료입니다. 고객의 IT 과제를 듣고 최적의 솔루션을 제안합니다.

긴급 지원이 가능한가요?

네, Business 플랜(월 결제)은 24시간 긴급 대응이 가능합니다. Annual Basic 및 Annual Premium 플랜은 영업시간 내 우선 대응을 제공합니다.

해외 TV 앱 설정도 가능한가요?

네, 해외 TV 애플리케이션 및 미디어 플레이어의 설치·설정을 지원합니다. 합법적인 해외 콘텐츠 접근 환경을 구축해 드립니다.

다국어 지원이 가능한가요?

일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어의 9개 언어로 지원을 제공합니다.

초기 비용이나 숨겨진 요금이 있나요?

없습니다. 표시된 모든 가격은 세금이 포함된 최종 금액입니다. 초기 비용, 숨겨진 요금, 예상치 못한 청구가 일절 발생하지 않습니다. 표시된 그대로 결제하시면 됩니다.

나중에 플랜을 변경할 수 있나요?

네, 언제든지 업그레이드, 다운그레이드, 해지하실 수 있습니다. 업그레이드는 즉시 적용되며 차액은 일할 계산됩니다. 다운그레이드는 다음 갱신 주기부터 적용됩니다.

이용 가능한 결제 수단은 무엇인가요?

Stripe와 Komoju를 통해 주요 신용카드(Visa, Mastercard, JCB, American Express)를 이용하실 수 있으며, 일본 내 계좌이체 및 편의점 결제도 지원합니다. 비즈니스 IT 플랜 고객에게는 세금계산서 발행도 가능합니다.

환불이 가능한가요?

네. 모든 연간 플랜에 대해 14일 전액 환불 보장을 제공하며, 사유를 묻지 않습니다. 월 정기 비즈니스 IT 플랜은 언제든지 해지 가능하며 미사용 기간에 대해 일할 환불됩니다.

연간 플랜과 비즈니스 IT 플랜의 차이는 무엇인가요?

연간 플랜은 개인 및 소규모 팀을 위한 앱 설정과 지원을 제공합니다. 비즈니스 IT 플랜은 웹사이트 개발, 시스템 운영, 자동화, 보안, 전담 계정 매니저까지 포함된 기업용 종합 월 구독 서비스입니다.

한국어로도 지원되나요?

네. 일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어 9개 언어로 이메일, 채팅, 화상 회의를 통해 완벽하게 지원해 드립니다.

AI駆動の監視システム: 異常検知からインシデント対応まで — KGA Tech Blog

静的閾値の限界

従来の監視は「CPU使用率が80%を超えたらアラート」「レスポンスタイムが500msを超えたらアラート」という静的閾値ベースだ。しかしこの方法には本質的な限界がある。正常な範囲は時間帯、曜日、季節によって変動する。金曜日の夜にトラフィックが減るのは異常ではないが、月曜日の朝に同じ数値なら障害の兆候かもしれない。

KGAのクライアント（EC運営、月間PV 500万）で運用していた静的閾値監視では、月間約400件のアラートが発生し、そのうち85%が誤検知（false positive）だった。アラート疲れで本当の障害を見逃すリスクが高まっていた。

異常検知モデルの選択

KGAが検証した異常検知アプローチは4つ。Statistical（ARIMA、Holt-Winters）: 時系列の季節性パターンを学習し、予測区間外の値を異常と判定。実装が簡単でCPU使用率やリクエスト数には有効だが、複雑なパターンには対応しにくい。

Isolation Forest: ランダムに分割していくことで、通常データから「孤立しやすい」データポイントを異常と判定。多次元メトリクスの異常検知に有効。KGAではCPU、メモリ、ディスクI/O、ネットワークの4次元で適用。

LSTM Autoencoder: 時系列データをエンコード-デコードし、再構成誤差が大きいデータポイントを異常と判定。複雑な時系列パターンの検出精度が高いが、学習コストが大きい。

Prophet（Meta製）: 季節性、トレンド、祝日効果を分解するモデル。ビジネスメトリクス（売上、PV等）の異常検知に特に有効。

KGAの結論として、インフラメトリクスにはIsolation Forest、ビジネスメトリクスにはProphetを使い分けるのが最もコスパが良い。LSTMは精度は高いが、運用コスト（学習、再学習、GPU）が見合わないケースが多い。

ログの自動分析: LLMの活用

ここが最も効果を発揮した領域だ。障害発生時のログ分析をLLMで自動化した。具体的には、アラート発生時に関連するログ（前後5分、関連サービス）を自動収集し、LLM（Claude 3.5 Sonnet）に以下を分析させる。

エラーログのパターン分類（既知/未知）。2. 根本原因の推定（スタックトレース、エラーメッセージの解析）。3. 影響範囲の推定（影響を受けるサービス、ユーザー数の概算）。4. 過去の類似インシデントとの照合（ベクトル検索）。5. 推奨される対応アクション。

この分析結果をSlackのインシデントチャネルに自動投稿する。人間のオンコールエンジニアは、ゼロからログを読む代わりに、LLMの分析結果をレビューするところから始められる。

KGAの実測では、MTTR（Mean Time To Resolution）が平均4.2時間から1.5時間に短縮された。特に効果が大きかったのは、初動（アラート受信から原因特定まで）の時間で、45分から8分に改善された。

アラート集約と優先度付け

大規模障害時には数十〜数百のアラートが同時に発生する。これを人間が個別に処理するのは不可能だ。KGAのAIOpsシステムでは、アラートの集約と優先度付けを自動化している。

時間的相関: 5分以内に発生したアラートをグループ化。因果的相関: サービス依存関係グラフ（手動定義 + 自動推定）に基づき、根本原因のアラートと派生アラートを識別。優先度スコア: 影響ユーザー数 × サービスの重要度 × 異常の程度でスコアリング。

この集約により、ある大規模障害では同時発生した87件のアラートが3つのインシデントグループに集約され、根本原因のDBレプリケーション障害が最優先で提示された。

自動修復（Auto-Remediation）

KGAでは限定的だが自動修復も導入している。ただしこの領域は慎重なアプローチが必要で、自動修復の対象は「実行しても悪影響がない」アクションに限定する。

安全な自動修復の例: Podのリスタート（CrashLoopBackOff状態）。一時的なスケールアウト（CPU/メモリ逼迫時）。キャッシュのフラッシュ（キャッシュ破損検知時）。CDN設定のフォールバック。

危険で自動化しない例: データベースのフェイルオーバー。設定ファイルの変更。ネットワーク設定の変更。データの修正・削除。

自動修復の実行は必ずログに記録し、Slackに通知する。また、同一アクションの実行頻度を制限し（1時間に3回まで等）、自動修復のループを防止する。

正直な評価: AIOpsの限界

AIOpsは万能ではない。異常検知のfalse positive率は静的閾値の85%から15%に低下したが、ゼロにはできない。特に、初めて遭遇するパターン（新機能のデプロイ後のトラフィック変化等）では誤検知が増える。

LLMによるログ分析も、100%正確ではない。KGAの評価では、根本原因の推定精度は約72%。誤った推定を信じて対応すると逆効果になるリスクがある。あくまで「参考情報」であり、最終判断は人間が行うことが大前提だ。

コストも無視できない。異常検知モデルの学習・推論基盤、LLM API費用、ベクトルDB、アラート集約エンジンの運用で、月額$2,500-$4,000のコストが発生する。中小規模のシステムでは費用対効果が見合わない可能性がある。KGAの推奨は、月間アラート数が200件を超え、かつオンコール体制に負荷がかかっているチームでの導入だ。

AI駆動の監視システム: 異常検知からインシデント対応まで