¿Qué servicios de TI ofrece KGA?

KGA ofrece servicios integrales de soporte de TI que incluyen instalación de software, mantenimiento de sistemas SaaS, configuración de aplicaciones, soporte técnico, consultoría digital (incluyendo desarrollo web), servicios de seguridad y gestión de datos y respaldo.

¿Qué áreas cubren?

Con sede en Kosai, Shizuoka, brindamos soporte remoto en todo Japón. El soporte presencial se concentra en la región de Tokai.

¿Puedo consultar antes de firmar un contrato?

Sí, la consulta inicial y las estimaciones son completamente gratuitas. Escucharemos sus desafíos de TI y propondremos la solución óptima.

¿Hay soporte de emergencia?

Sí, el plan Business (mensual) incluye soporte de emergencia 24 horas. Los planes Annual Basic y Annual Premium ofrecen respuesta prioritaria en horario de oficina.

¿Pueden configurar apps de TV internacionales?

Sí, damos soporte a la instalación y configuración de aplicaciones de TV internacionales y reproductores multimedia. Ayudamos a configurar entornos para el acceso legal a contenido internacional.

¿Ofrecen soporte multilingüe?

Brindamos soporte en 9 idiomas: japonés, inglés, portugués, coreano, chino, malayo, filipino, vietnamita y español.

¿Hay cargos de configuración o costos ocultos?

No. Todos los precios mostrados son finales e incluyen impuestos. No hay cargos de configuración, costos ocultos ni facturas sorpresa. Pagas exactamente lo que ves.

¿Puedo cambiar de plan más adelante?

Sí. Puedes subir, bajar o cancelar tu plan en cualquier momento. Los upgrades se aplican de inmediato y prorrateamos la diferencia. Los downgrades se aplican en el siguiente ciclo de renovación.

¿Qué métodos de pago aceptan?

Aceptamos todas las tarjetas de crédito principales (Visa, Mastercard, JCB, American Express) a través de Stripe y Komoju, además de transferencia bancaria y pago en tiendas de conveniencia en Japón. Para clientes del Business IT Plan también ofrecemos facturación.

¿Ofrecen reembolsos?

Sí. Ofrecemos garantía de devolución de 14 días en todos los planes anuales, sin preguntas. Las suscripciones mensuales del Business IT Plan pueden cancelarse en cualquier momento con reembolso proporcional por el período no utilizado.

¿Cuál es la diferencia entre los planes anuales y el Business IT Plan?

Los planes anuales cubren la configuración de aplicaciones y soporte para individuos y equipos pequeños. El Business IT Plan es una suscripción mensual integral para empresas que necesitan desarrollo web, gestión de sistemas, automatización, seguridad y un gestor de cuenta dedicado.

¿Ofrecen soporte en español?

Sí. Nuestro equipo ofrece soporte multilingüe completo en japonés, inglés, portugués, coreano, chino, malayo, filipino, vietnamita y español — por correo, chat y videollamadas programadas.

MDS: Model Distillation Systemで大規模モデルをエッジに展開する — KGA Tech Blog

エッジAIの需要が爆発している

KGAのクライアントの多くが「クラウドAPIに依存せず、自社インフラでLLMを動かしたい」と求めている。理由はコスト、レイテンシ、データプライバシーの3つ。しかし70Bパラメータのモデルをそのまま動かすには高価なGPUが必要で、中小企業には現実的ではない。そこで登場するのがModel Distillation（知識蒸留）だ。

知識蒸留の基本原理

知識蒸留は、大きなTeacherモデルの知識を小さなStudentモデルに転写する技術だ。核心は、Teacherモデルのsoft label（softmax出力の確率分布）をStudentモデルが模倣するように学習させること。hard label（正解ラベル）だけでは失われる「この回答は70%正しいが30%は別の答えの可能性がある」というニュアンスを、soft labelは保持する。

年現在の蒸留手法は大きく3種類ある。Response-based Distillation（Teacherの出力を模倣）、Feature-based Distillation（中間層の表現を模倣）、Relation-based Distillation（データポイント間の関係性を模倣）。LLMの蒸留ではResponse-basedが最も実用的で、実装も比較的シンプルだ。

70B to 7B: 実践的な蒸留パイプライン

KGAで実際に運用している蒸留パイプラインを紹介する。TeacherはHermes 3 70B、StudentはLlama 3.1 8Bベースのカスタムモデルだ。

Step 1: Teacher推論データセットの生成。対象ドメインの入力データ50,000件に対してTeacherモデルで推論を実行し、入力-出力ペアとlogitsを保存する。この段階でデータの多様性が重要で、KGAではactive learningの手法を応用し、Studentモデルが最も不確実な入力を優先的にTeacher推論に回す。

Step 2: 蒸留学習。StudentモデルをTeacherのsoft labelとhard labelの加重平均で学習する。温度パラメータTは通常4-8が適切で、高すぎると学習が不安定になり、低すぎるとsoft labelのメリットが薄れる。KGAの経験則ではT=6が多くのケースで安定した結果を出す。

Step 3: 品質評価と反復改善。蒸留後のStudentモデルをTeacherと同じベンチマークで評価し、品質ギャップが大きい領域を特定。その領域の追加データで再蒸留を行う。通常3-4回の反復でTeacherの90%以上の品質に到達する。

GPTQ vs AWQ vs GGUF: 量子化手法の実践比較

蒸留後のモデルをさらに軽量化するのが量子化だ。主要3手法を実測値で比較する。

GPTQは後処理量子化の代表格で、キャリブレーションデータを使ってweight単位で最適な量子化パラメータを決定する。4bit量子化で元モデルの95%程度の品質を維持でき、GPUでの推論に最適化されている。CUDA kernelが高度に最適化されており、FP16と比較して2-3倍の推論速度向上が得られる。

AWQ（Activation-aware Weight Quantization）はGPTQの発展形で、activationの統計情報を考慮して重要なweightの精度を保持する。KGAの実測では、GPTQより1-2%品質が高く、特にperplexityが低い。ただし量子化プロセスが遅く、70Bモデルの量子化に約6時間かかる（GPTQは2時間）。

GGUFはllama.cpp独自のフォーマットで、CPUでの推論に最適化されている。GPUがなくてもAVX2対応のCPUで実用的な速度が出るのが最大の利点。量子化バリアントが豊富で、Q2_KからQ8_0まで細かく選択可能。混合精度量子化にも対応しており、重要なレイヤーだけ高精度に保つことができる。

KGAの推奨は、GPUデプロイならAWQ（品質優先）またはGPTQ（速度優先）、CPU/エッジデプロイならGGUF Q4_K_Mだ。

エッジデバイスへの展開

蒸留+量子化済みモデルの実際のデプロイ先を紹介する。RTX 3060（12GB VRAM）: 7B Q4_K_Mが快適に動作。応答速度は秒間30トークン程度。Apple M2 Pro（16GB RAM）: llama.cppでMetal GPU accelerationを利用し、7B Q4_K_Mで秒間25トークン。Jetson Orin NX（16GB）: 3B Q4_K_Mが動作。組み込み用途で秒間10トークン。Raspberry Pi 5（8GB）: 1.5B Q3_K_Mが辛うじて動作するが、秒間2トークンで実用には厳しい。

実際のクライアント事例として、KGAが手がけた工場の品質管理AIは、蒸留した3Bモデルを各製造ラインのJetson Orin NXにデプロイしている。不良品画像の分類と異常検知をエッジで処理し、クラウドへの通信遅延なしにリアルタイム判定を実現した。

蒸留の落とし穴と品質維持のコツ

蒸留で最も失敗しやすいのは、Teacherモデルの弱点もStudentに転写してしまうことだ。Teacherがハルシネーションしやすいパターンがあれば、Studentも同じ傾向を持つ。対策として、蒸留データセットの品質フィルタリングが不可欠。KGAではTeacherの出力を別のLLMでfact-checkし、正確性スコアが閾値以下のデータを除外している。

もう一つの重要なポイントは、蒸留とfine-tuningの順序だ。KGAの経験では「汎用蒸留→ドメイン特化fine-tuning」の順序が最良の結果を出す。逆順だと、fine-tuningで獲得した特化知識が蒸留プロセスで薄まるリスクがある。

MDS: Model Distillation Systemで大規模モデルをエッジに展開する