KGA cung cấp những dịch vụ IT nào?

KGA cung cấp dịch vụ hỗ trợ IT toàn diện bao gồm cài đặt và thiết lập phần mềm, bảo trì hệ thống SaaS, cấu hình ứng dụng, hỗ trợ kỹ thuật, tư vấn số (bao gồm phát triển website), dịch vụ bảo mật và quản lý dữ liệu & sao lưu.

Các khu vực bạn hỗ trợ?

Đặt tại Kosai, Shizuoka, chúng tôi cung cấp hỗ trợ từ xa trên toàn Nhật Bản. Hỗ trợ tại chỗ chủ yếu ở vùng Tokai.

Tôi có thể tư vấn trước khi ký hợp đồng không?

Có, tư vấn ban đầu và báo giá hoàn toàn miễn phí. Chúng tôi sẽ lắng nghe vấn đề IT của bạn và đề xuất giải pháp tối ưu.

Có hỗ trợ khẩn cấp không?

Có, gói Premium bao gồm hỗ trợ khẩn cấp 24 giờ. Gói Standard cũng có phản hồi ưu tiên trong giờ làm việc.

Bạn có thể cài đặt ứng dụng TV quốc tế không?

Có, chúng tôi hỗ trợ cài đặt và cấu hình các ứng dụng TV quốc tế và trình phát media. Chúng tôi giúp thiết lập môi trường truy cập hợp pháp vào nội dung quốc tế.

Bạn có hỗ trợ đa ngôn ngữ không?

Chúng tôi hỗ trợ 9 ngôn ngữ: tiếng Nhật, Anh, Bồ Đào Nha, Hàn, Trung, Mã Lai, Philippines, Việt và Tây Ban Nha.

Có phí cài đặt hoặc phí ẩn nào không?

Không. Tất cả giá hiển thị đều là giá cuối cùng đã bao gồm thuế. Không có phí cài đặt, phí ẩn hay hóa đơn bất ngờ. Bạn trả đúng những gì bạn thấy.

Tôi có thể đổi gói sau không?

Có. Bạn có thể nâng cấp, hạ cấp hoặc hủy bất cứ lúc nào. Việc nâng cấp có hiệu lực ngay lập tức và chúng tôi sẽ tính chênh lệch theo tỷ lệ ngày. Việc hạ cấp sẽ có hiệu lực vào chu kỳ gia hạn tiếp theo.

Bạn chấp nhận những phương thức thanh toán nào?

Chúng tôi chấp nhận tất cả các thẻ tín dụng chính (Visa, Mastercard, JCB, American Express) thông qua Komoju, cùng với chuyển khoản ngân hàng và thanh toán tại cửa hàng tiện lợi ở Nhật Bản. Khách hàng Business IT Plan có thể thanh toán qua hóa đơn.

Bạn có hoàn tiền không?

Có. Chúng tôi cung cấp bảo đảm hoàn tiền trong 14 ngày cho tất cả các gói hàng năm — không cần giải thích. Đăng ký Business IT Plan hàng tháng có thể hủy bất cứ lúc nào với khoản hoàn tiền theo tỷ lệ cho thời gian chưa sử dụng.

Sự khác biệt giữa các gói hàng năm và Business IT Plan là gì?

Các gói hàng năm bao gồm cấu hình ứng dụng và hỗ trợ cho cá nhân và nhóm nhỏ. Business IT Plan là một gói đăng ký hàng tháng toàn diện cho các công ty cần phát triển website, quản lý hệ thống, tự động hóa, bảo mật và người quản lý tài khoản riêng.

Bạn có hỗ trợ bằng tiếng Việt không?

Có. Đội ngũ của chúng tôi cung cấp hỗ trợ đa ngôn ngữ đầy đủ bằng tiếng Nhật, tiếng Anh, tiếng Bồ Đào Nha, tiếng Hàn, tiếng Trung, tiếng Mã Lai, tiếng Philippines, tiếng Việt và tiếng Tây Ban Nha — qua email, chat và các cuộc gọi video đã lên lịch.

Phi-4 và cuộc cách mạng SLM: Khi mô hình nhỏ vượt trội mô hình lớn — KGA Tech Blog

Small Language Modelの時代が来た

年、AI業界の主戦場は「いかに大きくするか」から「いかに小さく高性能にするか」にシフトした。その転換点となったのがMicrosoft Phi-4だ。14Bパラメータという控えめなサイズながら、数学的推論ではGPT-4oに匹敵し、コード生成ではLlama 3.1 70Bを一部ベンチマークで上回る。

この逆転現象の鍵は「データ品質」にある。Phi-4はsynthetic dataを大量に活用した学習パイプラインを採用している。教科書品質のテキストをGPT-4で生成し、それをフィルタリング・キュレーションして学習データとする。量より質のアプローチだ。Microsoftの論文によれば、Phi-4の学習データは約9.8Tトークンだが、そのうち40%以上がsynthetic dataで占められている。

ベンチマーク比較: 14B vs 70B

KGAの社内ベンチマークでPhi-4 14BとLlama 3.1 70Bを比較した結果を示す。MMLU: Phi-4 83.6% vs Llama 70B 82.0%。HumanEval（コード生成）: Phi-4 82.9% vs Llama 70B 80.5%。GSM8K（数学）: Phi-4 92.3% vs Llama 70B 90.7%。GPQA（大学院レベル推論）: Phi-4 56.1% vs Llama 70B 48.0%。

驚くべきは、パラメータ数が5分の1であるにもかかわらず、ほぼ全てのベンチマークでPhi-4が上回っている点だ。ただし、長文生成の品質や多言語対応ではLlama 70Bが依然として優位。Phi-4は英語中心の学習データであり、日本語タスクでの性能はLlama 70Bの約85%程度にとどまる。

エッジデプロイの実践

Phi-4の真価はエッジデバイスでの推論にある。14Bモデルをq4_K_M量子化すると約8GBのRAMで動作し、Apple M2搭載MacBook Airで毎秒25トークンの生成速度が出る。これはユーザーの読書速度を上回り、リアルタイム対話に十分だ。

ONNX Runtime Mobileを使えばAndroid/iOSデバイスでもPhi-4の推論が可能だ。Snapdragon 8 Gen 3搭載のAndroidスマートフォンで、q4_0量子化のPhi-4 14Bが毎秒12トークンの速度で動作することをKGAの検証で確認している。レイテンシは初回トークンまで1.8秒、その後はストリーミングで連続生成される。

実装の具体例として、KGAが開発したオフライン対応のフィールドサービス支援アプリがある。修理技術者が現場でマニュアルを参照する際、Phi-4がデバイス上で質問応答を処理する。ネットワーク接続不要で、顧客データが端末外に出ないためプライバシー要件も満たせる。

モバイルAIの設計パターン

モバイルでSLMを活用する際の設計パターンをいくつか共有する。

Hybrid Inference Pattern: 軽量タスク（テキスト分類、短文生成、エンティティ抽出）はオンデバイスのPhi-4で処理し、複雑なタスク（長文分析、マルチステップ推論）はクラウドAPIにフォールバックする。KGAの実装ではタスク複雑度スコアリングモデル（distilBERT、3MB）がルーティングを判定し、約70%のリクエストをオンデバイスで処理できている。

Speculative Decoding: エッジのPhi-4で高速にdraft tokensを生成し、クラウドの大型モデルで検証・修正するアプローチ。レイテンシを50%削減しつつ、大型モデルと同等の出力品質を維持できる。ただしネットワーク接続が前提となる。

Progressive Loading: モデルの全レイヤーを一度にロードせず、最初の数レイヤーで推論を開始し、残りを非同期でロードする。初回応答までの時間を3.2秒から0.8秒に短縮した事例がある。

コスト比較とROI

クラウドAPIとエッジ推論のコスト比較を示す。月間100万リクエスト（平均入力300トークン、出力500トークン）の場合。GPT-4o mini API: 約$750/月。Phi-4 on edge（開発・配布コスト按分）: 約$200/月。コスト削減率は約73%だが、エッジ推論にはモデル更新の配信、デバイス互換性テスト、オンデバイスモニタリングの追加コストが発生する。

SLMの限界と使い分け

SLMは万能ではない。Phi-4が苦手とする領域を明確にしておく。128Kコンテキストのような長文入力の処理、マルチターン対話での文脈維持（20ターン以上で品質低下が顕著）、高度なクリエイティブ・ライティング、最新情報を要する質問（学習データのカットオフ問題）。これらのタスクには依然として大型モデルやRAGが必要だ。KGAの推奨は「SLMをデフォルトとし、必要な場合のみ大型モデルにエスカレーション」というアーキテクチャだ。

Phi-4 và cuộc cách mạng SLM: Khi mô hình nhỏ vượt trội mô hình lớn