Skip to content
記事一覧に戻る
Models10 min

Zhipu GLM-4: コード生成・関数呼び出し・長文コンテキストの実力評価

Zhipu GLM-4: Coding, Function Calling and Long Context Evaluation

Kenji WatanabeAI Engineer
2026-04-2210 min
GLM-4ZhipuCode GenerationFunction CallingLong Context

GLM-4 の構成

Zhipu AI は北京の研究開発企業で、清華大学発の系譜を持つ。GLM-4 は `Plus`(汎用最上位)、`Long`(128k コンテキスト)、`Voice`(音声対話)、`AirX`(廉価高速)といった派生モデルを提供している。OpenAI 互換 API を提供し、英語・中国語・日本語の混在処理に強みがある。

コード生成

社内 R&D の Python 50 問・TypeScript 50 問の計 100 問で評価したところ、HumanEval 相当のタスクで GLM-4-Plus は 78.6%。DeepSeek-Coder V3 (84.2%)、Claude 3.5 Sonnet (88.4%) には及ばないが、関数 docstring の質が良く、テストコード自動生成のシナリオで安定して動く。

関数呼び出し

OpenAI 互換 `tools` パラメータをサポート。ネスト構造の引数(深さ 3 以上)でやや精度が落ちるが、平らな引数構造であれば実用十分。並列ツール呼び出しもサポートされる。

長文コンテキスト

GLM-4-Long の 128k は実用範囲で品質が落ちにくく、社内 R&D では 100k 程度の社内マニュアル全文を投入した QA で Recall が 0.87、レイテンシ p95 が 18 秒程度。Claude 3.5 Sonnet の 200k には及ばないが、コスト 1/8 でこの品質が出るのは利点。

まとめ

GLM-4 は「とにかくコスト最安で 100k 級長文を扱いたい」というニッチで魅力的。中国本土 API なので越境リスクは Doubao と同様に評価が必要だが、用途が限定された PoC では安価な選択肢として候補に入る。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら