GLM-4 の構成
Zhipu AI は北京の研究開発企業で、清華大学発の系譜を持つ。GLM-4 は `Plus`(汎用最上位)、`Long`(128k コンテキスト)、`Voice`(音声対話)、`AirX`(廉価高速)といった派生モデルを提供している。OpenAI 互換 API を提供し、英語・中国語・日本語の混在処理に強みがある。
コード生成
社内 R&D の Python 50 問・TypeScript 50 問の計 100 問で評価したところ、HumanEval 相当のタスクで GLM-4-Plus は 78.6%。DeepSeek-Coder V3 (84.2%)、Claude 3.5 Sonnet (88.4%) には及ばないが、関数 docstring の質が良く、テストコード自動生成のシナリオで安定して動く。
関数呼び出し
OpenAI 互換 `tools` パラメータをサポート。ネスト構造の引数(深さ 3 以上)でやや精度が落ちるが、平らな引数構造であれば実用十分。並列ツール呼び出しもサポートされる。
長文コンテキスト
GLM-4-Long の 128k は実用範囲で品質が落ちにくく、社内 R&D では 100k 程度の社内マニュアル全文を投入した QA で Recall が 0.87、レイテンシ p95 が 18 秒程度。Claude 3.5 Sonnet の 200k には及ばないが、コスト 1/8 でこの品質が出るのは利点。
まとめ
GLM-4 は「とにかくコスト最安で 100k 級長文を扱いたい」というニッチで魅力的。中国本土 API なので越境リスクは Doubao と同様に評価が必要だが、用途が限定された PoC では安価な選択肢として候補に入る。