なぜ Qwen3-72B か
Qwen3 は Apache 2.0 ライセンスで配布されるアリババ Cloud の最新オープンウェイトで、72B Dense / 110B MoE のバリエーションが提供されている。漢字圏知識・コード生成・指示追従の総合点が高く、日本語タスクでも DeepSeek 系列と肩を並べる強さを持つ。本記事では 72B-Instruct を Tokyo の H100 80GB ×4 にセルフホストし、社内利用基盤として組み上げた構成を共有する。
vLLM 設定
```bash vllm serve Qwen/Qwen3-72B-Instruct \ --tensor-parallel-size 4 \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching \ --quantization fp8 \ --kv-cache-dtype fp8_e5m2 ```
H100 80GB ×4 で BF16 ロードはギリギリ収まらないため、FP8 量子化を必須とする。社内 R&D での速度計測では FP8 で 25-30 tok/s(連続生成、コンテキスト 8k)。
日本語プロンプト調整
Qwen は中国語起点の学習データ比率が高いため、敬語・丁寧体での出力安定性に注意する必要がある。`system` プロンプトに「日本語で、ですます調・敬語不要、技術的に正確に答えること」と明示するだけで一貫性が大きく改善する。
長文コンテキスト
公開仕様では 128k までスケールするが、実用上は 32-64k に制限したほうが品質が安定する。RoPE スケール(YaRN)を 4 倍まで上げると JMMLU で約 1.5 ポイントの劣化が見られたので、社内 R&D では 32k 固定で運用している。
観測項目
- TTFT / TPOT
- Prefix キャッシュヒット率
- 失敗ジョブ率(OOM / タイムアウト)
- expert 活性度(MoE 版の場合)
- ガード判定によるブロック率
まとめ
Qwen3-72B は日本語業務 AI のオープンウェイト基盤としてバランスがよく、特に多言語が混じる業務(中国語仕入先資料 + 日本語 FAQ など)で強い。Tokyo H100 ×4 + vLLM FP8 という構成は月額 320-420 万円で運用可能。