Skip to content
記事一覧に戻る
Open Source12 min

Qwen3-72B を東京リージョンに展開する: vLLM 設定・日本語チューニング・運用の実戦

Deploying Qwen3-72B in Tokyo: vLLM Setup, JP Tuning and Operations

Yuki SatoCloud Infrastructure Architect
2026-04-2512 min
Qwen3Tokyo DeploymentvLLMJapaneseSelf-hosted

なぜ Qwen3-72B か

Qwen3 は Apache 2.0 ライセンスで配布されるアリババ Cloud の最新オープンウェイトで、72B Dense / 110B MoE のバリエーションが提供されている。漢字圏知識・コード生成・指示追従の総合点が高く、日本語タスクでも DeepSeek 系列と肩を並べる強さを持つ。本記事では 72B-Instruct を Tokyo の H100 80GB ×4 にセルフホストし、社内利用基盤として組み上げた構成を共有する。

vLLM 設定

```bash vllm serve Qwen/Qwen3-72B-Instruct \ --tensor-parallel-size 4 \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching \ --quantization fp8 \ --kv-cache-dtype fp8_e5m2 ```

H100 80GB ×4 で BF16 ロードはギリギリ収まらないため、FP8 量子化を必須とする。社内 R&D での速度計測では FP8 で 25-30 tok/s(連続生成、コンテキスト 8k)。

日本語プロンプト調整

Qwen は中国語起点の学習データ比率が高いため、敬語・丁寧体での出力安定性に注意する必要がある。`system` プロンプトに「日本語で、ですます調・敬語不要、技術的に正確に答えること」と明示するだけで一貫性が大きく改善する。

長文コンテキスト

公開仕様では 128k までスケールするが、実用上は 32-64k に制限したほうが品質が安定する。RoPE スケール(YaRN)を 4 倍まで上げると JMMLU で約 1.5 ポイントの劣化が見られたので、社内 R&D では 32k 固定で運用している。

観測項目

  • TTFT / TPOT
  • Prefix キャッシュヒット率
  • 失敗ジョブ率(OOM / タイムアウト)
  • expert 活性度(MoE 版の場合)
  • ガード判定によるブロック率

まとめ

Qwen3-72B は日本語業務 AI のオープンウェイト基盤としてバランスがよく、特に多言語が混じる業務(中国語仕入先資料 + 日本語 FAQ など)で強い。Tokyo H100 ×4 + vLLM FP8 という構成は月額 320-420 万円で運用可能。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら