Skip to content
Quay lại danh sách bài viết
AI/AGI11分

日本語ネイティブLLM 2026:Sarashina 2.5・PLaMo Prime・ELYZA・Calm3の使い分け

Japanese-Native LLMs 2026: Sarashina 2.5, PLaMo Prime, ELYZA, Calm3 — When JP-Native Beats Multilingual

田中 美咲NLP研究者
2026-04-2311分
日本語LLMSarashinaPLaMoELYZACalm3

Bài viết này được đăng bằng tiếng Nhật. Tóm tắt tiếng Việt ở dưới:

Japanese-Native LLMs 2026: Sarashina 2.5, PLaMo Prime, ELYZA, Calm3 — When JP-Native Beats Multilingual日本語ネイティブLLMが多言語LLMに勝てる局面は意外と限定的で、しかし確実に存在する。SB Intuitions の Sarashina 2.5、Preferred Networks の PLaMo Prime、ELYZA、サイバーエージェントの Calm3 を、公開情報と実務観点で整理する。

「GPT-5 や Claude が日本語を流暢に話す時代に、日本語ネイティブLLM はまだ意味があるのか」という問いに、2026年時点で答えるとすれば「特定の条件では意味がある」だ。本稿は SB Intuitions の Sarashina、Preferred Networks の PLaMo、ELYZA、サイバーエージェントの Calm3 について公開情報を整理し、「多言語LLMに勝てる局面」を具体化する。

日本語ネイティブが勝つ3条件

第一にデータ主権。政府系・金融・医療などで「日本国外にデータを出さない」制約があるケースでは、国内で推論が回せるモデルが第一候補になる。第二に敬語・業界用語の自然さ。稟議書、医療記録、法律文書など、教科書的ではない日本語の自然さで差がつく場面。第三にコスト感度。日本語特化で小型・高効率なモデルは、同等の日本語品質をクラウド大規模モデルより安く出せる場合がある。

Sarashina(SB Intuitions)

ソフトバンクグループの SB Intuitions が公開した Sarashina は、日本語コーパスへの重い投資で知られる。バージョンは段階的に上がっており、本稿執筆時点で Sarashina2 系および派生版が Hugging Face 等で公開されている。Sarashina 2.5 に関する公式発表は各自で最新情報を確認されたい(本稿では具体的な数値は記載を避ける)。特徴は「商用利用可能な寛容ライセンス」と「純国産の学習パイプライン」である。

PLaMo Prime(Preferred Networks / PFN)

PFN 子会社 Preferred Elements が提供する PLaMo シリーズは、PLaMo-100B を経て API 商用化フェーズに入っている。PLaMo Prime は有償API で、日本語の自然さと安全性で国内事例が積み上がっている。オンプレ配備や独自ファインチューンの相談窓口がある点も企業導入では加点要素だ。

ELYZA

東大松尾研発の ELYZA は、Llama ベースの日本語ファインチューン(ELYZA-japanese-Llama など)で知られ、KDDI 傘下になった後もビジネス向けの LLM 提供を継続している。API・オンプレ両対応で、国内カスタマーサポート・稟議資料作成などの文書ワークフロー用途で実績を築いている。

Calm3(サイバーエージェント)

サイバーエージェントは CyberAgentLM(CALM)シリーズを早期から公開し、Calm3 世代では 22B 級のオープンモデルも含めて商用利用可能な形で出している。広告・メディア領域の日本語データでチューニングされている点が特色だ。

多言語LLMとの比較軸

GPT-5、Claude 4.5、Gemini 2.5 Pro などは日本語も高品質だが、「コストあたりの日本語品質」や「オフライン/オンプレ」「日本固有の暗黙知」では国産の方が勝つ局面がある。逆に「英語コード生成」「長文マルチステップ推論」「ツール連携」では多言語LLMが強い。

選び方の指針

まず「データを国外に出せるか」を決める。出せないなら国産一択。出せるなら、RAG やツール連携主体のタスクは多言語LLM、純粋な日本語生成・要約・敬語変換は国産をファインチューンで育てる方針が費用対効果が高い。ベンチマークはサイトの公式発表を一次情報として参照し、自社タスクでの A/B 評価を必ず行うこと。

ファインチューンの現実

国産オープンモデル(Sarashina、Calm3 等)は LoRA/QLoRA での追加学習資産が Hugging Face を中心に蓄積されつつある。業界用語辞書、社内文書、FAQ でチューニングすれば、汎用の大規模多言語LLMより「業務文書の自然さ」で上回るケースは少なくない。注意点は、ファインチューン時のベースモデルのライセンス条項(商用可否、派生モデル公開義務など)を確認し、社内の知財ポリシーと整合させること。

評価データセットの罠

日本語LLM の評価では JGLUE、llm-jp-eval、MT-Bench 日本語版などが使われるが、これらは「一般的な日本語タスク」であって「あなたの業務タスク」ではない。公開ベンチのスコアが高くても、稟議書の定型句、医療用語、社内独特の略語では崩れることがある。PoC では必ず自社データで 100〜300 件の評価セットを作り、モデル候補を横並びで比較すること。

コストとレイテンシ

API 提供モデル(PLaMo Prime、ELYZA のクラウド版)はトークン単価×ボリュームで試算する。オンプレ GPU(A100/H100/L40S クラス)での自前推論は、継続的に高スループットを使う用途で API より安くなる分岐点がある。一方で運用工数(モデル更新、障害対応)を含めた TCO では API のほうが優位なことも多い。自社のトラフィック見積もりを前提に冷静に比較するのが肝要だ。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ