実験的モデル

DiffusionGemma

Google DeepMindによる画期的な並列生成テキストモデル。非常に高速でスループットの高いAI体験を実現するために設計されています。

従来のトークンごとの生成を放棄し、離散的テキスト拡散（discrete text diffusion）を採用することで、DiffusionGemmaは推論を劇的に加速させます。これにより、品質を妥協することなく、リアルタイムAIエージェントや高スループットのローカルデプロイメントの新たな最前線が切り開かれます。

⏩

256

並列処理トークン

🚀

1,000

トークン / 秒 (最大)

💾

26B

総パラメータ数

🌟

3.8B

アクティブパラメータ数

⚡ 並列テキスト生成

従来のLLMは自己回帰的デコーディングを使用し、厳密に1つずつトークンを予測します。DiffusionGemmaは、拡散ベースのノイズ除去を使用してテキストブロック全体を同時に調整します。一度に最大256個のトークンを処理することで、逐次生成のボトルネックを解消し、スループットを大幅に向上させます。

従来のLLM (自己回帰的)1 トークン / ステップ

DiffusionGemma (ブロックノイズ除去)256 トークン / ステップ

重要なポイント: 並列ブロック生成により、DiffusionGemmaは専用ハードウェアで最大1,000トークン/秒の速度に達し、高スループットアプリケーションの可能性を広げます。

🧠 MoEの効率性

強固なMixture-of-Experts（MoE）基盤の上に構築されたDiffusionGemmaは、推論効率を損なうことなく能力を拡張します。モデルの総サイズは252億パラメータですが、スパースな設計を活用しています。各ステップにおいて、計算にアクティブに使用されるのは38億パラメータのみです。

15%

アクティブ

重要なポイント: 全パラメータのほんの一部のみをアクティブにすることで、DiffusionGemmaは低いメモリ帯域幅要件を維持し、ローカルやワークステーション環境向けに高度に最適化されています。