Gemma Scope 2

Gemma 3モデルコレクション向けに設計された包括的なオープン解釈可能性ツールスイート。研究者が複雑な言語モデルの動作を分析できるようにします。

Gemma Scope 2は、大規模言語モデルの顕微鏡として機能します。Gemma 3ファミリーのすべてのレイヤーでトレーニングされたスパースオートエンコーダ（SAE）とトランスコーダーを提供します。高次元のアクティベーションを人間が検査可能な特徴に分解することで、研究者は入出力分析のみに依存することなく、内部ロジックを追跡できます。

🔬

AIの顕微鏡

Gemma 3の全レイヤーにわたって内部の機能を検査し、複雑な動作を追跡します。

🛡️

AIの安全性

ジェイルブレイク、ハルシネーション、チャットボットの安全メカニズムを特徴レベルで調査します。

🔄

SAEとトランスコーダー

高密度なアクティベーションを、解釈可能でスパースなアクティブな概念のセットに分解します。

🔍 仕組み

💾

アクティベーションのキャプチャ

Gemma Scope 2は、Gemma 3がさまざまなプロンプトを処理する際に、すべてのレイヤーから膨大な量のアクティベーションデータを処理します。

⚙️

機能の分解

スパースオートエンコーダ（SAE）を使用して、高密度のベクトルを特定の概念（例：「コーディングロジック」や「丁寧さ」）を表す、明確でスパースな特徴に分解します。

📊

分析とデバッグ

研究者は、望ましくない動作（ハルシネーションなど）が発生したときにどの機能が起動するかを追跡し、モデルの内部の推論ステップを理解します。

🌐 ファミリー全体のサポート

Gemma Scope 2は、Gemma 3ファミリー全体に拡張されます。複雑な創発的動作はより大きなモデルスケールでのみ現れることが多いため、この幅広いカバレッジは重要です。

Gemma 3 270Mサポート済み

Gemma 3 1Bサポート済み

Gemma 3 4Bサポート済み

Gemma 3 12Bサポート済み

Gemma 3 27Bサポート済み（創発的動作）

オープンAIの安全性の推進

Gemma 3解釈可能性スイートのウェイト、コード、ドキュメントへのオープンアクセスを提供することで、Google DeepMindはAI安全性コミュニティが将来に向けてより安全で透明性の高いエージェントを構築できるように支援します。