Gemma Scope 2

Gemma 3モデルコレクション向けに設計された包括的なオープン解釈可能性ツールスイート。研究者が複雑な言語モデルの動作を分析できるようにします。

Gemma Scope 2は、大規模言語モデルの顕微鏡として機能します。Gemma 3ファミリーのすべてのレイヤーでトレーニングされたスパースオートエンコーダ(SAE)とトランスコーダーを提供します。高次元のアクティベーションを人間が検査可能な特徴に分解することで、研究者は入出力分析のみに依存することなく、内部ロジックを追跡できます。

🔬

AIの顕微鏡

Gemma 3の全レイヤーにわたって内部の機能を検査し、複雑な動作を追跡します。

🛡️

AIの安全性

ジェイルブレイク、ハルシネーション、チャットボットの安全メカニズムを特徴レベルで調査します。

🔄

SAEとトランスコーダー

高密度なアクティベーションを、解釈可能でスパースなアクティブな概念のセットに分解します。

🔍 仕組み

💾

アクティベーションのキャプチャ

Gemma Scope 2は、Gemma 3がさまざまなプロンプトを処理する際に、すべてのレイヤーから膨大な量のアクティベーションデータを処理します。

⚙️

機能の分解

スパースオートエンコーダ(SAE)を使用して、高密度のベクトルを特定の概念(例:「コーディングロジック」や「丁寧さ」)を表す、明確でスパースな特徴に分解します。

📊

分析とデバッグ

研究者は、望ましくない動作(ハルシネーションなど)が発生したときにどの機能が起動するかを追跡し、モデルの内部の推論ステップを理解します。

🌐 ファミリー全体のサポート

Gemma Scope 2は、Gemma 3ファミリー全体に拡張されます。複雑な創発的動作はより大きなモデルスケールでのみ現れることが多いため、この幅広いカバレッジは重要です。

Gemma 3 270Mサポート済み
Gemma 3 1Bサポート済み
Gemma 3 4Bサポート済み
Gemma 3 12Bサポート済み
Gemma 3 27Bサポート済み(創発的動作)

オープンAIの安全性の推進

Gemma 3解釈可能性スイートのウェイト、コード、ドキュメントへのオープンアクセスを提供することで、Google DeepMindはAI安全性コミュニティが将来に向けてより安全で透明性の高いエージェントを構築できるように支援します。