Gemma Scope 2
Gemma 3モデルコレクション向けに設計された包括的なオープン解釈可能性ツールスイート。研究者が複雑な言語モデルの動作を分析できるようにします。
Gemma Scope 2は、大規模言語モデルの顕微鏡として機能します。Gemma 3ファミリーのすべてのレイヤーでトレーニングされたスパースオートエンコーダ(SAE)とトランスコーダーを提供します。高次元のアクティベーションを人間が検査可能な特徴に分解することで、研究者は入出力分析のみに依存することなく、内部ロジックを追跡できます。
AIの顕微鏡
Gemma 3の全レイヤーにわたって内部の機能を検査し、複雑な動作を追跡します。
AIの安全性
ジェイルブレイク、ハルシネーション、チャットボットの安全メカニズムを特徴レベルで調査します。
SAEとトランスコーダー
高密度なアクティベーションを、解釈可能でスパースなアクティブな概念のセットに分解します。
🔍 仕組み
アクティベーションのキャプチャ
Gemma Scope 2は、Gemma 3がさまざまなプロンプトを処理する際に、すべてのレイヤーから膨大な量のアクティベーションデータを処理します。
機能の分解
スパースオートエンコーダ(SAE)を使用して、高密度のベクトルを特定の概念(例:「コーディングロジック」や「丁寧さ」)を表す、明確でスパースな特徴に分解します。
分析とデバッグ
研究者は、望ましくない動作(ハルシネーションなど)が発生したときにどの機能が起動するかを追跡し、モデルの内部の推論ステップを理解します。
🌐 ファミリー全体のサポート
Gemma Scope 2は、Gemma 3ファミリー全体に拡張されます。複雑な創発的動作はより大きなモデルスケールでのみ現れることが多いため、この幅広いカバレッジは重要です。
オープンAIの安全性の推進
Gemma 3解釈可能性スイートのウェイト、コード、ドキュメントへのオープンアクセスを提供することで、Google DeepMindはAI安全性コミュニティが将来に向けてより安全で透明性の高いエージェントを構築できるように支援します。