SIMA

Scalable Instructable Multiworld Agent

3D環境向けの汎用AI

特定のゲームをプレイするために訓練されたAIモデルとは異なり、Google DeepMindのSIMAは汎用エージェントです。自然言語の指示に従い、様々な3D仮想環境やビデオゲーム全体でタスクを実行することを学習します。SIMAは画面を見てテキストのコマンドを読むだけで、人間のプレイヤーのように振る舞い、複雑な世界をナビゲートし、オブジェクトと対話し、協力して高度な目標を達成します。

9+
多様な3D世界
600+
習得した基本スキル
No API
ゲームコード不要
Multi
マルチモーダルアーキテクチャ

ドメインを越える能力

SIMAは身体性エージェントの幅広いタスクにおいて優れており、視覚の認識と自然言語の理解をシームレスに融合させて複雑な目標を実行します。

SIMAのインタラクション方法

SIMAが必要とする入力は2つだけです。画面上の画像と、自然言語の指示です。そこからキーボードとマウスのコマンドを出力します。

Observationピクセル + 言語
視覚的な画面出力とユーザーの指示を処理します。
Reasoningビジョン言語モデル
文脈に沿って目標を実行可能なステップに変換します。
Actionキーボード / マウス
環境内で物理的な制御コマンドを出力します。