3D環境向けの汎用AI
特定のゲームをプレイするために訓練されたAIモデルとは異なり、Google DeepMindのSIMAは汎用エージェントです。自然言語の指示に従い、様々な3D仮想環境やビデオゲーム全体でタスクを実行することを学習します。SIMAは画面を見てテキストのコマンドを読むだけで、人間のプレイヤーのように振る舞い、複雑な世界をナビゲートし、オブジェクトと対話し、協力して高度な目標を達成します。
9+
多様な3D世界
600+
習得した基本スキル
No API
ゲームコード不要
Multi
マルチモーダルアーキテクチャ
ドメインを越える能力
SIMAは身体性エージェントの幅広いタスクにおいて優れており、視覚の認識と自然言語の理解をシームレスに融合させて複雑な目標を実行します。
SIMAのインタラクション方法
SIMAが必要とする入力は2つだけです。画面上の画像と、自然言語の指示です。そこからキーボードとマウスのコマンドを出力します。
Observationピクセル + 言語
➔
視覚的な画面出力とユーザーの指示を処理します。
Reasoningビジョン言語モデル
➔
文脈に沿って目標を実行可能なステップに変換します。
Actionキーボード / マウス
➔
環境内で物理的な制御コマンドを出力します。