SIMA: 拡張可能な指示可能マルチワールドエージェント

3D環境向けの汎用AI

特定のゲームをプレイするために訓練されたAIモデルとは異なり、Google DeepMindのSIMAは汎用エージェントです。自然言語の指示に従い、様々な3D仮想環境やビデオゲーム全体でタスクを実行することを学習します。SIMAは画面を見てテキストのコマンドを読むだけで、人間のプレイヤーのように振る舞い、複雑な世界をナビゲートし、オブジェクトと対話し、協力して高度な目標を達成します。

多様な3D世界

600+

習得した基本スキル

No API

ゲームコード不要

Multi

マルチモーダルアーキテクチャ

ドメインを越える能力

SIMAは身体性エージェントの幅広いタスクにおいて優れており、視覚の認識と自然言語の理解をシームレスに融合させて複雑な目標を実行します。

SIMAのインタラクション方法

SIMAが必要とする入力は2つだけです。画面上の画像と、自然言語の指示です。そこからキーボードとマウスのコマンドを出力します。

Observationピクセル + 言語

➔

視覚的な画面出力とユーザーの指示を処理します。

Reasoningビジョン言語モデル

➔

文脈に沿って目標を実行可能なステップに変換します。

Actionキーボード / マウス

➔

環境内で物理的な制御コマンドを出力します。