Gemini Omni: オムニモーダルな世界モデル

世界理解の飛躍

Google DeepMindは、Geminiの推論能力と創造する能力が融合したオムニモーダルモデル、Gemini Omniを発表しました。単一のメディアに焦点を当てたり、ピクセルのパターンマッチングに依存したりする初期のモデルとは異なり、Omniは世界モデル（ワールドモデル）として機能します。現実と物理の内部理解を構築し、テキスト、画像、音声、ビデオをシームレスにブレンドして、アイデアを具現化することができます。

入力モダリティ

テキスト、画像、音声、ビデオ

10秒

ビデオ生成

高品質な出力

Omni

Any-to-Any

実世界に基づく推論

Native

音声とビデオ

Veo 3.1に代わる機能

マルチターン編集

Gemini Omniはビデオの編集方法を変革します。チャットインターフェースを通じてモデルに修正内容を伝えるだけです。複雑なソフトウェアを使用することなく、キャラクターの入れ替え、照明の調整、カメラの安定化、または背景の完全な変更を行うことができます。

背景を瞬時に変更
服装とスタイルを変更
被写体の詳細を維持（ショットの魂を保つ）

ワールドモデリング物理

単純な生成を超えて、Omniは現実のための「物理エンジン」として機能します。次のフレームを予測するだけでなく、環境、空間関係、およびシーン内のオブジェクトがどのように相互作用するかについて推論します。

メディアを横断する強力な物理推論
現実世界の知識に基づくグラウンディング
一貫したマルチビュー理解

オムニモーダルアーキテクチャ

入力を自由に組み合わせて、現実世界のロジックに基づいた出力を生成します。

テキスト

画像

音声

ビデオ

➔

Gemini Omniワールドモデルと推論エンジン

➔

任意のテキスト

任意の画像

任意の音声

ビデオ (Flash)