VLMによるより深い分析
PaliGemma 2およびPaliGemmaは、PaLI-3に触発された軽量のオープンなビジョン言語モデル(VLM)であり、SigLIPビジョンモデルやGemma言語モデルなどのオープンコンポーネントに基づいています。画像とテキストの両方を入力として受け取り、より深い分析を行って、詳細な回答、正確なキャプション、精密なオブジェクト検出、および画像に埋め込まれたテキストの読み取りを提供します。
VLM
ビジョン言語
3サイズ
3B, 10B, 28B
オープン
ウェイト
モデルのカテゴリ
生の事前学習済みからすぐに使える混合モデルまで、ユースケースに合ったPaliGemmaモデルを選択できます。
PaliGemma PT
汎用の事前学習済みモデル。ファインチューニングが必要です。
PaliGemma FT
特定のデータセットでファインチューニングされた研究向けモデル。
PaliGemma mix
一般的なタスクの混合に合わせて調整されたすぐに使えるモデル。
アーキテクチャ
強力なビジョンエンコーダと有能な言語デコーダの組み合わせ。
画像
+
テキスト
↓
ビジョンSigLIPモデル
➔
言語Gemmaモデル
↓
インサイト、キャプション、検出
PaliGemma 2のバリアント
Gemma 2 27B、9B、および2Bモデルに基づいたサイズで利用可能です。
サポートされる解像度
PaliGemmaは、タスクの複雑さに応じて異なる画像入力解像度を処理します。