PALIGEMMA 2

強力な ビジョン言語モデル

VLMによるより深い分析

PaliGemma 2およびPaliGemmaは、PaLI-3に触発された軽量のオープンなビジョン言語モデル(VLM)であり、SigLIPビジョンモデルやGemma言語モデルなどのオープンコンポーネントに基づいています。画像とテキストの両方を入力として受け取り、より深い分析を行って、詳細な回答、正確なキャプション、精密なオブジェクト検出、および画像に埋め込まれたテキストの読み取りを提供します。

VLM
ビジョン言語
3サイズ
3B, 10B, 28B
オープン
ウェイト

モデルのカテゴリ

生の事前学習済みからすぐに使える混合モデルまで、ユースケースに合ったPaliGemmaモデルを選択できます。

PaliGemma PT

汎用の事前学習済みモデル。ファインチューニングが必要です。

PaliGemma FT

特定のデータセットでファインチューニングされた研究向けモデル。

PaliGemma mix

一般的なタスクの混合に合わせて調整されたすぐに使えるモデル。

アーキテクチャ

強力なビジョンエンコーダと有能な言語デコーダの組み合わせ。

画像
+
テキスト
ビジョンSigLIPモデル
言語Gemmaモデル
インサイト、キャプション、検出

PaliGemma 2のバリアント

Gemma 2 27B、9B、および2Bモデルに基づいたサイズで利用可能です。

サポートされる解像度

PaliGemmaは、タスクの複雑さに応じて異なる画像入力解像度を処理します。