PaliGemma 2: 強力なビジョン言語モデル

VLMによるより深い分析

PaliGemma 2およびPaliGemmaは、PaLI-3に触発された軽量のオープンなビジョン言語モデル（VLM）であり、SigLIPビジョンモデルやGemma言語モデルなどのオープンコンポーネントに基づいています。画像とテキストの両方を入力として受け取り、より深い分析を行って、詳細な回答、正確なキャプション、精密なオブジェクト検出、および画像に埋め込まれたテキストの読み取りを提供します。

VLM

ビジョン言語

3サイズ

3B, 10B, 28B

オープン

ウェイト

モデルのカテゴリ

生の事前学習済みからすぐに使える混合モデルまで、ユースケースに合ったPaliGemmaモデルを選択できます。

PaliGemma PT

汎用の事前学習済みモデル。ファインチューニングが必要です。

PaliGemma FT

特定のデータセットでファインチューニングされた研究向けモデル。

PaliGemma mix

一般的なタスクの混合に合わせて調整されたすぐに使えるモデル。

アーキテクチャ

強力なビジョンエンコーダと有能な言語デコーダの組み合わせ。

画像

テキスト

↓

ビジョンSigLIPモデル

➔

言語Gemmaモデル

↓

インサイト、キャプション、検出

PaliGemma 2のバリアント

Gemma 2 27B、9B、および2Bモデルに基づいたサイズで利用可能です。

サポートされる解像度

PaliGemmaは、タスクの複雑さに応じて異なる画像入力解像度を処理します。