n4okins / Vision GNN

Created Tue, 11 Jun 2024 15:20:33 +0900 Modified Tue, 11 Jun 2024 15:20:33 +0900

概要

従来手法では画像処理といえばCNNやVision Transformerが主流でした。 Vision GNNの著者等は、画像処理に対して単なるグリッド構造による処理(CNN)やシーケンス構造による処理(ViT)では特徴抽出には冗長であり不十分だとして、代わりにグラフ構造による処理を提案しています。

公式リポジトリ

実験

ひとまず公式のコードを一つにまとめ、少々修正して実行できるようにしました。

models/ディレクトリ下に公式リポジトリにある学習済モデルを入れ、

python evaluate.py sample_figs/Data/CLS-LOC/ --model_type vig --model_path ./models/vig_s_80.6.pth

あるいは

python evaluate.py /path/to/imagenet/ --model_type vig --model_path ./models/vig_s_80.6.pth

などのように実行することで(おそらく)evalできるはずです。

/path/to/imagenet/は、直後に/path/to/imagenet/train, /path/to/imagenet/eval, /path/to/imagenet/valとなっているようなimagenetのデータセットのパスを指定してください。

結果

ViG (Vision GNN)

PViG (Pyrmaid Vision GNN)

参考URL