概要
従来手法では画像処理といえばCNNやVision Transformerが主流でした。 Vision GNNの著者等は、画像処理に対して単なるグリッド構造による処理(CNN)やシーケンス構造による処理(ViT)では特徴抽出には冗長であり不十分だとして、代わりにグラフ構造による処理を提案しています。
[2206.00272] Vision GNN: An Image is Worth Graph of Nodes
公式リポジトリ
Efficient-AI-Backbones/vig_pytorch at master · huawei-noah/Efficient-AI-Backbones · GitHub
実験
ひとまず公式のコードを一つにまとめ、少々修正して実行できるようにしました。
papers/src/papers/vision_gnn/evaluate.py at master · n4okins/papers · GitHub
github.com
models/
ディレクトリ下に公式リポジトリにある学習済モデルを入れ、
python evaluate.py sample_figs/Data/CLS-LOC/ --model_type vig --model_path ./models/vig_s_80.6.pth
あるいは
python evaluate.py /path/to/imagenet/ --model_type vig --model_path ./models/vig_s_80.6.pth
などのように実行することで(おそらく)evalできるはずです。
/path/to/imagenet/
は、直後に/path/to/imagenet/train
, /path/to/imagenet/eval
, /path/to/imagenet/val
となっているようなimagenetのデータセットのパスを指定してください。
結果
ViG (Vision GNN)
PViG (Pyrmaid Vision GNN)
参考URL
【論文読み】画像をグラフ構造として特徴抽出するVisionGNN #DeepLearning - Qiita