カッコ内は大まかな容量
ImageNet-1K (165GB)
image-net.org
Kaggle版
ImageNet Object Localization Challenge | Kaggle
Tiny-ImageNet (240MB) :
Tiny ImageNet | Kaggle
Open Images Dataset V7 (560GB)
Open Images V7 - Download
COCO - MSCOCO 2014, 2017 (25GB)
COCO - Common Objects in Context
Tiny-Stories (2GB)
TinyStories | Kaggle
IWSLT 2014 (20MB, 直リンク)
http://dl.fbaipublicfiles.com/fairseq/data/iwslt14/de-en.tgzにアクセスできませんでした
dl.fbaipublicfiles.com
- Prepare_IWSLT14.sh (自動DL+前処理スクリプト?)
実行時は
/bin/bash -c "$(curl -fsSL 'https://raw.githubusercontent.com/facebookresearch/fairseq/main/examples/translation/prepare-iwslt14.sh')"
こんな感じfairseq/examples/translation/prepare-iwslt14.sh at main · facebookresearch/fairseq · GitHub
Wikipedia - Image/Caption Matching (75GB + 275GB)
- 文章 (75GB):
Wikipedia - Image/Caption Matching | Kaggle
- 画像 (275GB, 直リンク):
Sign in - Google Accounts
Edinburgh NLP
edinburghnlp.inf.ed.ac.uk
CMU Question-Answering Dataset
Question-Answer Dataset