はじめに
サーチエンジン、SNS から画像を取得できるクローラーである icrawler を使ってみます。
Welcome to icrawler — icrawler 0.6.3 documentation
方法
ビルトインされているクローリング機能
- Google ※今は使えないみたいです。
- Bing
- Baidu
- Flickr
- General greedy crawl (crawl all the images from a website)
- UrlList (crawl all images given an url list)
Bing で猫の画像検索をする場合
from icrawler.builtin import BingImageCrawler
filters = dict(size='large')
bing_crawler = BingImageCrawler(downloader_threads=4,
storage={'root\_dir': 'your\_image\_dir'})
bing_crawler.crawl(keyword='猫', filters=filters, offset=0, max_num=1000)