skip to content
barorin&?

icrawlerを使ってみる

/ 1 min read

はじめに

サーチエンジン、SNS から画像を取得できるクローラーである icrawler を使ってみます。
Welcome to icrawler — icrawler 0.6.3 documentation

方法

ビルトインされているクローリング機能

  • Google ※今は使えないみたいです。
  • Bing
  • Baidu
  • Flickr
  • General greedy crawl (crawl all the images from a website)
  • UrlList (crawl all images given an url list)

Bing で猫の画像検索をする場合

from icrawler.builtin import BingImageCrawler

filters = dict(size='large')

bing_crawler = BingImageCrawler(downloader_threads=4,
                                storage={'root\_dir': 'your\_image\_dir'})
bing_crawler.crawl(keyword='猫', filters=filters, offset=0, max_num=1000)