自作Webクローラはwget使えば再帰的に掘ってくれる機能がもともとあるんで自分で作ってみりゃあ良いんじゃないかなって思う
ただクローラにはIT業界で慣習的なマナー・エチケットみたいなもんがあるんで下記の情報は読んでおくべき
robots.txt について - Google
https://support.google.com/webmasters/answer/6062608?hl=ja
robots.txtやメタタグについての情報が読める
岡崎市立中央図書館事件 - Wikipedia
https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6
Librahack事件については下記が行が重要
> このクローラは、同時には一回しかリクエストを送らず(以下略)
上記を読んで接続先に合わせた常識的なクローリングをしよう