目前开源爬虫下载框架是百花齐放,各个编程语言都有,以下主要介绍其中重要的几个:
1)python:scrapy,pyspider,gcrawler
2)Java:webmagic,WebCollector,Crawler4j,heritrix,Nutch
3)Golang:Pholcus
4).net:abot
5)C++:larbin
其中部分开源框架的适用场景为:
a)scrapy(目前可以支持py3),heritrix比较适合整站直接爬取
b)WebCollector比较适合做有精准抽取抽取业务的爬虫
c)Nutch是针对搜索引擎优化
本文暂时没有评论,来添加一个吧(●'◡'●)