网站首页 > java教程 正文
项目名称:Crawlab
项目作者:tikazyq
开源许可协议:BSD-3-Clause
项目地址:https://gitee.com/tikazyq/crawlab
项目简介
Crawlab 是一款基于Golang的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。
Crawlab 主要解决的是大量爬虫管理困难的问题,例如需要监控上百个网站的参杂scrapy和selenium的项目不容易做到同时管理,而且命令行管理的成本非常高,还容易出错。Crawlab支持任何语言和任何框架,配合任务调度、任务监控,很容易做到对成规模的爬虫项目进行有效监控管理。
项目架构
Crawlab的架构包括了一个主节点(Master Node)和多个工作节点(Worker Node),以及负责通信和数据储存的Redis和MongoDB数据库。
前端应用向主节点请求数据,主节点通过MongoDB和Redis来执行任务派发调度以及部署,工作节点收到任务之后,开始执行爬虫任务,并将任务结果储存到MongoDB。架构相对于v0.3.0之前的Celery版本有所精简,去除了不必要的节点监控模块Flower,节点监控主要由Redis完成。
项目截图
目前该项目已经更新至 0.5.1 版本,如果你看了介绍后想要上手试一试它的表现如何, 那么就点击下方了解更多,前往项目主页看看具体的部署方法和流程吧。
- 上一篇: 敢相信么?其实Java也可以写爬虫了?
- 下一篇: 网络爬虫开源框架(python网络爬虫框架)
猜你喜欢
- 2025-01-31 python:最简单爬虫之使用Scrapy框架爬取小说
- 2025-01-31 大数据数据采集工具简介(大数据的数据采集流程有哪些)
- 2025-01-31 关于Python的Selenium框架全解,一篇完整的说明书
- 2025-01-31 SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题
- 2025-01-31 高级前端进阶,nodejs如何实现一个爬虫?
- 2025-01-31 从0教你用Python写网络爬虫,内容详细代码清晰,适合入门学习
- 2025-01-31 大数据开源舆情分析系统-数据采集技术架构浅析
- 2025-01-31 爬虫工具介绍(爬虫工具包)
- 2025-01-31 【爬虫】Scrapy爬虫框架,高效并发爬取
- 2025-01-31 Python网络爬虫框架的总结(python中的爬虫框架)
你 发表评论:
欢迎- 最近发表
-
- Java常量定义防暴指南:从"杀马特"到"高富帅"的华丽转身
- Java接口设计原则与实践:优雅编程的艺术
- java 包管理、访问修饰符、static/final关键字
- Java工程师的代码规范与最佳实践:优雅代码的艺术
- 编写一个java程序(编写一个Java程序计算并输出1到n的阶乘)
- Mycat的搭建以及配置与启动(mycat部署)
- Weblogic 安装 -“不是有效的 JDK Java 主目录”解决办法
- SpringBoot打包部署解析:jar包的生成和结构
- 《Servlet》第05节:创建第一个Servlet程序(HelloSevlet)
- 你认为最简单的单例模式,东西还挺多
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)