网站首页 > java教程 正文
随着大数据技术体系的发展,越来越多的企业应用大数据技术支撑自己的业务发展。数据采集作为大数据的起点,是企业主动获取数据的一种重要手段。数据采集的多样性、全面性直接影响数据质量。
企业获取数据的渠道分为内部和外部两个渠道。内部渠道包含自己建设的业务系统,如电商系统、门户网站、门户论坛等。外部渠道包含爬虫系统爬取的数据、三方合作平台数据、公共社交平台数据等。那么如何从这些渠道获取数据?下面简单地介绍一下常用的数据采集工具。
结构化数据采集工具。
结构化数据在分析型的原始数据占比比较大,大部分经过预处理进入数据仓库进一步多维分析和数据挖掘。常用的数据采集工具有:
1 Apache Flume
支持离线与实时数据导入,是数据集成的主要工具。
2 Apache Sqoop
主要使用JDBC等工具连接关系型数据库与Hadoop生态圈的文件系统,通过配置文件配置双向连接信息后,通过命令完成数据的导入导出。
半结构化数据采集工具
半结构化的数据多见于日志格式。对于日志采集的工具,比较常见的是
1 Logstash
Logstash与ElasticSearch、Kibana并称为ELK,是采集日志的黄金搭档。
2 Apache Flume也多用于日志文本类数据采集。
非结构化数据采集工具
1 DataX
DataX轻量级中间件,在关系型数据库导入导出性能比较优异。支持多种数据类型的导入导出。
流式数据采集工具
1 Kafka
性能优异超高吞吐量。
Binlog日志采集工具
1 Canal
基于MySQL数据库增量日志解析提供增量日志订阅和消费功能。
爬虫采集框架与工具
1 Java栈,Nutch2、WebMagic等。
2 Python栈,Scrapy、PySpider
3 第三方爬虫工具,八爪鱼、爬山虎、后羿等等。
猜你喜欢
- 2025-01-31 python:最简单爬虫之使用Scrapy框架爬取小说
- 2025-01-31 关于Python的Selenium框架全解,一篇完整的说明书
- 2025-01-31 SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题
- 2025-01-31 高级前端进阶,nodejs如何实现一个爬虫?
- 2025-01-31 从0教你用Python写网络爬虫,内容详细代码清晰,适合入门学习
- 2025-01-31 大数据开源舆情分析系统-数据采集技术架构浅析
- 2025-01-31 爬虫工具介绍(爬虫工具包)
- 2025-01-31 【爬虫】Scrapy爬虫框架,高效并发爬取
- 2025-01-31 Python网络爬虫框架的总结(python中的爬虫框架)
- 2025-01-31 C# RuiJi.Net(爬虫)框架浅析(c# 爬虫类agility pack)
你 发表评论:
欢迎- 最近发表
-
- Java常量定义防暴指南:从"杀马特"到"高富帅"的华丽转身
- Java接口设计原则与实践:优雅编程的艺术
- java 包管理、访问修饰符、static/final关键字
- Java工程师的代码规范与最佳实践:优雅代码的艺术
- 编写一个java程序(编写一个Java程序计算并输出1到n的阶乘)
- Mycat的搭建以及配置与启动(mycat部署)
- Weblogic 安装 -“不是有效的 JDK Java 主目录”解决办法
- SpringBoot打包部署解析:jar包的生成和结构
- 《Servlet》第05节:创建第一个Servlet程序(HelloSevlet)
- 你认为最简单的单例模式,东西还挺多
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)