网站首页 > java教程 正文
最近好多人都在问我,大数据怎么学,java怎么转大数据,今天就给大家分享一下。
大数据初学者怎样学习 或Java工程师怎么转大数据
大数据现在很火很热,但是怎么学习呢?下面我给大家分享一下:
首先给大家普及一下大数据相关知识大数据的4大特征:
1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。
2.数据的类型多种多样,有些是结构化的数据,像存在Oracle,MySQL这些传统的数据库里的数据,一般都是结构化,可以是还有非结构化,比如HTML,WORD,execl等格式。
3.它们的价值密度低,这样说吧,你比如说观看一条数据好像价值也不大,但是分析所有的数据之后呢?总会挖掘出一些 重要的东西。
4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架,相比传统的数据库处理速度要快,它的吞吐量 特别的大,再比如Spark,Spark在内存方面计算比Hadoop快100倍,在磁盘方面计算快10倍。
大数据的方向的工作有 大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。
大数据的技术有
Hadoop HDFS文件系统 MR计算模型
Hive数据仓库
HBase数据库
Flume日志收集
Kafka消息系统
Storm流式计算
Spark生态圈:Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX
Zookeeper协调系统
NOSQL数据库:Redis、MongoDB
机器学习:Mahout
看到这么多技术是不是有点晕呢?该怎么学习呢?
先学Hadoop Hadoop框架中由两大模块组成,一个HDFS(Hadoop Distributed File System),是用来存储需要处理的数据,另外一个是MapReduce,是Hadoop的处理数据的计算模型。
学习一门数据库,像MySQL学点SQL吧
Hive 只要你会SQL,你就会使用它。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
HBase HBase即Hadoop DataBase,Hadoop的数据库,HBase是一种 "NoSQL" 数据库,即不是RDBMS ,不支持SQL作为主要访问手段。
Sqoop Sqoop是迁移数据工具,可以在很多数据库之间来迁移,
Flume Flume是一个分布式的海量日志采集和传输框架,一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Kafka 使用Kafka完成数据的一次收集,多次消费。它是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统。
Spark基于内存计算的框架 Spark Core最为重要再学SparkSQL、Spark Streaming、图计算、机器学习
Storm实时的流计算框架。
后期可以学习机器学习Mahout
基本就是这样的学习顺序。加油学习吧。
喜欢就分享给大家吧。。。。
猜你喜欢
- 2024-10-17 深入理解JVM,阿里架构师带你梳理JVM体系(附学习资料)
- 2024-10-17 Java和大数据是什么关系 杭州哪个就业前景更好
- 2024-10-17 java大数据知识体系和java知识体系,高手之作值得收藏
- 2024-10-17 JAVA和大数据的关系是什么?(java和大数据的关系是什么样的)
- 2024-10-17 学大数据必须有Java基础吗?(学大数据必须有java基础吗知乎)
- 2024-10-17 Java 8 Stream 处理大数据集:实战与优化
- 2024-10-17 敞开心扉,一起聊聊Java多线程(java多线程介绍)
- 2024-10-17 一文理解JVM(内存、垃圾回收、性能优化)解决面试中遇到问题
- 2024-10-17 想学大数据,OK,先学习Java(大数据需要学java)
- 2024-10-17 入门Java大数据很简单,学习路径最重要
你 发表评论:
欢迎- 最近发表
-
- Java常量定义防暴指南:从"杀马特"到"高富帅"的华丽转身
- Java接口设计原则与实践:优雅编程的艺术
- java 包管理、访问修饰符、static/final关键字
- Java工程师的代码规范与最佳实践:优雅代码的艺术
- 编写一个java程序(编写一个Java程序计算并输出1到n的阶乘)
- Mycat的搭建以及配置与启动(mycat部署)
- Weblogic 安装 -“不是有效的 JDK Java 主目录”解决办法
- SpringBoot打包部署解析:jar包的生成和结构
- 《Servlet》第05节:创建第一个Servlet程序(HelloSevlet)
- 你认为最简单的单例模式,东西还挺多
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)