本站所有文章均为原创,如对您有帮助,恳请帮忙点击任何一处广告

大数据基础(1)Hadoop背景与学习路线

发布:TangLu2019-5-13 16:49分类: 大数据 标签: hadoop hbase 大数据 hdfs hive

Hadoop的思想来自于谷歌2003年的两篇论文《The Google File System》《Google Mapreduce》,它可以构建在多台廉价的机器上,数据会自动保存多个副本,提供了高容错性,而且能有效处理TG甚至PB级数据,但不适合处理低延迟的数据访问,也不支持数据的随机修改。Hadoop在2008年已经成为Apache的顶级项目。Hadoop在国内应用非常多,比如搜索引擎、电商产品推荐、天气预报等。由于大数据生态圈比较庞大,下面是一个大概的学习路线:

1、需要有Linux系统与Java编程基础

2、Hadoop学习阶段流程

HDFS:分布式文件系统

MapReduce:进行数据拆分与运算

HBase:NoSQL数据库

Hive数据仓库工具与统计分析引擎,通过类SQL语句实现快速简单的MapReduce统计

Pig:大数据分析平台,为海量数据并行计算提供简易操作和编程接口

Flume:高可用、分布式的海量日志数据采集系统

sqoop:Hadoop和其它关系型数据库之间实现数据抽取或导入的转换工具

ZooKeeper分布式系统的可靠协调系统,注册中心

HUE:网页管理工具


3、Spark学习阶段

第一阶段:Scale编程语言(基于Java)

第二阶段:Spark Core:基于内存解决数据计算

第三阶段:Spark SQL:类似Mysql,用于操作大数据

第四阶段:Spark Streaming:进行实时计算


4、Storm

类似Spark Streaming也是一个实时计算的框架

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!
et_highlighter51
版权所有:《Linux运维技术学习站点
文章标题:《大数据基础(1)Hadoop背景与学习路线
除非注明,文章均为 《Linux运维技术学习站点》 原创
转载请注明本文短网址:http://www.linuxe.cn/post-487.html  [生成短网址]

已有 0/1164 人参与

发表评论:

欢迎分享Linux运维技术学习站点

欢迎使用手机扫描访问本站,还可以关注微信哦~