Hadoop的思想来自于谷歌2003年的两篇论文《The Google File System》《Google Mapreduce》,它可以构建在多台廉价的机器上,数据会自动保存多个副本,提供了高容错性,而且能有效处理TG甚至PB级数据,但不适合处理低延迟的数据访问,也不支持数据的随机修改。Hadoop在2008年已经成为Apache的顶级项目。Hadoop在国内应用非常多,比如搜索引擎、电商产品推荐、天气预报等。由于大数据生态圈比较庞大,下面是一个大概的学习路线:
1、需要有Linux系统与Java编程基础
2、Hadoop学习阶段流程
HDFS:分布式文件系统
MapReduce:进行数据拆分与运算
HBase:NoSQL数据库
Hive:数据仓库工具与统计分析引擎,通过类SQL语句实现快速简单的MapReduce统计
Pig:大数据分析平台,为海量数据并行计算提供简易操作和编程接口
Flume:高可用、分布式的海量日志数据采集系统
sqoop:Hadoop和其它关系型数据库之间实现数据抽取或导入的转换工具
ZooKeeper:分布式系统的可靠协调系统,注册中心
HUE:网页管理工具
3、Spark学习阶段
第一阶段:Scale编程语言(基于Java)
第二阶段:Spark Core:基于内存解决数据计算
第三阶段:Spark SQL:类似Mysql,用于操作大数据
第四阶段:Spark Streaming:进行实时计算
4、Storm
类似Spark Streaming也是一个实时计算的框架
发表评论: