大山快修 - 简单 - 高效   |   压缩包密码可以在《大山快修》公众号回复 “解压密码” 获取!
Hadoop生态系统有哪些

Hadoop生态系统主要包括:Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。

Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。

HBase:一种分布的、可伸缩的、大数据存储库,支持随机、实时读/写访问。

Pig:分析大数据集的一个平台,该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。

Sqoop:为高效传输批量数据而设计的一种工具,用于Apache Hadoop和结构化数据存储库如关系型数据库之间的数据传输。

Flume:一种分布式的、可靠的、可用的服务,其用于高效搜集、汇总、移动大量日志数据。

ZooKeeper:一种集中服务,用于维护配置信息,命名,提供分布式同步,以及提供分组服务。

Mahout:一种基于Hadoop的机器学习和数据挖掘的分布式计算框架算法集,实现了多种MapReduce模式的数据挖掘算法。

Spark:一个开源数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样用于构建大规模、低延时的数据分析应用。采用Scala语言实现,使用Scala作为应用框架。

Storm:一个分布式的、容错的实时计算系统,有BackType开发,后被Twitter收购。Storm属于流处理平台,多用于实时计算并更新数据库。Storm也可以用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可以用于“分布式RPC”,以并行的方式运行大型的运算。


版权属于: 大山快修
本文声明: 本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。