最佳答案
1. HDFS(Hadoop 分布式文件体系)
HDFS 是 Hadoop 生态圈中供给分布式存储支撑的体系,下层的很多打算框架(Hbase、Spark 等)都依附于 HDFS 存储。
2. MapReduce(分布式打算模型)离线打算
何为离线打算,实在就长短及时打算。
3. Yarn(分布式资本管理器)
Yarn 的呈现重要就是为懂得决原始 Hadoop 扩大年夜性较差、不支撑多种打算模型的成绩。
4. Spark(内存打算)
Spark 供给了内存中的分布式打算才能,比拟传统的 MapReduce 大年夜数据分析效力更高、运转速度更快。
5. HBase(分布式列存储数据库)
Hbase持续了列存储的特点,它非常合适需对数据停止随机读、写操纵。 其次,Hbase构建在HDFS之上,其外部管理的文件全部存储在HDFS中。这使它存在高度容错性跟可扩大年夜性,并支撑Hadoop mapreduce顺序计划模型。
6. Hive(数据客栈)
7. Oozie(任务流调理器)
Oozie 是一个基于任务流引擎的调理器,它实在就是一个运转在 Java Servlet 容器(如 Tomcat)中的 Javas Web 利用,你可能在它下面运转 Hadoop 的 Map Reduce 跟 Pig 等任务,。
8. Sqoop 与 Pig
9. Flume(日记收集东西)
Flume 是将数据从产生、传输、处理并终极写入目标道路的过程抽象为数据流,在具体的数据流中,数据源支撑在 Flume 中定制数据发送方,从而支撑收集各种差别协定命据。
10. Kafka(分布式消息行列)
Kafka 是 Apache 构造下的一个开源体系,它的最大年夜特点就是可能及时的处理大年夜量数据以满意各种须要场景:比方基于 Hadoop 平台的数据分析、低时延的及时体系、Storm/Spark 流式处理引擎等。Kafka 现在它已被多家大年夜型公司作为多品种型的数据管道跟消息体系利用。
11. ZooKeeper(分布式合作效劳)
通俗的讲,ZooKeeper 相称于一个跟事佬的角色,假如两人之间产生了一些抵触或许抵触,无法自行处理的话,这个时间就须要 ZooKeeper 这个跟事佬从中停止调处,而跟事佬调处的方法是站在第三方客不雅的角度,根据一些规矩(如品德规矩、法律规矩),客不雅的对抵触两边做出公道、合规的判决。
12. Ambari(大年夜数据运维东西)
Ambari 是一个大年夜数据基本运维平台,它实现了 Hadoop 生态圈各种组件的主动化安排、效劳管理跟监控告警,Ambari 经由过程 puppet 实现主动化妆置跟设置,经由过程 Ganglia 收集监控器量指标,用 Nagios 实现毛病报警。