1. HDFS(Hadoop 分散式文件體系)
HDFS 是 Hadoop 生態圈中供給分散式存儲支撐的體系,下層的很多打算框架(Hbase、Spark 等)都依附於 HDFS 存儲。
2. MapReduce(分散式打算模型)離線打算
何為離線打算,實在就長短及時打算。
3. Yarn(分散式資本管理器)
Yarn 的呈現重要就是為懂得決原始 Hadoop 擴大年夜性較差、不支撐多種打算模型的成績。
4. Spark(內存打算)
Spark 供給了內存中的分散式打算才能,比擬傳統的 MapReduce 大年夜數據分析效力更高、運轉速度更快。
5. HBase(分散式列存儲材料庫)
Hbase持續了列存儲的特點,它非常合適需對數據停止隨機讀、寫操縱。 其次,Hbase構建在HDFS之上,其外部管理的文件全部存儲在HDFS中。這使它存在高度容錯性跟可擴大年夜性,並支撐Hadoop mapreduce順序計劃模型。
6. Hive(數據客棧)
7. Oozie(任務流調理器)
Oozie 是一個基於任務流引擎的調理器,它實在就是一個運轉在 Java Servlet 容器(如 Tomcat)中的 Javas Web 利用,你可能在它下面運轉 Hadoop 的 Map Reduce 跟 Pig 等任務,。
8. Sqoop 與 Pig
9. Flume(日記收集東西)
Flume 是將數據從產生、傳輸、處理並終極寫入目標道路的過程抽象為數據流,在具體的數據流中,數據源支撐在 Flume 中定製數據發送方,從而支撐收集各種差別協定命據。
10. Kafka(分散式消息行列)
Kafka 是 Apache 構造下的一個開源體系,它的最大年夜特點就是可能及時的處理大年夜量數據以滿意各種須要場景:比方基於 Hadoop 平台的數據分析、低時延的及時體系、Storm/Spark 流式處理引擎等。Kafka 現在它已被多家大年夜型公司作為多品種型的數據管道跟消息體系利用。
11. ZooKeeper(分散式合作效勞)
通俗的講,ZooKeeper 相稱於一個跟事佬的角色,假如兩人之間產生了一些抵觸或許衝突,無法自行處理的話,這個時間就須要 ZooKeeper 這個跟事佬從中停止調處,而跟事佬調處的方法是站在第三方客不雅的角度,根據一些規矩(如品德規矩、法律規矩),客不雅的對衝突兩邊做出公道、合規的判決。
12. Ambari(大年夜數據運維東西)
Ambari 是一個大年夜數據基本運維平台,它實現了 Hadoop 生態圈各種組件的主動化安排、效勞管理跟監控告警,Ambari 經由過程 puppet 實現主動化妝置跟設置,經由過程 Ganglia 收集監控器量指標,用 Nagios 實現毛病報警。