隨着Hadoop的壹直開展,Hadoop生態體系越來越完美,現現在曾經開展成一個宏大年夜的生態體系。
1. HDFS分佈式文件體系
HDFS是Hadoop分佈式文件體系,它是Hadoop生態體系中的核心項目之一,是分佈式打算中數據存儲管理基本。HDFS存在高容錯性的數據備份機制,它能檢測跟應對硬件毛病,並在低本錢的通用硬件上運轉。其余,HDFS具有流式的數據拜訪特點,供給高吞吐量利用順序數據拜訪功能,合適帶有大年夜型數據集的利用順序。
2. MapReduce分佈式打算框架
MapReduce是一種打算模型,用於大年夜範圍數據集(大年夜於1TB)的並交運算。「Map」對數據集上的獨破元素停止指定的操縱,生成鍵值對情勢旁邊成果;「Reduce」則對旁邊成果中雷同「鍵」的全部「值」停止規約,以掉掉落終極成果。MapReduce這種「分而治之」的頭腦,極大年夜處所便了編程人員在不會分佈式並行編程的情況下,將本人的順序運轉在分佈式體系上。
3. Yarn資本管理框架
Yarn(Yet Another Resource Negotiator)是Hadoop 2.0中的資本管理器,它可為下層利用供給統一的資本管理跟調理,它的引入為集群在利用率、資本統一管理跟數據共享等方面帶來了宏大年夜好處。
4. Sqoop數據遷移東西
Sqoop是一款開源的數據導入導收東西,重要用於在Hadoop與傳統的數據庫間停止數據的轉換,它可能將一個關係型數據庫(比方,MySQL、Oracle等)中的數據導入到Hadoop的HDFS中,也可能將HDFS的數據導出到關係型數據庫中,使數據遷移變得非常便利。
5. Mahout數據發掘算法庫
Mahout是Apache旗下的一個開源項目,它供給了一些可擴大年夜的呆板進修範疇經典算法的實現,旨在幫助開辟人員愈加便利快捷地創建智能利用順序。Mahout包含很多實現,包含聚類、分類、推薦過濾、頻繁子項發掘。其余,經由過程利用 Apache Hadoop 庫,Mahout 可能有效地擴大年夜到雲中。
6. Hbase分佈式存儲體系
HBase是Google Bigtable克隆版,它是一個針對構造化數據的可伸縮、高堅固、高機能、分佈式跟面向列的靜態形式數據庫。跟傳統關係數據庫差別,HBase採用了BigTable的數據模型:加強的稀少排序映射表(Key/Value),其中,鍵由行關鍵字、列關鍵字跟時光戳構成。HBase供給了對大年夜範圍數據的隨機、及時讀寫拜訪,同時,HBase中保存的數據可能利用MapReduce來處理,它將數據存儲跟並行打算完美地結合在一起。
7. Zookeeper分佈式合作效勞
Zookeeper是一個分佈式的,開放源碼的分佈式利用順序和諧效勞,是Google的Chubby一個開源的實現,是Hadoop跟HBase的重要組件。它是一個為分佈式利用供給一致性效勞的軟件,供給的功能包含:設置保護、域名效勞、分佈式同步、組效勞等用於構建分佈式利用,增加分佈式利用順序所承擔的和諧任務。
8. Hive基於Hadoop的數據客棧
Hive是基於Hadoop的一個分佈式數據客棧東西,可能將構造化的數據文件映射為一張數據庫表,將SQL語句轉換為MapReduce任務停止運轉。其長處是操縱簡單,降落進修本錢,可能經由過程類SQL語句疾速實現簡單的MapReduce統計,不必開辟專門的MapReduce利用,非常合適數據客棧的統計分析。
9. Flume日記收集東西
Flume是Cloudera供給的一個高可用的,高堅固的,分佈式的海量日記採集、聚合跟傳輸的體系,Flume支撐在日記體系中定製各種數據發送方,用於收集數據;同時,Flume供給對數據停止簡單處理,並寫到各種數據接收方(可定製)的才能。