Hadoop是基礎,其中HDFS提供文件存儲,Yarn管理資源。可以運行MapReduce,Spark,Tez等計算框架。
與Hadoop相比,Spark真正的優勢在於速度。Spark的大部分操作都在內存中,Hadoop的MapReduce系統會在每次操作後將所有數據寫回物理存儲介質,以保證出現問題時的完全恢復,但Spark的彈性分布式數據存儲也能實現這壹點。
擴展數據:
Spark是用Scala語言實現的,使用Scala作為應用框架。不像Hadoop,Spark和?Scala?可以緊密集成,其中Scala可以像操作本地集合對象壹樣輕松操作分布式數據集。
雖然Spark的創建是為了支持分布式數據集上的叠代作業,但它實際上是Hadoop的補充,可以在Hadoop文件系統中並行運行。這種行為可以由名為Mesos的第三方集群框架來支持。Spark由加州大學伯克利分校的AMP實驗室(算法、機器和人實驗室)開發,可用於構建大規模、低延遲的數據分析應用。
百度百科-星火