Hadoop和Spark的關系，Spark集群壹定要依賴Hadoop嗎？

它必須在hadoop集群上，它的數據源是HDFS，本質上是yarn上的計算框架，就像Mr

Hadoop是基礎，其中HDFS提供文件存儲，Yarn管理資源。可以運行MapReduce，Spark，Tez等計算框架。

與Hadoop相比，Spark真正的優勢在於速度。Spark的大部分操作都在內存中，Hadoop的MapReduce系統會在每次操作後將所有數據寫回物理存儲介質，以保證出現問題時的完全恢復，但Spark的彈性分布式數據存儲也能實現這壹點。

擴展數據:

Spark是用Scala語言實現的，使用Scala作為應用框架。不像Hadoop，Spark和？Scala？可以緊密集成，其中Scala可以像操作本地集合對象壹樣輕松操作分布式數據集。

雖然Spark的創建是為了支持分布式數據集上的叠代作業，但它實際上是Hadoop的補充，可以在Hadoop文件系統中並行運行。這種行為可以由名為Mesos的第三方集群框架來支持。Spark由加州大學伯克利分校的AMP實驗室(算法、機器和人實驗室)開發，可用於構建大規模、低延遲的數據分析應用。

百度百科-星火