Apache Spark是一款高速的数据处理引擎,拥有高速、易用、通用的特点,支持Java、Scala、Python、R程序等语言平台,专为开发者打造,有需要的不要错过。
软件特色
1、高速:运行程序的速度在存储器中比Hadoop MapReduce快上百倍,在磁盘中比Hadoop MapReduce快数十倍。
Spark 拥有一个先进的DAG执行引擎,支持循环数据流和内存计算。
2、易用:编写Java、Scala、Python、R程序快速高效。
Spark提供超过80个易于构建并行应用程序的高阶运算符,你也可以在Scala、 Python和R shells中对它进行交互使用。
3、通用:可结合SQL、流媒体和复杂的分析。
Spark支持一系列元件库堆栈,包括SQL与 DataFrames,用于机器学习的MLlib ,GraphX,Spark Streaming。你可以在同一个应用程序无缝地结合这些元件库。
4、无处不在:Spark可以运行在Hadoop、Mesos、standalone以及云端。它可以访问包括 HDFS、 Cassandra、 HBase和S3在内的不同数据源。
你可以使用其独立集群模式来运行Spark,运行在 EC2、 Hadoop YARN还是Apache Mesos都不是问题。它可以访问HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop数据源。