什么是Spark 基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。 Spark特点 快: Spark计算速度是MapReduce计算速度的10-100倍 易用:(算法多) MR支持1种计算模型,Spsark支持更多的计算模型。 通用: Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算等 兼容性: Spark支持大数据中的Yarn调度,支持mesos。可以处理hadoop计算的数据。 Spark运行模式 1.local本地模式(单机)--开发…
class AreaClickUDAF extends UserDefinedAggregateFunction { // 输入数据的类型: 北京 String override def inputSchema: StructType = { StructType(StructField("city_name", StringType) :: Nil) // StructType(Array(StructField("city_name", StringType))) } // 缓存的数据的类型: 北京->1…
def main(args: Array[String]): Unit = { val sparkSession: SparkSession = SparkSession.builder().master("local[*]").appName("wula").getOrCreate() val sparkContext: SparkContext = sparkSession.sparkContext sparkContext.setLogLevel("warn") val kafkaDF: DataFrame …
//--------------------------------------------------------------------------------------------------------------------- //--------------------------------------------------------------------------------------------------------------------- [collapse title="开窗函…