Spark Structured Streaming： output Mode 输出模式（append，update，complete）

complete，把所有的DataFrame的内容输出，这种模式只能在做agg聚合操作的时候使用，比如ds.group.count，之后可以使用它 append，普通的dataframe在做完map或者filter之后可以使用。这种模式会把新的batch的数据输出出来， update，把此次新增的数据输出，并更新整个dataframe。有点类似之前的streaming的state处理。

2020年4月23日 0条评论 1562点热度 0人点赞 kamisamak 阅读全文

2020年4月23日 0条评论 2063点热度 0人点赞 kamisamak 阅读全文

常见端口汇总： Hadoop： 50070：HDFS WEB UI端口 9870：3.x HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 Zookeeper: 2181 ：客户端连接zookeeper的端口 2888 ： zookeeper集群内通讯…

2020年4月23日 0条评论 2044点热度 1人点赞 kamisamak 阅读全文

2020年4月23日 0条评论 1524点热度 0人点赞 kamisamak 阅读全文

什么是Spark 基于内存的，用于大规模数据处理（离线计算、实时计算、快速查询（交互式查询））的统一分析引擎。 Spark特点快： Spark计算速度是MapReduce计算速度的10-100倍易用：（算法多） MR支持1种计算模型，Spsark支持更多的计算模型。通用： Spark 能够进行离线计算、交互式查询（快速查询）、实时计算、机器学习、图计算等兼容性： Spark支持大数据中的Yarn调度，支持mesos。可以处理hadoop计算的数据。 Spark运行模式 1.local本地模式(单机)--开发…

2020年4月20日 0条评论 1017点热度 1人点赞 kamisamak 阅读全文

class AreaClickUDAF extends UserDefinedAggregateFunction { // 输入数据的类型: 北京 String override def inputSchema: StructType = { StructType(StructField("city_name", StringType) :: Nil) // StructType(Array(StructField("city_name", StringType))) } // 缓存的数据的类型: 北京->1…

2020年4月19日 0条评论 1574点热度 0人点赞 kamisamak 阅读全文

def main(args: Array[String]): Unit = { val sparkSession: SparkSession = SparkSession.builder().master("local[*]").appName("wula").getOrCreate() val sparkContext: SparkContext = sparkSession.sparkContext sparkContext.setLogLevel("warn") val kafkaDF: DataFrame …

2020年4月18日 0条评论 1887点热度 1人点赞 kamisamak 阅读全文

2020年4月16日 0条评论 1753点热度 0人点赞 kamisamak 阅读全文

2020年4月16日 0条评论 1772点热度 0人点赞 kamisamak 阅读全文

2020年4月16日 0条评论 1829点热度 0人点赞 kamisamak 阅读全文

1…3 456 7…10

Spark Structured Streaming： output Mode 输出模式（append，update，complete）

Spark连接Hbase&mysql

大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等

Spark 各项代码示例

Spark 知识点总结

Spark Structured Streaming UDAF使用实例

Spark Structured Streaming从kafka读数据并进行wordcount 更新写入mysql

Structured Streaming 入门详解

Spark Streaming入门详解

记录一次Spark-Task not serializable异常 2020.04.16