Spark – TeRiTeRi

发布于 2020-06-08

1658 热度无~ Spark

org.apache.spark.sql.functions汇总

摘要

org.apache.spark.sql.functions是一个Object，提供了约两百多个函数。大部分函数与Hive的差不 …

发布于 2020-06-05

1535 热度无~ Spark

Spark关于内存大小过低报错解决

摘要

py4j.protocol.Py4JJavaError: An error occurred while calling None …

发布于 2020-06-05

1719 热度无~ Python

CDH集群部署PySpark

摘要

https://docs.cloudera.com/documentation/enterprise/latest/topics/ …

发布于 2020-05-19

1989 热度无~ linux

centos7上部署Spark 2.4.5集群

摘要

[infobox title=”集群规划”] 节点名称 IP Zookeeper Master Worker node21 19 …

发布于 2020-05-16

2057 热度无~ Spark

不会这20道基础题，能说了解Spark么

摘要

[infobox title=”01.Spark有几种部署方式？”] Spark支持3中集群管理器(ClusterManager) …

发布于 2020-04-27

2073 热度无~ Spark

SparkContext详解

摘要

[successbox title=”简介”] SparkContext是spark功能的主要入口。其代表与spark集群的连接， …

发布于 2020-04-26

1129 热度无~ Hive

Spark-On-Hive

摘要

官网：http://spark.apache.org/docs/latest/sql-data-sources-hive-tabl …

发布于 2020-04-24

1602 热度无~ Scala

记录一次Spark – org.apache.spark.sql.AnalysisException异常 2020.04.16

摘要

因为使用了笛卡尔积，但是在Spark2.x中是笛卡尔积操作是默认关闭，如果需要开启，则添加如下配置 val sparkSessio …

发布于 2020-04-23

1683 热度无~ Spark

Spark Structured Streaming： output Mode 输出模式（append，update，complete）

摘要

complete，把所有的DataFrame的内容输出，这种模式只能在做agg聚合操作的时候使用，比如ds.group.count …

发布于 2020-04-23

2180 热度无~ Hbase

Spark连接Hbase&mysql

摘要

[successbox title=”Spark连接Hbase”] case class student(name: String …