import scala.collection.JavaConverters._ val javaList: java.util.List[Int] = Seq(1,2,3).asJava val scalaBuffer: scala.collection.mutable.Buffer[Int] = list.asScala
import scala.collection.JavaConverters._ val javaList: java.util.List[Int] = Seq(1,2,3).asJava val scalaBuffer: scala.collection.mutable.Buffer[Int] = list.asScala
import scala.collection.JavaConverters._ val javaList: java.util.List[Int] = Seq(1,2,3).asJava val scalaBuffer: scala.collection.mutable.Buffer[Int] = list.asScala
稀疏数组是一种压缩后的数组,把具有不同值的元素的行列及值记录在一个小规模的数组中,从而缩小程序的规模 原数组中存在大量的无效数据,占据了大量的存储空间,真正有用的数据却少之又少 压缩存储可以节省存储空间以避免资源的不必要的浪费,在数据序列化到磁盘时,压缩存储可以提高IO效率
官网:http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html
因为使用了笛卡尔积,但是在Spark2.x中是笛卡尔积操作是默认关闭,如果需要开启,则添加如下配置 val sparkSession = SparkSession.builder().master("local[*]").appName("wula") .config("spark.sql.crossJoin.enabled","true").getOrCreate()
class AreaClickUDAF extends UserDefinedAggregateFunction { // 输入数据的类型: 北京 String override def inputSchema: StructType = { StructType(StructField("city_name", StringType) :: Nil) // StructType(Array(StructField("city_name", StringType))) } // 缓存的数据的类型: 北京->1…
def main(args: Array[String]): Unit = { val sparkSession: SparkSession = SparkSession.builder().master("local[*]").appName("wula").getOrCreate() val sparkContext: SparkContext = sparkSession.sparkContext sparkContext.setLogLevel("warn") val kafkaDF: DataFrame …