大数据 – 第 4 页

发布于 2020-05-14

2365 热度无~ Docker

Superset 基于Docker的安装&入门解析

摘要

[infobox title=”Superset概述”] 1、Superset简介 Apache Superset是一个开源的、现 …

发布于 2020-05-11

2094 热度无~ MongoDB

Centos7下单机部署MongoDB 4.2.6 及使用说明介绍

摘要

[infobox title=”①.安装包下载并解压”] 官方下载地址:https://www.mongodb.com/downl …

发布于 2020-05-10

2612 热度 2 条评论 Hadoop

Centos7下Apache Hadoop 3.2.1伪分布式部署安装

摘要

[infobox title=”前置配置”] nmtui 静态IP配置，host配置 ssh本机免密登录 ssh-keygen s …

发布于 2020-05-10

3385 热度无~ ETL

什么是退化维度？(Degenerate Dimensions)

摘要

退化维度的维度表可以被剔除，从而简化维度数据仓库的模式。因为简单的模式比复杂的更容易理解，也有更好的查询性能。当一个维度没有数据 …

发布于 2020-05-06

2636 热度无~ ETL

什么是拉链表

摘要

在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址， …

发布于 2020-05-05

2460 热度无~ ETL

数据仓库维度模型设计

摘要

数据仓库维度模型设计 1 维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导，他的《数据仓库工具箱》，是数 …

发布于 2020-04-27

2412 热度无~ Spark

SparkContext详解

摘要

[successbox title=”简介”] SparkContext是spark功能的主要入口。其代表与spark集群的连接， …

发布于 2020-04-27

2361 热度无~ ETL

Kettle入门简单解析

摘要

[infobox title=”一、概述”] Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linu …

发布于 2020-04-26

1480 热度无~ Hive

Spark-On-Hive

摘要

官网：http://spark.apache.org/docs/latest/sql-data-sources-hive-tabl …

发布于 2020-04-24

1898 热度无~ Scala

记录一次Spark – org.apache.spark.sql.AnalysisException异常 2020.04.16

摘要

因为使用了笛卡尔积，但是在Spark2.x中是笛卡尔积操作是默认关闭，如果需要开启，则添加如下配置 val sparkSessio …