TeRiTeRi

大数据
Hadoop

MapReduce高级案例②

日志清洗案例 [collapse title="数据"] 194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)" 183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-" 163.177.71.12 - - [1…

2020年6月15日 0条评论 1707点热度 0人点赞 kamisamak 阅读全文
Hadoop

MapReduce高级案例 ①

2020年6月15日 0条评论 1421点热度 1人点赞 kamisamak 阅读全文
ETL

kylin启动时web ui报错

2020-06-12 15:03:41,517 WARN [localhost-startStop-1] support.XmlWebApplicationContext:551 : Exception encountered during context initialization - cancelling refresh attempt: org.springframework.beans.factory.BeanCreationException: Error creating bean with name…

2020年6月15日 0条评论 1523点热度 1人点赞 kamisamak 阅读全文
Sqoop

Sqoop常用命令及参数

[hide reply_to_this="true"] [collapse title="!~!"] Sqoop学习之路 (一) [/collapse] [collapse title="Sqoop快速入门"] [/collapse] [collapse title="常用命令列举"] [/collapse] [/hide] 官方参考资料:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html

2020年6月10日 0条评论 1927点热度 0人点赞 kamisamak 阅读全文
Hive

通过TPC-H生成测试数据集并导入HIVE

Hive-Testbench:https://github.com/hortonworks/hive-testbench/ Tpcds-Kit:https://github.com/gregrahn/tpcds-kit 官网:http://www.tpc.org/ 针对数据库不同的使用场景TPC组织提供了多种数据集,主要的TPC数据集有如下几种 TPC-C:模拟一个库存-订单系统以及其上的多用户并发事务; TPC-DI:模拟多种类型的大数据源的ETL过程; TPC-DS:模拟大型零售业务的系统,该系统主要用于BI和…

2020年6月8日 0条评论 1781点热度 1人点赞 kamisamak 阅读全文
Spark

org.apache.spark.sql.functions汇总

org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。 大部分函数与Hive的差不多。 除UDF函数,均可在spark-sql中直接使用。 经过import org.apache.spark.sql.functions._ ,也可以用于Dataframe,Dataset。 大部分支持Column的函数也支持String类型的列名。这些函数的返回类型基本都是Column。

2020年6月8日 0条评论 1509点热度 0人点赞 kamisamak 阅读全文
Spark

Spark关于内存大小过低报错解决

py4j.protocol.Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext. : java.lang.IllegalArgumentException: Required executor memory (1024), overhead (384 MB), and PySpark memory (0 MB) is above the max threshold (1024 M…

2020年6月5日 0条评论 1385点热度 1人点赞 kamisamak 阅读全文
Python

CDH集群部署PySpark

https://docs.cloudera.com/documentation/enterprise/latest/topics/spark_python.html python环境为3.7.2,通过Anaconda-5.3.1-el7.parcel部署安装   在CM配置Spark的Python环境,并重启相关服务 if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda-5.3.1/…

2020年6月5日 0条评论 1575点热度 0人点赞 kamisamak 阅读全文
CDH

CDH安装HUE连接HBase的API错误:500 Server Error记录

HBase Thrift Server关闭涉及framed配置 代理用户授权认证添加 Hue的配置hue_safety_valve.ini 的 Hue 服务高级配置代码段(安全阀)修改 [hbase] hbase_conf_dir={{HBASE_CONF_DIR}} thrift_transport=buffered 重启相关服务即可 由于CDH6默认启用 HBase Thrift 服务器压缩协议hbase.regionserver.thrift.compact和HBase Thrift 服务器框架运输hbase…

2020年6月5日 0条评论 1965点热度 0人点赞 kamisamak 阅读全文
Oozie

通过CDH6安装Oozie遇到的Oozie web console is disabled问题

通过CDH6安装Oozie访问WEBUI 111000端口遇到Oozie web console is disabled问题 通过wget下载http://archive.cloudera.com/gplextras/misc/ext-2.2.zip或http://public-repo-1.hortonworks.com/HDP-UTILS-GPL-1.1.0.22/repos/centos7-ppc/extjs/extjs-2.2-1.noarch.rpm 这里选择zip,通过unzip解压 unzip ext…

2020年6月2日 0条评论 1661点热度 1人点赞 kamisamak 阅读全文
12345…10
RevolverMaps

COPYRIGHT © 2023 TeRiTeRi. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang