Knime中的Spark集成

Knime连接Spark有两种连接方式,分别为Apache Livy和Spark Job Server。
KNIME中对Spark Job Server的支持已被弃用,并将在不久的将来终止,除Spark 2.1或更早版本时外仅推荐Apache Livy方式进行连接,
[infobox title=”Apache Livy部署说明”]
download_livy_csd下载对应的parcel文件&sha文件,上传至CDH Parcel 目录,通过CM进行分发激活
对应CSD放置/opt/cloudera/csd/目录
重启Cloudera Manager

systemctl restart cloudera-scm-server

[hide reply_to_this=”true”]
在bin/livy-server文件头部添加

export SPARK_HOME=spar
export HADOOP_CONF_DIR=hadoop配置文件位置

启动命令:bin/livy-server start
停止命令:bin/livy-server stop
[/hide]
在HDFS的core-site.xml配置文件中添加


hadoop.proxyuser.livy.hosts=*
hadoop.proxyuser.livy.groups=*

Web UI端口:8998
[/infobox]
[infobox title=”Knime安装Spark扩展”]
安装源

<?xml version="1.0" encoding="UTF-8"?>
<bookmarks>
<site url="http://update.knime.com/analytics-platform/4.1/labs/4.1/" selected="true" name="analytics-platform/4.1/labs/4.1/"/>
<site url="http://update.knime.com/analytics-platform/4.1" selected="true" name="KNIME Analytics Platform 4.1 Update Site"/>
<site url="http://update.knime.com/community-contributions/4.1" selected="true" name="KNIME Community Extensions (Experimental)"/>
<site url="http://update.knime.com/community-contributions/trusted/4.1" selected="true" name="KNIME Community Extensions (Trusted)"/>
<site url="http://update.knime.com/analytics-platform/4.1/labs/4.1/4.1.1/" selected="true" name="KNIME Labs Update Site"/>
<site url="http://update.knime.com/partner/4.1" selected="true" name="KNIME Partner Extensions"/>
</bookmarks>

如有缺失源,补全地址后即可从扩展中安装,即可通过Lily与Spark进行连接处理

[/infobox]
资料地址①:https://docs.knime.com/latest/bigdata_extensions_admin_guide/index.html
资料地址②:https://hub.knime.com/


已发布

分类

作者:

标签

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注