Knime连接Spark有两种连接方式,分别为Apache Livy和Spark Job Server。
KNIME中对Spark Job Server的支持已被弃用,并将在不久的将来终止,除Spark 2.1或更早版本时外仅推荐Apache Livy方式进行连接,
Apache Livy部署说明
在download_livy_csd下载对应的parcel文件&sha文件,上传至CDH Parcel 目录,通过CM进行分发激活
对应CSD放置/opt/cloudera/csd/目录
重启Cloudera Manager
systemctl restart cloudera-scm-server
[hide reply_to_this="true"]
在bin/livy-server文件头部添加
export SPARK_HOME=spar
export HADOOP_CONF_DIR=hadoop配置文件位置
启动命令:bin/livy-server start
停止命令:bin/livy-server stop
[/hide]
在HDFS的core-site.xml配置文件中添加
hadoop.proxyuser.livy.hosts=*
hadoop.proxyuser.livy.groups=*
Web UI端口:8998
Knime安装Spark扩展
安装源
<?xml version="1.0" encoding="UTF-8"?>
<bookmarks>
<site url="http://update.knime.com/analytics-platform/4.1/labs/4.1/" selected="true" name="analytics-platform/4.1/labs/4.1/"/>
<site url="http://update.knime.com/analytics-platform/4.1" selected="true" name="KNIME Analytics Platform 4.1 Update Site"/>
<site url="http://update.knime.com/community-contributions/4.1" selected="true" name="KNIME Community Extensions (Experimental)"/>
<site url="http://update.knime.com/community-contributions/trusted/4.1" selected="true" name="KNIME Community Extensions (Trusted)"/>
<site url="http://update.knime.com/analytics-platform/4.1/labs/4.1/4.1.1/" selected="true" name="KNIME Labs Update Site"/>
<site url="http://update.knime.com/partner/4.1" selected="true" name="KNIME Partner Extensions"/>
</bookmarks>
如有缺失源,补全地址后即可从扩展中安装,即可通过Lily与Spark进行连接处理
资料地址①:https://docs.knime.com/latest/bigdata_extensions_admin_guide/index.html
资料地址②:https://hub.knime.com/
文章评论