分布式的话修改hdfs-site.xml中的dfs.replication workers中的节点等
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,例如连接Hive却无法操作的创建库、表的问题等 1、在Linux执行如下命令增加supergroup groupadd supergroup 2、将用户增加到supergroup中 usermod -a -G supergroup root 3、同步系统的权限信息到HDFS文件系统 sudo -u hdfs hdfs dfsadmin -refreshUserToGroupsMappings 4、查看属于s…
Kafka安装部署 前置:jdk/zookeeper安装部署,并能正常启动。 #文件解压 tar zxvf kafka_2.11-1.0.0.tgz -C ../servers/ vim /export/servers/kafka_2.11-1.0.0/conf/server.properties #(每个节点不能相同) Broker.id=0 log.dirs=/export/servers/kafka_2.11-1.0.0/logs/ zookeeper.connect=node01:2181,node02:…
企业中离线业务场景实时业务场景都需要使用到kafka Kafka具备数据的计算能力和存储能力,但是两个能力相对(MR/SPARK,HDFS)较弱. Kafka角色的角色与hbase比较像,层级关系比较多。 消息:应用之间传送的数据,或点与点之间,点与多点之间传递的数据,传递的信息。 消息队列:是一种应用间的通信方式以队列的形式传递。 消息队列的应用场景 应用解耦合:多应用间通过消息队列对同一消息进行处理 异步处理:多应用对消息队列中同一消息进行处理 限流削峰:用于秒杀或抢购活动中,避免流…
Kafka知识点总结 Kafka生态系统四大角色,生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper 每个消费者都必须属于一个消费组,一个组内的消费者可以多个。 一个Topic可以有1到多个多个分区(Partition) 一个分区可以有1到多个segment。 每个segment可以有由一个log和一个index组成。 被复制的分区叫做主副本(Leader),复制出来的叫做从副本(Follower) 生产者只往主副本写数据,消费者只在主副本拉取数据。 从副本只…
1、什么是Yarn 通用资源管理系统和调度平台 2、Yarn特点: 支持多计算框架 资源利用率高,运行成本低,数据共享。 3、Yarn的意义: 降低了企业硬件的成本(多个集群变成一个集群),减少了资源的了浪费,运营成本低。 资源指的是什么? CPU 内存 4、Yarn基本组成 ResourceManager :一个集群资源调度的管理者 NodeManager :一个节点资源调度的管理者(集群各个节点资源的工作者) ApplicationMaster : 一个计算任务的管理者 Con…
1、redis当中对字符串string的操作 下表列出了常用的 redis 字符串命令 2、redis当中对hash列表的操作 Redis hash 是一个string类型的field和value的映射表,hash特别适合用于存储对象。 Redis 中每个 hash 可以存储 232 - 1 键值对(40多亿) 下表列出了 redis hash 基本的相关命令: 3、redis当中对list列表的操作 Redis列表是简单的字符串列表,按照插入顺序排序。你可以添加一个元素到列表的头部(左边)或者尾部(…