Zookeeper集群的搭建与配置

Zookeeper的下载地址:https://github.com/apache/zookeeper/archive/master.zip
zkclient的下载地址:https://github.com/sgroschupf/zkclient

至于zookeeper的作用和原理我这里就不多赘述了,大家有兴趣可以去查查,这里主要就是动手操作。

搭建集群

首先先看一下本次zk实验服务器的名称和IP情况,这里我们选择了三台服务器作zkserver,因为三台是标配,一台的话就只有leader没有follower,不是很稳定的结构,当然啦如果你的公司土豪的话是可以玩三十台:

1
2
3
dvl-mrszk-001	10.117.0.125
dvl-mrszk-002 10.117.1.158
dvl-mrszk-003 10.168.152.227

对这三台服务器都要进行如下的步骤:

1)先把zookeeper.zip传到linux里,然后解压到/usr文件夹下;

2)进入/usr/zookeeper/conf文件夹,vim zoo.cfg,在最下面补充上面的三个zkserver,见图:
paradin

3)再来到/usr/zookeeper/data文件夹,如果里面有文件就清空所有文件,如果是1号zkserver就echo 1 > myid,如果当前机器是2号zkserver就echo 2 > myid,依次类推,这里一定要注意,不可以都写一样。

4)vim /etc/hosts,还要把这三台机器的ip地址和名字都写进去,如下:

1
2
3
4
5
127.0.0.1 localhost
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
10.117.0.125 dvl-mrszk-001
10.117.1.158 dvl-mrszk-002
10.168.152.227 dvl-mrszk-003

5)再来/usr/zookeeper/bin文件夹,./zkServer.sh start启动zk,然后再./zkServer.sh status查看进程情况,如图看见第一台和第三台zkserver的身份是follower,第二台是leader
paradin

paradin

paradin

至此整个zk集群就搭建并且启动完成了。注意:zookeeper集群时,zookeeper要求半数以上的机器可用,zookeeper才能提供服务。

故障排除

如果这里有启动失败的情况,比如Error contacting service. It is probably not running.这样的字样,那么有这么几种可能:
1)data文件夹下的myid有数字重复或者是数字漏写的情况;
2)zoo.cfg里的指定日志文件夹没有手动创建;
3)/etc/hosts下的名字与zoo.cfg里的server字段不相符,注意一下,/etc/hosts里的127.0.0.1的名字不要与本ip后面的名字一模一样,不然zk也无法识别!
4)/etc/hosts名字使用了中文,java系对中文是很不友好的。

如果出现的Cannot open channel to X at election address /A.B.C.D:3888的日志报错,检查一下zoo.cfg里的123与myid的123是否一致。

配置文件详解

1.tickTime:这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。
2.dataDir:顾名思义就是 Zookeeper 保存数据的目录,默认情况下,Zookeeper 将写数据的日志文件也保存在这个目录里。
3.clientPort:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。
4.initLimit:这个配置项是用来配置 Zookeeper 接受 客户端(这里所说的客户端不是用户连接 Zookeeper 服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 52000=10秒。
5.syncLimit:这个配置项标识 Leader 与 Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个 tickTime 的时间长度,总的时间长度就是2
2000=4秒。
6.server.A=B:C:D:其中 A 是一个数字,表示这个是第几号服务器;B 是这个服务器的 ip 地址;C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口;D 表示的是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的 Leader,而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式,由于 B 都是一样,所以不同的 Zookeeper 实例通信端口号不能一样,所以要给它们分配不同的端口号。

验证成果

Zookeeper的配置工具叫Zooinspector,下载地址是:https://issues.apache.org/jira/secure/attachment/12436620/ZooInspector.zip,下载完直接解压缩就可以在windows里使用。

我们实验的这三台服务器只有内网,但是如果要连接zooinspector,还是需要通过外网权限连接的,这里可以配一个iptables转发规则,配iptables的步骤在这里:http://chenx1242.blog.51cto.com/10430133/1875950 ,照葫芦画瓢即可,但是要注意,zk的端口是2181

当然,如果不想费事的话,就直接给zkserver配一个外网IP,直接连接。

成功连接到zooinspector,就会看到这样的内容,这里的lcconfig是手动添加的,右击鼠标,选择add node,然后直接写上lcconfig就行,这个名字是根据实际需要填写的:

paradin

上面我们已经配置了zkserver集群而且还启动zkserver进程,现在还需要zkclient,zkclient就是请求发起的一方,然后我们可以在各个的模块服务器上部署zkclient服务,通过启动zkclient服务,来让这些模块统一从zooinspector里取值,这样就达到了批量配置,同时保证一致性的效果。

zk的模板文件是_tpl.properties为结尾的文件,我这里模块的名字叫mrs,那么在实验里这个模板文件就是mrs_tpl.properties,这个mrs_tpl.properties里有这样的一个字段,如图:

paradin

而我们在zooinspector里对应就这么填写:

paradin

保存zooinspector,然后从windows返回到linux,启动zkclient服务和对应的模块进程,如果配置都正常的话,那么程序就会正常启动,ps -ef|grep java就会看到一个叫lczk.AppServerDaemon的进程。这个时候在去看一下mrs的配置文件:

paradin

可以看到areaAk取得值就是zk里面data_center里面access_key里面的ak的值,其他的几个值也是同理。可见整个zk已经配置成功,模块都进行了统一配置,而且这些配置既然能被一个接受,同时也会被其他相同的模块服务器所接受。这样就达到了批量配置的效果。

拓展阅读

http://ibruce.info/2014/10/23/zookeeper/

感谢您请我喝咖啡~O(∩_∩)O,如果要联系请直接发我邮箱chenx1242@163.com,我会回复你的
-------------本文结束感谢您的阅读-------------