Zookeeper的下载地址:https://github.com/apache/zookeeper/archive/master.zip
zkclient的下载地址:https://github.com/sgroschupf/zkclient
至于zookeeper的作用和原理我这里就不多赘述了,大家有兴趣可以去查查,这里主要就是动手操作。
搭建集群
首先先看一下本次zk实验服务器的名称和IP情况,这里我们选择了三台服务器作zkserver,因为三台是标配,一台的话就只有leader没有follower,不是很稳定的结构,当然啦如果你的公司土豪的话是可以玩三十台:
1
2
3dvl-mrszk-001 10.117.0.125
dvl-mrszk-002 10.117.1.158
dvl-mrszk-003 10.168.152.227
对这三台服务器都要进行如下的步骤:
1)先把zookeeper.zip传到linux里,然后解压到/usr
文件夹下;
2)进入/usr/zookeeper/conf
文件夹,vim zoo.cfg
,在最下面补充上面的三个zkserver,见图:
3)再来到/usr/zookeeper/data
文件夹,如果里面有文件就清空所有文件,如果是1号zkserver就echo 1 > myid
,如果当前机器是2号zkserver就echo 2 > myid
,依次类推,这里一定要注意,不可以都写一样。
4)vim /etc/hosts
,还要把这三台机器的ip地址和名字都写进去,如下:
1
2
3
4
5127.0.0.1 localhost
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
10.117.0.125 dvl-mrszk-001
10.117.1.158 dvl-mrszk-002
10.168.152.227 dvl-mrszk-003
5)再来/usr/zookeeper/bin
文件夹,./zkServer.sh start
启动zk,然后再./zkServer.sh status
查看进程情况,如图看见第一台和第三台zkserver的身份是follower
,第二台是leader
:
至此整个zk集群就搭建并且启动完成了。注意:zookeeper集群时,zookeeper要求半数以上的机器可用,zookeeper才能提供服务。
故障排除
如果这里有启动失败的情况,比如Error contacting service. It is probably not running.
这样的字样,那么有这么几种可能:
1)data文件夹下的myid
有数字重复或者是数字漏写的情况;
2)zoo.cfg
里的指定日志文件夹没有手动创建;
3)/etc/hosts
下的名字与zoo.cfg里的server字段不相符,注意一下,/etc/hosts里的127.0.0.1的名字不要与本ip后面的名字一模一样,不然zk也无法识别!
4)/etc/hosts
名字使用了中文,java系对中文是很不友好的。
如果出现的Cannot open channel to X at election address /A.B.C.D:3888
的日志报错,检查一下zoo.cfg
里的123与myid
的123是否一致。
配置文件详解
1.tickTime
:这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。
2.dataDir
:顾名思义就是 Zookeeper 保存数据的目录,默认情况下,Zookeeper 将写数据的日志文件也保存在这个目录里。
3.clientPort
:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。
4.initLimit
:这个配置项是用来配置 Zookeeper 接受 客户端(这里所说的客户端不是用户连接 Zookeeper 服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 52000=10秒。
5.syncLimit
:这个配置项标识 Leader 与 Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个 tickTime 的时间长度,总的时间长度就是22000=4秒。
6.server.A=B:C:D
:其中 A 是一个数字,表示这个是第几号服务器;B 是这个服务器的 ip 地址;C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口;D 表示的是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的 Leader,而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式,由于 B 都是一样,所以不同的 Zookeeper 实例通信端口号不能一样,所以要给它们分配不同的端口号。
验证成果
Zookeeper的配置工具叫Zooinspector
,下载地址是:https://issues.apache.org/jira/secure/attachment/12436620/ZooInspector.zip
,下载完直接解压缩就可以在windows里使用。
我们实验的这三台服务器只有内网,但是如果要连接zooinspector,还是需要通过外网权限连接的,这里可以配一个iptables转发规则,配iptables的步骤在这里:http://chenx1242.blog.51cto.com/10430133/1875950 ,照葫芦画瓢即可,但是要注意,zk的端口是2181
。
当然,如果不想费事的话,就直接给zkserver配一个外网IP,直接连接。
成功连接到zooinspector
,就会看到这样的内容,这里的lcconfig是手动添加的,右击鼠标,选择add node
,然后直接写上lcconfig
就行,这个名字是根据实际需要填写的:
上面我们已经配置了zkserver集群而且还启动zkserver进程,现在还需要zkclient,zkclient就是请求发起的一方,然后我们可以在各个的模块服务器上部署zkclient服务,通过启动zkclient服务,来让这些模块统一从zooinspector里取值,这样就达到了批量配置,同时保证一致性的效果。
zk的模板文件是_tpl.properties
为结尾的文件,我这里模块的名字叫mrs,那么在实验里这个模板文件就是mrs_tpl.properties
,这个mrs_tpl.properties
里有这样的一个字段,如图:
而我们在zooinspector里对应就这么填写:
保存zooinspector,然后从windows返回到linux,启动zkclient服务和对应的模块进程,如果配置都正常的话,那么程序就会正常启动,ps -ef|grep java
就会看到一个叫lczk.AppServerDaemon
的进程。这个时候在去看一下mrs的配置文件:
可以看到areaAk取得值就是zk里面data_center
里面access_key
里面的ak的值,其他的几个值也是同理。可见整个zk已经配置成功,模块都进行了统一配置,而且这些配置既然能被一个接受,同时也会被其他相同的模块服务器所接受。这样就达到了批量配置的效果。