问题1
现象
CDH集群重启,重启 cloudera-scm-agent 和 cloudera-scm-server h后,登陆CDH控制台重启 cloudera-management-service , 其中的 Activity Monitor、Service Monitor 、Host Monitor、Event Server、Alert Publisher 均启动失败,并且启动页面上日志显示 unknown 字样。
解决方案
起初一直以为是CM服务的问题,少启动了什么服务,日志一直报 avro 服务连接不上,最终超时 。
最终找到解决办法是 cloudera-scm-agent 重启的问题,cloudera-scm-agent 重启必须保证 supervised 进程杀死;即执行 cloudera-scm-agent stop
后需要 ps -ef |grep supervised
然后 kill -9 PID
最后启动 cloudera-scm-agent start
。
之后再重启 zookeeper、cloudera-management-service 就OK了。
总结
还需要对CDH集群更深入了解下。
问题二
现象
CDH集群(CM版本5.7.0),上安装spark2,出现yarn启动失败,其间会报一个 Role failed to start due to error com.cloudera.cmf.service.config.ConfigGenException: Conflicting yarn extensions of key [spark_shuffle].
的异常,并伴随着 zookeeper carnary 检测失败;spark2一直不能安装成功。
解决方案
起初一直以为是Spark2的问题因为CM版本的问题,但是仔细检查了spark2对应的CSD和parcel都是对应当前5.7版本的,网上查了些资料说是因为spark2 beta版本需要CM5.8以上版本等等;开始怀疑CM版本不行,差点想要升级CM版本;后面实在找不到对应CM 5.7安装Spark2的解决办法;后来开始注意到zookeeper的异常,想着不如先把这个问题解决调可能就好了,毕竟之前同事反馈过说启动Hbase时一直失败,报连不上zookeeper,说换了个节点就好了;后面开始着手解决zookeeper连接不上的问题,登陆到连接不上zookeeper的节点,使用zookeeperClient连接了下,发现很快报了一个close session的错误;后来了查这个问题才意识到是zookeeper连接数的问题,修改如下配置,
1 | 最大客户端连接数 |
连接数由60调整为200;然后发现zookeeper报错果然没有了;
紧接着重新尝试了安装Spark2服务,Spark2服务也安装成功了… ^_^
总结
该集群是我们工作中用的测试集群;升级Spark2这个问题自己对CDH集群维护上增加了一些经验;再次意识到不能放过任何一个报错、警告;在自己平时开发中也好,用开源工程也好,不能放过每一个错误警告。