记一次HBase RegionServer 经常挂掉故障排查过程

如题所述

第1个回答 2022-07-11

原始采集数据采用HBase进行存储。实时采集数据流量很大，在入库的时候，有时候会发生阻塞。

测试环境正常，生产环境下，时不时出现HRegionServer挂掉的情况，而HMaster正常。重启Hbase之后，短时间内恢复正常，然而一段时间之后，再次出现RegionServer挂掉的情况。因此，我们决定对此故障进行深入排查，找出故障原因。

从日志的异常记录来看， region-server日志中存在大量WAL异常（敏感信息已加码）

RegionServer挂掉以及JVM因GC暂停

从上述异常日志，我们可以故障原因推理。因为某些原因导致GC（垃圾回收机制）花费时间过长，进而JVM被暂停了。因此该节点不能够发送心跳给Zookeeper， Zookeeper将该节点标记为dead server。启动容错机制，将状态记录在WAL中，由其他节点代替该节点进行工作。

在该节点GC完毕，恢复正常，请求Zookeeper重新将该节点加入集群。然后超过timeout阈值，导致WAL无法被找到，恢复失败。同理，直至所有节点都被Zookeeper标记为异常节点，导致整个集群的region server都无法工作。

导致GC时间过长的原因有很多，例如

1. ZooKeeper内存分配不足，尤其是大量数据导入的时候

2. 其他程序存在内存溢出bug

3. CPU消耗过大

4. 节点失效timeout阈值过短

经过逐步排查，我们定位故障原因为第4点，timeout阈值不足。

我们使用的是Hbase自带的ZooKeeper，因此需要修改hbase-site.xml文件来配置timout值。

修改 zookeeper.session.timeout 为 100000 ms，默认为 90000 ms

修改 hbase.zookeeper.property.tickTime 为 6000 ms，默认为 2000ms

注:

如果timeout < tickTime * 2, 则实际timeout 为 tickTime * 2

如果timeout > tickTime * 20, 则实际timeout 为 tickTime * 20

因此，我们需要注意 zookeeper.session.timeout 和 tickTime 之前的关系。

相似回答

黑猴子的家:HBase 之HRegionserver挂死,日志出现Session Expired异常...答：使用vmstat 1 命令查看si so两个swap列，确认没有发生交换，1代表每秒打印一次使用jstat -gcutil pid 1000 查看fgct列，确认regionserver没有发生长时间gc暂停，如果gc时间超过zookeeper的连接最大超时时间则会导致hbase挂掉 hbase中和GC相关的参数修改后 RegionServer 由于 ZooKeeper session expired 而退...

hbase regionserver开启之后自动关闭问题答：清理一下tmp里的数据，把hdfs里的hbase数据也都清理了同时再清理tmp，检查各个节点是否有残留hbase进程，kill掉然后在重启一下集群

...开启hbase后一会hmaster和hregionserver就没了?答：1、使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase 2、还有一种方式就是使用HBase原生Client API（put）3、前两种方式因为须要频繁的与数据所存储的RegionServer通信。一次性入库大量数据时，特别占用资源，所以都不是很有效。因为HBase在HDFS中是以HFile文件结构存储的，所以...

hbase 的数据存储及Region变化(flush compaction spilt)和性能调优...答：hbase.regionserver.hlog.splitlog.writer.threads 日志分割的线程数，默认为3 ，建议设定为10 8.Region Server频繁掉线出现Hbase Region Server频繁掉线的情况，表现为在多线程put的情况下，忽然Hbase Region Server掉线猜测是GC或者split过程中没有及时和ZK通信，导致与ZK连接时间超时，zk返回dead ...

HBase宕机恢复-SplitWAL答：Master检测到宕机之后会将宕机RegionServer上的所有Region重新分配到集群中其他正常RegionServer上去，再根据HLog进行丢失数据恢复，恢复完成之后就可以对外提供服务，整个过程都是自动完成的。HBase切分HLog当前主要有两种模式Distributed Log Splitting和Distributed Log Replay。由于我们的集群没有配置hbase....

Hbase无法启动slave节点的:regionserver答：检查一下HADOOP集群是否正常，DATANODE是否正常。具体问题可根据日期进行排查。HRegionServer是HBase中最主要的组件，负责table数据的实际读写，管理Region。在分布式集群中，HRegionServer一般跟DataNode在同一个节点上，目的是实现数据的本地性，提高读写效率。网页链接 ...

hbase regionserver 启动失败的一个缘故怎么解决答：首先查看是什么原因，比如是节点之间时间不一致导致的，那么可以：修改各结点时间，使其误差在30s内，或在hbase-site.xml添加配置 <property> <name>hbase.master.maxclockskew</name> <value>180000</value> <description>Time difference of regionserver from master</description> </property> 要配置...

大家正在搜

行驶过程中故障灯闪了一下故障排查没网了怎么排查故障电脑故障排查汽车线路故障怎么排查电脑故障排查实例大全怎么排查电路故障计算机故障排查思路排查汽车线路故障多钱

记一次HBase RegionServer 经常挂掉 故障排查过程

记一次HBase RegionServer 经常挂掉故障排查过程