HBase META.Region起动不成功怎么解决

如题所述

推荐答案 2016-10-14

metaè¡¨ä¿®å¤ä¸
Javaä»£ç
æ¥çhbasemetaæåµ
hbase hbck
1.éæ°ä¿®å¤hbase metaè¡¨ï¼æ ¹æ®hdfsä¸çregioninfoæä»¶ï¼çæmetaè¡¨ï¼
hbase hbck -fixMeta
2.éæ°å°hbase metaè¡¨åç»regionserverï¼æ ¹æ®metaè¡¨ï¼å°metaè¡¨ä¸çregionåç»regionservereï¼
hbase hbck -fixAssignments

è½¬metaï¼è¡¨æå¨å é¤è¡¨
Javaä»£ç
å ä¸ºéç¾¤ç¡¬çç´§ä¿ï¼ç»å¯¹å¯¹åæ¥çè¡¨å ä¸COMPRESSION=>LZOå±æ§ãä½æ¯åå»ºè¡¨ï¼é¿æ¶é´æ²¡æåé¦ãå³å®dropæè¿å¼ è¡¨ï¼ä½æ¯å§ç»dropå¤±è´¥ãéå¯éç¾¤ï¼hbase 60010çé¢æ¾ç¤ºæregion transactionãä¸ºåå»ºå¤±è´¥çè¡¨regionï¼å¨PENDING_OPENåCLOSEDä¹é´è·³ãdescribe è¡¨å¤±è´¥ï¼ enableè¡¨å¤±è´¥ï¼disableè¡¨å¤±è´¥ï¼ä»60010çé¢æ¥çè¡¨å¤±è´¥ãå¾èç¼ã
åå³å®å¼ºå¶å é¤å½åè¡¨ãgoogleäºä¸ä¸ï¼æ¾å°è¿ç¯æç« ï¼æç« å¤§é¨åé½æ¯å¯¹çï¼ä½æ¯æåä¸æ¥åå¨é®é¢.åæä¸å½ä»¤ä¸ºï¼
delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:server'
å½æ¶å°±è§å¾ææé®é¢ï¼æ²¡ææ¶å.META.è¡¨ï¼å¦ä½æ´æ°METAä¿¡æ¯ï¼
å°è¯ä¸¤æ¬¡å é¤åæ¯å§ç»æ¥éï¼ç¡®å®åºè¯¥æ¯æé®é¢ï¼ä¸ºäºä»¥é²ä¸ä¸ï¼googleä¸ä¸æ´æ°METAä¿¡æ¯çæä½ï¼å°å½ä»¤æ¹ä¸º
delete '.META.','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:server'
å½ä»¤æåæ§è¡ã
éå¯éç¾¤åï¼transctionä»ç¶åå¨ï¼åæåºè¯¥æ¯metaè¡¨æ²¡ææ´æ°çé®é¢ï¼å¯¹metaè¡¨åä¸æ¬¡major_compactï¼éå¯éç¾¤ï¼æåãä¸åææ¥éã

ä¸é¢æ¯å¯¹åæçæ·è´ï¼
å¼ºå¶å é¤è¡¨ï¼
1ãå¼ºå¶å é¤è¯¥è¡¨å¨hdfsä¸çæææä»¶(è·¯å¾æ ¹æ®å®éæåµèå®ï¼ï¼
[sql] view plaincopy

./hadoop fs -rmr /hbase/TrojanInfo
2ãå é¤è¯¥è¡¨å¨HBaseç³»ç»è¡¨.META.ä¸çè®°å½ï¼
Aãé¦åä».META.ä¸æ¥è¯¢åºè¡¨ TrojanInfoå¨.META.ä¸çrowkeyï¼è¿å¯ä»¥éè¿scan '.META.'ï¼ç¶åæå¨çéï¼
Bãç¶åå é¤è¯¥rowkeyä¸ç3ä¸ªåæ®µï¼åè®¾æ¥è¯¢åºçrowkeyä¸ºTrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.ï¼
[plain] view plaincopy

delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:server'
delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:serverstartcode'
delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:reg

è½¬metaè¡¨ä¿®å¤ä¸
Javaä»£ç
ä¸ãæéåå
IPä¸º10.191.135.3çæå¡å¨å¨2013å¹´8æ1æ¥åºç°æå¡å¨éæ°å¯å¨çæåµï¼å¯¼è´æ¤å°æå¡å¨ä¸çæææå¡ååæ¢ãä»èé æNTPæå¡åæ¢ãå½NTPæå¡åæ¢åï¼å¯¼è´HBaseéç¾¤ä¸å¤§é¨åæºå¨æ¶éåä¸»æºæ¶é´ä¸ä¸è´ï¼é æregionserveræå¡ä¸æ¢ãå¹¶å¨éæ°å¯å¨åï¼åºç°regionçholeãéè¦å¯¹æ°æ®è¿è¡éæ°ä¿®å¤ï¼ä»¥æ£å¸¸æä¾æå¥æ°æ®çæå¡ã

äºãæ¢å¤æ¹å¼
1ãéç¾¤50ä¸ªregionserverï¼å®ææå¡41ä¸ªï¼namenodeæå¨æºå¨10.191.135.3ä¸æéå¯ï¼åå æ¥æ¾ä¸ï¼å¯¼è´æ¬æºä¸çnamenodeãzookeeperãæ¶é´åæ¥æå¡å¨æå¡ææã
2ãéå¯hbaseæå¡æ¶ï¼æ²¡è½æåstopå©ä½ç9ä¸ªregionserveræå¡ï¼è¿è¡äºäººä¸ºkillè¿ç¨ï¼
3ãå¨hdfsä¸ç§»èµ°äºhlogï¼é¿åå¯å¨æ¶split logè±è´¹è¿å¤æ¶é´å½±åæå¡ï¼ï¼ç¶åéå¯hbaseãåç°10.191.135.30æºå¨ä¸çæ¶é´ä¸æ¶é´åæ¥æå¡å¨10.191.135.3ä¸åæ¥ãæå·¥åæ¥åéå¯æåãhbaseå¯ä»¥æ£å¸¸æä¾æ¥è¯¢æå¡ã
4ãè¿è¡mapreduce putæ°æ®ãæåºå¼å¸¸ï¼æ°æ®æ æ³æ£å¸¸æå¥ï¼
5ãæ§è¡/opt/hbase/bin/hbase hbck -fixAssignmentsï¼å°è¯éæ°åéregionãç»ææ¾ç¤ºhbaseæç©ºæ´ï¼å³regionä¹é´æ°æ®ä¸è¿ç»äºï¼
6ãéè¿ä¸è¿°æä½å¯ä»¥å®ä½æ¯å¨regionserveræå¡å®æçåéå¯çè¿ç¨ä¸ä¸¢äºæ°æ®ãéè¦è¿è¡ç©ºæ´ä¿®å¤ãç¶èhbase hbckå½ä»¤æ»æ¯åªæ¾ç¤ºä¸æ¡ç©ºæ´ã
7ãéè¿ç¼åçregionTest.jarå·¥å·è¿è¡è¿ä¸æ¥æ£æµåºç©ºæ´æå¨çregionnameç¶ååæhbaseï¼è¿èè¿è¡regionåå¹¶ä¿®å¤ç©ºæ´;
8ãåå¹¶çmerge æä½éè¦åå».META.è¡¨éè¯»åè¯¥regionçä¿¡æ¯ï¼ç±äº.META.è¡¨ä¹å¨regionserverå®æºè¿ç¨ä¸åå°æåï¼æä»¥é¨åregionç.META.ä¿¡æ¯æ²¡æï¼mergeæä½æ¶å°±æåºç©ºæéå¼å¸¸ãå æ¤åªè½å°hdfsè¿äºregionè¿è¡ç§»é¤ï¼ç¶åéè¿regionTest.jar æ£æµæ°çç©ºæ´æå¨çregionnameï¼è¿è¡åå¹¶æä½ä¿®å¤ç©ºæ´ï¼
9ãå³äºregionéå ï¼å³regionnameåå¨.META.è¡¨åï¼ä½æ¯å¨hdfsä¸è¢«éè¯¯çç§»åºï¼å¹¶è¿è¡äºregionåå¹¶ãè¿ç§æåµä¸éè¦éè¿regionTest.jaræ£æµéå çregionnameç¶åæå¨å».META.è¡¨å é¤ï¼.META.è¡¨ä¿®æ¹ä¹åéè¦flushï¼
10ãæååæ¬¡æ§è¡ hbase hbck å½ä»¤ï¼hbase ææè¡¨status okã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/Y3NvYGGWGqNvppq8YI.html

其他回答

第1个回答 2016-10-14

在网上查看Region is not online: -ROOT-,,0相关的错误,也没有得到正确的答案,后来看了一下源码,报这个错误的地方是在:
protected HRegion getRegion(final byte[] regionName)
throws NotServingRegionException {
HRegion region = null;
region = getOnlineRegion(regionName);
if (region == null) {
throw new NotServingRegionException("Region is not online: " +
Bytes.toStringBinary(regionName));
}
return region;
}
也就是说,regionName不再Map中,就会报这个错误,具体问题还得具体分析

第2个回答 2017-09-20

meta表修复一
Java代码
查看hbasemeta情况
hbase hbck
1.重新修复hbase meta表（根据hdfs上的regioninfo文件，生成meta表）
hbase hbck -fixMeta
2.重新将hbase meta表分给regionserver（根据meta表，将meta表上的region分给regionservere）
hbase hbck -fixAssignments

转meta，表手动删除表
Java代码
因为集群硬盘紧俏，绝对对原来的表加上COMPRESSION=>LZO属性。但是创建表，长时间没有反馈。决定drop掉这张表，但是始终drop失败。重启集群，hbase 60010界面显示有region transaction。为创建失败的表region，在PENDING_OPEN和CLOSED之间跳。describe 表失败， enable表失败，disable表失败，从60010界面查看表失败。很蛋疼。
后决定强制删除当前表。google了一下，找到这篇文章，文章大部分都是对的，但是最后一步存在问题.原文中命令为：
delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:server'
当时就觉得有有问题，没有涉及.META.表，如何更新META信息？
尝试两次删除后是始终报错，确定应该是有问题，为了以防万一，google一下更新META信息的操作，将命令改为
delete '.META.','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:server'
命令成功执行。
重启集群后，transction仍然存在，分析应该是meta表没有更新的问题，对meta表做一次major_compact，重启集群，成功。不再有报错。

下面是对原文的拷贝：
强制删除表：
1、强制删除该表在hdfs上的所有文件(路径根据实际情况而定）：
[sql] view plaincopy

./hadoop fs -rmr /hbase/TrojanInfo
2、删除该表在HBase系统表.META.中的记录：
A、首先从.META.中查询出表 TrojanInfo在.META.中的rowkey，这可以通过scan '.META.'，然后手动筛选；
B、然后删除该rowkey下的3个字段（假设查询出的rowkey为TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.）
[plain] view plaincopy

delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:server'
delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:serverstartcode'
delete 'TrojanInfo','TrojanInfo,,1361433390076.2636b5a2b3d3d08f23d2af9582f29bd8.','info:reg

转meta表修复三
Java代码
一、故障原因
IP为10.191.135.3的服务器在2013年8月1日出现服务器重新启动的情况，导致此台服务器上的所有服务均停止。从而造成NTP服务停止。当NTP服务停止后，导致HBase集群中大部分机器时钟和主机时间不一致，造成regionserver服务中止。并在重新启动后，出现region的hole。需要对数据进行重新修复，以正常提供插入数据的服务。

二、恢复方式
1、集群50个regionserver，宕掉服务41个，namenode所在机器10.191.135.3不明重启（原因查找中）导致本机上的namenode、zookeeper、时间同步服务器服务挂掉。
2、重启hbase服务时，没能成功stop剩余的9个regionserver服务，进行了人为kill进程，
3、在hdfs上移走了hlog（避免启动时split log花费过多时间影响服务），然后重启hbase。发现10.191.135.30机器上的时间与时间同步服务器10.191.135.3不同步。手工同步后重启成功。hbase可以正常提供查询服务。
4、运行mapreduce put数据。抛出异常，数据无法正常插入；
5、执行/opt/hbase/bin/hbase hbck -fixAssignments，尝试重新分配region。结果显示hbase有空洞，即region之间数据不连续了；
6、通过上述操作可以定位是在regionserver服务宕掉的后重启的过程中丢了数据。需要进行空洞修复。然而hbase hbck命令总是只显示三条空洞。
7、通过编写的regionTest.jar工具进行进一步检测出空洞所在的regionname然后停掉hbase，进而进行region合并修复空洞;
8、合并的merge 操作需要先去.META.表里读取该region的信息，由于.META.表也在regionserver宕机过程中受到损坏，所以部分region的.META.信息没有，merge操作时就抛出空指针异常。因此只能将hdfs这些region进行移除，然后通过regionTest.jar 检测新的空洞所在的regionname，进行合并操作修复空洞；
9、关于region重叠，即regionname存在.META.表内，但是在hdfs上被错误的移出，并进行了region合并。这种情况下需要通过regionTest.jar检测重叠的regionname然后手动去.META.表删除，.META.表修改之后需要flush；
10、最后再次执行 hbase hbck 命令，hbase 所有表status ok。本回答被提问者采纳

相似回答

Hbase无法启动slave节点的:regionserver答：检查一下HADOOP集群是否正常，DATANODE是否正常。具体问题可根据日期进行排查。HRegionServer是HBase中最主要的组件，负责table数据的实际读写，管理Region。在分布式集群中，HRegionServer一般跟DataNode在同一个节点上，目的是实现数据的本地性，提高读写效率。网页链接 ...

region hbase:meta,,1 is not online,hbase 1.3修复命令答：1、查看 hbase 的请求数量是否过高，查看Request Per Second 并不高，排除热点问题，经过以上命令修复，一定要重启hbase，否则监控页还会有大量的region in RIT

记一次HBase RegionServer 经常挂掉故障排查过程答：1. ZooKeeper内存分配不足，尤其是大量数据导入的时候 2. 其他程序存在内存溢出bug 3. CPU消耗过大 4. 节点失效timeout阈值过短经过逐步排查，我们定位故障原因为第4点，timeout阈值不足。我们使用的是Hbase自带的ZooKeeper，因此需要修改hbase-site.xml文件来配置timout值。修改 ...

hbase生成的日志.这异常怎么解决答：出现这种问题的原因是因为和服务器通信超时导致的。所以需要将下面两个参数的默认值进行调整。1、hbase.snapshot.region.timeout 2、hbase.snapshot.master.timeoutMillis 这两个值的默认值为60000，单位是毫秒，也即1min。如果通信时间超过该值，就会报上面的错误。

Hbase 节点启停过程答：手工启动命令：./bin/hbase daemon.sh start regionserver bin/graceful_stop.sh --restart --reload --debugregionserver_nodename；他会先将需要重启的regionserver上面的所有region迁移到其它的服务器，然后重启，最后又会将之前的region迁移回来。Hbase中每个Region自己维护其在hbase:meta表中的信息。状...

zookeeker如何解决HBase单点故障答：解决方法：此问题产生的主要原因是因为zookeeper集群未关闭防火墙。执行下面命令后仍然报上面的错误：systemctl start iptables.service 经过仔细查找后发现，CentOS 7.0默认使用的是firewall作为防火墙，需要执行如下命令关闭防火墙:systemctl stop firewalld.service #停止firewall systemctl disable firewalld....

如何修复hbase phoenix表答：hbase hbck -fixMeta 2.重新将hbase meta表分给regionserver（根据meta表，将meta表上的region分给regionservere）hbase hbck -fixAssignments 转meta，表手动删除表 Java代码因为集群硬盘紧俏，绝对对原来的表加上COMPRESSION=>LZO属性。但是创建表，长时间没有反馈。决定drop掉这张表，但是始终drop失败...

大家正在搜

车起动后发动机灯亮怎么解决增压泵不起动怎么解决起动柜起动不了怎么回事起动机无力怎么解决汽车启动不了怎么解决冰箱不启动怎么解决启动性能故障怎么解决冰箱怎么不能起动了成功的问题用成长去解决