HBase存储架构

如题所述

第1个回答 2022-06-17

上图是HBase的存储架构图。

由上图可以知道，客户端是通过Zookeeper找到HMaster，然后再与具体的Hregionserver进行沟通读写数据的。

具体到物理实现，细节包括以下这些：

首先要清楚HBase在hdfs中的存储路径，以及各个目录的作用。在hbase-site.xml 文件中，配置项 <name> hbase.rootdir</name> 默认 “/hbase”，就是hbase在hdfs中的存储根路径。以下是hbase0.96版本的个路径作用。1.0以后的版本请参考这里: https://blog.bcmeng.com/post/hbase-hdfs.html

1、 /hbase/.archive
HBase 在做 Split或者 compact 操作完成之后，会将 HFile 移到.archive 目录中，然后将之前的 hfile 删除掉，该目录由 HMaster 上的一个定时任务定期去清理。

2、 /hbase/.corrupt
存储HBase损坏的日志文件，一般都是为空的。

3、 /hbase/.hbck
HBase 运维过程中偶尔会遇到元数据不一致的情况，这时候会用到提供的 hbck 工具去修复，修复过程中会使用该目录作为临时过度缓冲。

4、 /hbase/logs
HBase 是支持 WAL（Write Ahead Log）的，HBase 会在第一次启动之初会给每一台 RegionServer 在.log 下创建一个目录，若客户端如果开启WAL 模式，会先将数据写入一份到.log 下，当 RegionServer crash 或者目录达到一定大小，会开启 replay 模式，类似 MySQL 的 binlog。

5、 /hbase/oldlogs
当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中，HMaster 会定期去清理。

6、 /hbase/.snapshot
hbase若开启了 snapshot 功能之后，对某一个用户表建立一个 snapshot 之后，snapshot 都存储在该目录下，如对表test 做了一个名为sp_test 的snapshot，就会在/hbase/.snapshot/目录下创建一个sp_test 文件夹，snapshot 之后的所有写入都是记录在这个 snapshot 之上。

7、 /hbase/.tmp
当对表做创建或者删除操作的时候，会将表move 到该 tmp 目录下，然后再去做处理操作。

8、 /hbase/hbase.id
它是一个文件，存储集群唯一的 cluster id 号，是一个 uuid。

9、 /hbase/hbase.version
同样也是一个文件，存储集群的版本号，貌似是加密的，看不到，只能通过web-ui 才能正确显示出来

10、 -ROOT-
该表是一张的HBase表，只是它存储的是.META.表的信息。通过HFile文件的解析脚本 hbase org.apache.hadoop.hbase.io.hfile.HFile -e -p -f 可以查看其存储的内容，如下所示：

以上可以看出，-ROOT-表记录的.META.表的所在机器是dchbase2，与web界面看到的一致：

11、 .META.
通过以上表能找到.META.表的信息，该表也是一张hbase表，通过以上命令，解析其中一个region：

以上可以看出，adt_app_channel表的数据记录在dchbase3这台reginserver上，也与界面一致，如果有多个region，则会在表名后面加上rowkey的范围：

通过以上描述，只要找到-ROOT-表的信息，就能根据rowkey找到对应的数据，那-ROOT-在哪里找呢？从本文一开始的图中可以知道，就是在zookeeper中找的。进入zookeeper命令行界面：

可以看出-ROOT-表存储在 dchbase3 机器中，对应界面如下：

以上就是HBase客户端根据指定的rowkey从zookeeper开始找到对应的数据的过程。

那在Region下HBase是如何存储数据的呢？

以下就具体操作一张表，查询对应的HFile文件，看HBase的数据存储过程。

在HBase创建一张表 test7，并插入一些数据，如下命令：

查看wal日志，通过 hbase org.apache.hadoop.hbase.regionserver.wal.HLog --dump -p 命令可以解析HLog文件，内容如下：

查看HFile文件，内容如下：

由此可见，HFile文件就是存储HBase的KV对，其中Key的各个字段包含了的信息如下：

由于hbase把cf和column都存储在HFile中，所以在设计的时候，这两个字段应该尽量短，以减少存储空间。

但删除一条记录的时候，HBase会怎么操作呢？执行以下命令：

删除了rowkey为200的记录，查看hdfs，原来的HFile并没有改变，而是生成了一个新的HFile，内容如下：

所以在HBase中，删除一条记录并不是修改HFile里面的内容，而是写新的文件，待HBase做合并的时候，把这些文件合并成一个HFile，用时间比较新的文件覆盖旧的文件。HBase这样做的根本原因是，HDFS不支持修改文件。

相似回答

hbase和hive的差别是什么,各自适用在什么场景中答：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别：1.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。2.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop 。3.H...

hadoop什么意思答：Hadoop是一个开源的分布式计算解决方案，专为大规模数据处理而设计，其核心组件包括分布式文件系统HDFS和强大的并行计算模型MapReduce。其初衷是为了实现数据处理的高可靠性、可扩展性和效率。HDFS，即Hadoop分布式文件系统，是Hadoop架构的基础。它通过将大文件拆分成多个小块，并在多台节点上分散存储，实现了...

"HDFS"缩写为何意,代表Hadoop分布式文件系统?答：缩写词HDFS主要应用于软件开发和大数据处理中，特别是在云计算和分布式计算环境中。它被设计用来存储和管理大规模的数据集，常见于数据仓库、大数据分析和机器学习项目。例如，HDFS经常被用来存储Hadoop MapReduce任务的输出，或者作为Hadoop生态系统中的其他组件（如HBase或Hive）的底层存储。总的来说，HDFS...

大数据处理框架有哪些答：大数据处理框架有：Hadoop、Spark、Storm、Flink等。Hadoop是Apache软件基金会所开发的分布式系统基础架构，能够处理大量数据的存储和计算问题。它提供了分布式文件系统，能够存储大量的数据，并且可以通过MapReduce编程模型处理大数据。Spark是一个快速的大数据处理框架，它提供了内存计算的能力，可以处理大规模数据...

分布式存储有哪些答：常见的分布式存储系统包括：1.HDFS：Hadoop分布式文件系统，可以处理大规模数据。2.Ceph：一种分布式存储系统，可以提供高性能、高可靠性和高可扩展性的数据存储服务。3GlusterFS：一种分布式文件系统，可以处理大规模文件和数据存储需求。深信服的全对称分布式存储EDS采用高性能分布式块存储架构，支持文件、对象...

以下哪些场景比较适合hbase答：1.Column Family代表什么？2.HBase通过row和column确定一份数据，这份数据的值可能有多个版本，为什么会存在多个版本？3.查询的时候会显示那个版本？4.它们的存储类型是什么？5.tableName是什么类型？6.RowKey 和 ColumnName是什么类型？7.Timestamp 是什么类型？8.value 是什么类型？带着以上几个问题去...

昌平电脑培训分享大数据的结构层级答：未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面，区别于常用的Tachyon或Ignite，分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范，得到了众多开发者和产业巨头的支持。区别于传统的关系型数据库，HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据...

大家正在搜

san存储架构 ceph存储架构存储架构集中存储架构常见的存储架构传统存储架构云存储架构传统存储架构分类分布式存储三种架构