Spark RDD 分布式弹性数据集

如题所述

第1个回答 2022-07-15

rdd是一种弹性分布式的数据集，它代表着不可变的数据元素，可以被分区并行处理。

rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述。它可以通过稳定的存储器或者从其他RDD生成，它并不需要急着进行转换，只需要在特定的rdd进行一次性的数据的迭代流转。rdd记录着自己的依赖关系，以防在数据丢失时可以通过“血缘”关系再次生成数据。用户也可以自己选择在经常重用的rdd进行数据落地，放置丢失后重做。

rdd的特性总结：

分布式的共享内存是一种细粒度的读写，可以对每个存储单元进行读写，其一致性需要程序进行维护，其容错性需要设置检查点和程序回滚。但是RDD由于是不可变的粗粒度的读写，更适合于批量读写的任务，其可以使用“血缘”机制恢复数据，减少了设置检查点的开销。如果出现失败时，也只用重新计算分区中丢失的那一部分。另一方面，RDD的不可变性可以让系统可以像mapreduce一样采用后备任务的方式来代替运行缓慢的任务，不会出现相互影响的情况。

另外rdd也吸取了分布式共享内存的特性，rdd的批量操作可以根据数据所处的位置进行优化，提高性能。加载数据时，当内存不足时，rdd的性能下降是平稳的，不能载入内存的分区可以存储在磁盘上。

上面的5点是rdd都会实现的接口，这也是rdd都具有的特性。

如上源码所示，RDD提供了分区的抽象函数，即protected def getPartitions: Array[Partition]，每个继承RDD抽象类的RDD都会有自己的getPartitions的实现。RDD分区的多少代表着计算时的并发粒度。

用户可以自己指定执行的分区数，如果用户不自己指定，则使用默认的分区数。

从源码中可以看出，如果不传入分区数，则默认分区数为defaultParallelism，而defaultParallelism=math.max(totalCoreCount.get(), 2)所以最小是2，最大是主机核数。

HadoopRDD是读取hdfs文件的rdd。HadoopRDD使用的是MapReduce API。

spark.sparkContext.textFile(" hdfs://user/local/admin.text ") 中textFile是读取hdfs文件的方法。其中会调用HadoopRDD。

textFile 是从HDFS分布式文件系统的所有节点上读取数据，返回Strings的RDD。

总结下HadoopRDD分区规则：

1.如果textFile指定分区数量为0或者1的话，defaultMinPartitions值为1，则有多少个文件，就会有多少个分区。

2.如果不指定默认分区数量，则默认分区数量为2，则会根据所有文件字节大小totalSize除以分区数量，得到的值goalSize，然后比较goalSize和hdfs指定分块大小（这里是128M）作比较，以较小的最为goalSize作为切分大小，对每个文件进行切分，若文件大于大于goalSize，则会生成该（文件大小/goalSize）个分区，如果文件内的数据不能除尽则分区数会+1，则为（fileSize/goalSize）+1。

3.如果指定分区数量大于等于2，则默认分区数量为指定值，生成实际分区数量规则任然同2中的规则一致。

总之：文件总大小除以分区数，大于分块大小，则与分块大小相关，否则以得到的商相关。

rdd优先位置返回的是每一个分区的位置信息，按照移动计算的思路，将计算尽量分配到数据所在的机器上。

RDD的操作是粗粒度的操作，RDD进行转换会形成新的RDD。形成的RDD和原RDD形成依赖关系，RDD通过这种“血缘”关系来维护数据的容错性。RDD的依赖关系可以分为宽依赖和窄依赖两种。

从中可以看出mapRDD是OneToOneDependency依赖，其父RDD为ParallelCollectionRDD。

从中可以看出groupRDD的依赖是ShuffleDependency依赖，其父依赖是MapPartitionsRDD。而groupbykey是需要进行shuffle的算子，属于宽依赖。

Spark通过创建的类来表明，RDD间的依赖关系的类型，NarrowDependency属于窄依赖，ShuffleDenpendency属于宽依赖。之后会通过一节来具体介绍其中的细节。

从上面的RDD源码可以发现，每个RDD中都存在一个compute()的函数，这个函数的作用就是为实现RDD具体的分区计算。

def compute(split: Partition, context: TaskContext): Iterator[T]

compute的返回值是分区的迭代器，每一个分区都会调用这个函数。只有到action算子才会真正的执行计算。

partitioner指的是Spark的分区函数，目前最常用的有两种，HashPartitioner和RangePartitioner, 其次还有缩减分区数的分区函数CoalescedPartitioner。分区这个概念，只存在于（K,V）键值对的RDD中，非键值对的RDD中partitioner为None。

分区函数即决定了RDD本身分区的数量，也决定了Shuffle中MapOut输出中每个分区进行切割的依据。

HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中，这样能较为平衡的分配数据到partition。

RangePartitioner：它是在排序算子中会用到的分区器，比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样，来估算Key的分布，然后按照指定的排序切分range，尽量让每个partition对应的range里的key分布均匀。

rdd中的算子可以分为两种，一个是transformation, 一个是action算子。

1. Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。

2. Action：行动算子，这类算子会触发SparkContext提交Job作业。

相似回答

Spark核心-RDD答：RDD是Spark中的数据抽象，全称 弹性分布式数据集（Resilient Distributed Datasets）。RDD可以理解为将一个大的数据集合以分布式的形式保存在集群服务器的内存中。RDD是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。RDD是Spark的核心，也是整个Spark的架构基...

Spark RDD到底是个什么东西答：Spark RDD的英文是Resilient Distributed Datasets，即弹性分布式数据集。通俗一点讲，Spark是做大数据处理的，RDD是其中极为重要的数据抽象，海量数据会被拆分为多个分片放在不同的集群节点上，RDD就是这些分布式数据的集合。在Spark Scala中， RDD就是一个类，每个RDD的实例表示一个具体的分布式数据集合。详...

关于sparkrdd下列说法不正确的是答：对于SparkRDD（弹性分布式数据集），以下是关于SparkRDD的一些常见说法，您可以判断哪个说法是不正确的：1、RDD是Spark中最基本的数据抽象和计算模型之一。它是一个不可变的分布式对象集合，可以直接跨越多个节点进行并行计算，是Spark分布式计算的核心模块。SparkRDD能够通过多种方式进行创建，例如从本地文件系...

rdd的特点答：rdd的特点如下：1、RDD是Spark提供的核心抽象，全称为ResillientDistributedDataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。3、RDD通常通过Hadoop上的文件，即HDFS文件或者...

Spark之我看什么是RDD答：RDD的中文解释为：弹性分布式数据集，全称Resilient Distributed Datasets。宾语是dataset，即内存中的数据库。RDD 只读、可分区，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。所谓弹性，是指内存不够时可以与磁盘进行交换。这涉及到了RDD的另一特性：内存计算，就是将数据保存到内存中。同...

企业rdd是什么意思?答：RDD是分布式系统中的一个重要概念，成为了大数据处理时代下的一部分核心技术。RDD是指Resilient Distributed Datasets，中文翻译为“弹性分布式数据集”，是由Spark的创始人所提出的概念。它代表了分布式数据的一个只读区域，在运作期间可以被分割和并行处理。相较于其他分布式框架，如Hadoop MapReduce等，RDD...

rdd是什么答：RDD是一种分布式内存抽象概念，它在大数据处理领域有广泛的应用。一、基本定义 RDD是分布式计算中用于表示不可变、可分区、里面的元素可并行处理的集合。它具有弹性特性，能够在节点失败时恢复数据，因此得名弹性分布式数据集。它是大数据处理框架中的核心概念之一。二、特性 1. 分区性：RDD可以被划分为多个...

大家正在搜

数据挖掘数据集大数据数据集 mtcars数据集 kaggle数据集 criteo数据集 kitti数据集哪里有数据集数据集怎么用数据集怎么做