SparkCore:RDD的持久化/缓存RDD持久化,RDD缓存,SparkCore真情流露哦呦的博客-

24 四月

星期五, 24 四月 2020 10:21 Last Updated on 星期五, 24 四月 2020 10:21 0 Comments

SparkCore:RDD的持久化/缓存RDD持久化,RDD缓存,SparkCore真情流露哦呦的博客-

HBase

详细介绍了Hbase底层原理,基础语法,java开发

真情流露哦呦

¥9.90

持久化/缓存

代码演示

总结

RDD的持久化/缓存

引入：
在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率

持久化/缓存API详解

Persist方法和Cache方法
RDD通过persist或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存，而是触发后面的action时该RDD将会被缓存在计算节点的内存中,并供后面重用。
通过查看RDD的源码发现cache最终也是调用了persist无参方法 (默认存储只存在内存中)

代码演示

启动集群和spark-shell

/export/servers/spark/sbin/start-all.sh
/export/servers/spark/bin/spark-shell
–master spark://node01:7077,node02:7077
–executor-memory 1g
–total-executor-cores 2

将一个RDD持久化，后续操作该RDD就可以直接从缓存中拿

val rdd1 = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt") val rdd2 = rdd1.flatMap(x=>x.split(" ")).map((_,1)).reduceByKey(_+_) rdd2.cache //缓存/持久化 rdd2.sortBy(_._2,false).collect//触发action,会去读取HDFS的文件,rdd2会真正执行持久化 rdd2.sortBy(_._2,false).collect//触发action,会去读缓存中的数据,执行速度会比之前快,因为rdd2已经持久化到内存中了

存储级别
默认的存储级别都是仅在内存存储一份，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的
总结

持久化级别	说明
MEMORY_ONLY(默认)	将RDD以非序列化的Java对象存储在JVM中。如果没有足够的内存存储RDD，则某些分区将不会被缓存，每次需要时都会重新计算。这是默认级别。
MEMORY_AND_DISK(开发中可以使用这个)	将RDD以非序列化的Java对象存储在JVM中。如果数据在内存中放不下，则溢写到磁盘上．需要时则会从磁盘上读取
MEMORY_ONLY_SER (Java and Scala)	将RDD以序列化的Java对象(每个分区一个字节数组)的方式存储．这通常比非序列化对象(deserialized objects)更具空间效率，特别是在使用快速序列化的情况下，但是这种方式读取数据会消耗更多的CPU。
MEMORY_AND_DISK_SER (Java and Scala)	与MEMORY_ONLY_SER类似，但如果数据在内存中放不下，则溢写到磁盘上，而不是每次需要重新计算它们。
DISK_ONLY	将RDD分区存储在磁盘上。
MEMORY_ONLY_2, MEMORY_AND_DISK_2等	与上面的储存级别相同，将持久化数据存为两份，备份每个分区存储在两个集群节点上。
OFF_HEAP(实验中)	与MEMORY_ONLY_SER类似，但将数据存储在堆外内存中。 (即不是直接存储在JVM内存中)如：Tachyon-分布式内存存储系统、Alluxio – Open Source Memory Speed Virtual Distributed Storage

总结

RDD持久化/缓存的目的是为了提高后续操作的速度
缓存的级别有很多，默认只存在内存中,开发中使用memory_and_disk
只有执行action操作的时候才会真正将RDD数据进行持久化/缓存
实际开发中如果某一个RDD后续会被频繁的使用，可以将该RDD进行持久化/缓存

真情流露哦呦

发布了217 篇原创文章 · 获赞 330 · 访问量 29万+

私信关注

关注博主即可阅读全文

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

SparkCore:RDD的持久化/缓存RDD持久化,RDD缓存,SparkCore真情流露哦呦的博客-

持久化/缓存

RDD的持久化/缓存

持久化/缓存API详解

代码演示

总结

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

SparkCore:RDD的持久化/缓存RDD持久化,RDD缓存,SparkCore真情流露哦呦的博客-

持久化/缓存

RDD的持久化/缓存

持久化/缓存API详解

代码演示

总结

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录