王家林每日大数据语录Spark篇0008（2015.10.31于北京）

xiyou 发表于 2019-1-31 06:29:43

持久化（包含Memory、Disk、Tachyon等类型）是Spark构建迭代算法和快速交互式查询的关键，当通过persist对一个RDD持久化后，每一个节点都将把计算的分片结果保存在内存或者磁盘或者Tachyon上，并且对此数据集或者衍生出来的数据集进行的其它Action级别的炒作都可以重用当前RDD的计算结果，这是的后续的的操作通常会快10到100倍。　　

页: [1]

运维网's Archiver

王家林每日大数据语录Spark篇0008（2015.10.31于北京）