Spark RDDs
最后更新于:2022-04-01 22:18:27
# 弹性分布式数据集 (RDDs)
Spark 核心的概念是 *Resilient Distributed Dataset (RDD)*:一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他 Hadoop 数据格式的数据源。
- [并行集合](#)
- [外部数据集](#)
- [RDD 操作](#)
- [传递函数到 Spark](#)
- [使用键值对](#)
- [Transformations](#)
- [Actions](#)
- [RDD持久化](#)
';