1.1 基本操作
最后更新于:2022-04-01 21:41:22
Spark shell提供了一个简单方式去学习API,它也是一个交互式分析数据的强大工具。 你既可以使用Scala(运行在JVM之上,所以可以使用众多的Java库),也可以使用Python。运行Spark文件夹下的的命令:
~~~
./bin/spark-shell
~~~
Spark最主要的一个抽象出来的概念就是分布式的数据集合, 也就是弹性分布式数据集Resilient Distributed Dataset (RDD). RDD可以从Hadoop InputFormats (比如HDFS文件)创建, 也可以通过其它RDD转换(transforming)得到。 让我们从Spark源代码文件夹下的README文件创建一个RDD:
~~~
scala> val textFile = sc.textFile("README.md")
textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3
~~~
RDD包含[action](https://spark.apache.org/docs/latest/programming-guide.html#actions),可以返回数据, 也包含[transformation](https://spark.apache.org/docs/latest/programming-guide.html#transformations),返回新的RDD的指针。 先看一些action的例子:
~~~
scala> textFile.count() // 此RDD中的item的数量
res0: Long = 126
scala> textFile.first() // 此RDD第一个item
res1: String = # Apache Spark
~~~
现在再看一个转换的例子。我们使用`filter`返回一个新的RDD, 新的RDD是文件中item的一个子集。
~~~
scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: spark.RDD[String] = spark.FilteredRDD@7dd4af09
~~~
将transformation和action串起来:
~~~
scala> textFile.filter(line => line.contains("Spark")).count() // How many lines contain "Spark"?
res3: Long = 15
~~~
';