准备数据 将数据放在以下目录中 1.txt 2.txt 图解分析 第一步:启动Spark-Shell 看到以下界面,说明启动成功 转换图解:与上图对比学习目标
WordCount思路
Hello World Hello Scala
Hello Spark
说明:
WordCount代码实现
//进入spark [root@node01 softwares]# cd ../servers/spark-2.2.0-bin-2.6.0-cdh5.14.0 //进入bin目录 [root@node01 spark-2.2.0-bin-2.6.0-cdh5.14.0]# cd bin/ //启动本地Spark-shell [root@node01 bin]# ./spark-shell
第二步:读取文件
此处为什么可以直接将input路径输入,而不需要输入具体数据文件路径???
相对路径
)文件数据,所以不需要具体到数据文件。
//读取数据(textFile) scala> val textFile=sc.textFile("input") //读取文件,得到String类型的字符串(RDD) textFile: org.apache.spark.rdd.RDD[String] = input MapPartitionsRDD[1] at textFile at <console>:24 //扁平化数据(flatMap) scala> sc.textFile("input").flatMap def flatMap[U](f: String => TraversableOnce[U])(implicit evidence$4: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U] //将数据结构转换(map) scala> sc.textFile("input").flatMap(_.split(" ")).map((_,1)) //使用算子计算单词个数(reduceByKey) scala> sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) res3: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[16] at reduceByKey at <console>:25 //调用collect查询结果 scala> res3.collect res4: Array[(String, Int)] = Array((Spark,1), (World,1), (Scala,1), (Hello,3))
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算