Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-

26 四月

星期日, 26 四月 2020 06:53 Last Updated on 星期日, 26 四月 2020 06:53 0 Comments

学习目标

WordCount思路

准备数据

将数据放在以下目录中
Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-

1.txt
```
 Hello World  Hello Scala 
```
2.txt
```
 Hello Spark 
```

图解分析
Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-
说明：

1、本地读取两个文件
2、两个文件内的数据
3、将文件内的数据进行扁平化
4、将相同单词进行分组
5、聚合计算每个单词的个数

WordCount代码实现

第一步：启动Spark-Shell

//进入spark [root@node01 softwares]# cd ../servers/spark-2.2.0-bin-2.6.0-cdh5.14.0 //进入bin目录 [root@node01 spark-2.2.0-bin-2.6.0-cdh5.14.0]# cd bin/ //启动本地Spark-shell [root@node01 bin]# ./spark-shell

看到以下界面，说明启动成功
Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-
第二步：读取文件

此处为什么可以直接将input路径输入，而不需要输入具体数据文件路径？？？

在Spark-Shell开启后，系统自带将SparkContext（上下文对象）创建，而input文件夹，在spark中，使用sc刚好可以读取到（这是一个相对路径）文件数据，所以不需要具体到数据文件。

转换图解：与上图对比
Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-

//读取数据（textFile） scala> val textFile=sc.textFile("input") //读取文件，得到String类型的字符串（RDD） textFile: org.apache.spark.rdd.RDD[String] = input MapPartitionsRDD[1] at textFile at <console>:24  //扁平化数据（flatMap） scala> sc.textFile("input").flatMap def flatMap[U](f: String => TraversableOnce[U])(implicit evidence$4: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]  //将数据结构转换(map) scala> sc.textFile("input").flatMap(_.split(" ")).map((_,1))  //使用算子计算单词个数（reduceByKey） scala> sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) res3: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[16] at reduceByKey at <console>:25  //调用collect查询结果 scala> res3.collect res4: Array[(String, Int)] = Array((Spark,1), (World,1), (Scala,1), (Hello,3))

Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-

老王的小知识

发布了76 篇原创文章 · 获赞 16 · 访问量 9万+

私信关注

展开阅读全文

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-

学习目标

WordCount思路

WordCount代码实现

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

Spark深入解析（六）：SparkCore之Spark代码编写WordCount大数据wzc8961661的博客-

学习目标

WordCount思路

WordCount代码实现

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录