Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

06 七月

星期一, 06 七月 2020 11:10 Last Updated on 星期一, 06 七月 2020 11:10 0 Comments

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenbuhuo.blog.csdn.net/

此篇为大家带来的是Spark 运行模式之Local本地模式。
Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

一. 解压 Spark 安装包

1. 把安装包上传到/opt/software/
2. 把安装包上传到/opt/module/

[bigdata@hadoop002 software]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

3. 重命名为spark-local(为了方便复制一个并重新命名)

[bigdata@hadoop002 module]$ cp -r spark-2.1.1-bin-hadoop2.7 spark-local

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

4. 注意

如果有权限问题，可以修改为root，方便学习时操作，实际中使用运维分配的用户和权限即可。

chown -R root /opt/module/spark-local chgrp -R root /opt/module/spark-local

bin        可执行脚本 conf       配置文件 data       示例程序使用数据 examples   示例程序 jars       依赖 jar 包 python     pythonAPI R          R 语言 API sbin       集群管理命令 yarn       整合yarn需要的文件

二. 运行官方求PI的案例

[bigdata@hadoop002 spark-local]$ bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master local[2]  ./examples/jars/spark-examples_2.11-2.1.1.jar 100

注意:
如果你的shell是使用的zsh, 则需要把local[2]加上引号:'local[2]'
说明:
使用spark-submit来发布应用程序.

2.1 `spark-submit`语法

./bin/spark-submit  --class <main-class>  --master <master-url>  --deploy-mode <deploy-mode>  --conf <key>=<value>  ... # other options <application-jar>  [application-arguments]

–master 指定 master 的地址，默认为local. 表示在本机运行.
–class 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
–deploy-mode 是否发布你的驱动到 worker节点(cluster 模式) 或者作为一个本地客户端 (client 模式) (default: client)
–conf: 任意的 Spark 配置属性，格式key=value. 如果值包含空格，可以加引号"key=value"
application-jar: 打包好的应用 jar,包含依赖. 这个 URL 在集群中全局可见。比如hdfs:// 共享存储系统，
如果是 file:// path，那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
–executor-memory 1G 指定每个executor可用内存为1G
–total-executor-cores 6 指定所有executor使用的cpu核数为6个
–executor-cores 表示每个executor使用的 cpu 的核数

2.2 关于 `Master URL` 的说明

Master URL	Meaning
`local`	Run Spark locally with one worker thread (i.e. no parallelism at all).
`local[K]`	Run Spark locally with K worker threads (ideally, set this to the number of cores on your machine).
`local[*]`	Run Spark locally with as many worker threads as logical cores on your machine.
`spark://HOST:PORT`	Connect to the given Spark standalone cluster master. The port must be whichever one your master is configured to use, which is 7077 by default.
`mesos://HOST:PORT`	Connect to the given Mesos cluster. The port must be whichever one your is configured to use, which is 5050 by default. Or, for a Mesos cluster using ZooKeeper, use mesos://zk://… To submit with –deploy-mode cluster, the HOST:PORT should be configured to connect to the MesosClusterDispatcher.
`yarn`	Connect to a YARNcluster in client or cluster mode depending on the value of –deploy-mode. The cluster location will be found based on the HADOOP_CONF_DIR or YARN_CONF_DIR variable.

2.3 结果展示

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

2.4 另一种方法

也可以使用run-examples来运行

[bigdata@hadoop002 spark-local]$bin/run-example SparkPi 100

三. 使用 `Spark-shell`

Spark-shell 是 Spark 给我们提供的交互式命令窗口(类似于 Scala 的 REPL)
本案例在 Spark-shell 中使用 Spark 来统计文件中各个单词的数量.

3.1 创建 2 个文本文件

mkdir input cd input touch 1.txt touch 2.txt

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

3.2 打开 Spark-shell

[bigdata@hadoop002 spark-local]$ bin/spark-shell

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

3.3 查看进程和通过 web 查看应用程序运行情况

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

地址: https://hadoop002:4040

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

3.4 运行 `wordcount` 程序

scala> sc.textFile("./input").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).collect

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

3.5 登录hadoop102:4040查看程序运行

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

四. 提交流程

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

五. wordcount 数据流程分析

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

textFile("input")：读取本地文件input文件夹数据；
flatMap(_.split(" "))：压平操作，按照空格分割符将一行数据映射成一个个单词；
map((_,1))：对每一个元素操作，将单词映射为元组；
reduceByKey(_+_)：按照key将值进行聚合，相加；
collect：将数据收集到Driver端展示。

本次的就到这里了,

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请“” “评论”“”一键三连哦！听说的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
码字不易，大家的支持就是我坚持下去的动力。后不要忘了关注我哦！

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

展开阅读全文

42
评论 36
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
- 打赏
打赏

不温卜火

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定
关注

Tut

03-28 Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火- 3151

Spark快速入门指南 – Spark安装与基础使用

本文转载自Spark快速入门指南 – Spark安装与基础使用Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。此外，Spark 提供了简单易用的 API，几行代码就能实现 WordCount。本教程主要参考官网快速入门教…

Ancony_的博客

04-05 Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火- 1064

Spark快速入门

1 Spark介绍行业正在广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于简单的编程模型（MapReduce），并且它支持可扩展，灵活，容错且经济高效的计算解决方案。在这里，主要关注的是在查询之间的等待时间和运行程序的等待时间方面保持处理大型数据集的速度。Spark由Apache软件基金会推出，用于加速Hadoop计算软件的计算过程。与普遍的看法相反，Spark不是Hadoo……

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

目录

一. 解压 Spark 安装包

二. 运行官方求PI的案例

2.1 `spark-submit`语法

2.2 关于 `Master URL` 的说明

2.3 结果展示

2.4 另一种方法

三. 使用 `Spark-shell`

3.1 创建 2 个文本文件

3.2 打开 Spark-shell

3.3 查看进程和通过 web 查看应用程序运行情况

3.4 运行 `wordcount` 程序

3.5 登录hadoop102:4040查看程序运行

四. 提交流程

五. wordcount 数据流程分析

Spark快速入门指南 – Spark安装与基础使用

Spark快速入门

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

Spark快速入门系列(2) | Spark 运行模式之Local本地模式不温卜火-

目录

一. 解压 Spark 安装包

二. 运行官方求PI的案例

2.1 spark-submit语法

2.2 关于 Master URL 的说明

2.3 结果展示

2.4 另一种方法

三. 使用 Spark-shell

3.1 创建 2 个文本文件

3.2 打开 Spark-shell

3.3 查看进程和通过 web 查看应用程序运行情况

3.4 运行 wordcount 程序

3.5 登录hadoop102:4040查看程序运行

四. 提交流程

五. wordcount 数据流程分析

Spark快速入门指南 – Spark安装与基础使用

Spark快速入门

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录

2.1 `spark-submit`语法

2.2 关于 `Master URL` 的说明

三. 使用 `Spark-shell`

3.4 运行 `wordcount` 程序