运用Spark加速实时数据分析

29 十月

星期四, 29 十月 2015 06:51 Last Updated on 星期四, 29 十月 2015 06:51 0 Comments

Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统，并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献，并且为各个组织提供了许多工具来管理不同大小规则的数据。

在过去，Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而，随着信息化时代的发展，越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动，其中包括最近发展的流媒体技术、物联网、实时分析处理，这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天，能够满足上文提到的需求而引起了业界人士浓厚兴趣与广泛的支持的一项重要的新技术，就是Apache Spark。从能源产业到金融行业，Spark凭借其高效性与多功能性已经成为当今大数据处理栈中的关键部分。

Spark是一个比MapReduce更加灵活的开源且通用的计算框架。Spark凭借其高速的内存计算，在函数式编程中与Hadoop相比更具生产力。例如，如图1所示，在逻辑回归算法性能测试中，Spark内存计算下的运行比Hadoop MapReduce快了几个数量级的速度。

运用Spark加速实时数据分析

图1：逻辑回归算法性能测试。图片来源：Apache Spark，使用已经过授权。

其中Spark的一些特性包括：

它利用分布式内存进行计算。
它支持完整的用有向无环图（DAG）来展示数据的并行计算。
它可以提高开发人员的经验。
它提供了线性可伸缩性与数据本地化。
它具有容错机制。

Spark为各种不同的用户提供着便利：信息技术开发人员可以受益于Spark支持各种流行的开发语言，例如Java、Python、R语言；而数据科学家可以在Spark支持的机器学习（ML）库中获得研究便利。

在Spark中还有一个庞大且不断增长的第三方包列表，将各式各样的工具、环境、框架、语言整合到一起，从而扩展Spark的复杂性以及能力。

Spark用例可以部署在不同的生产场景中，其中包括在一个大型技术公司中运用Spark通过使用机器学习来进行个性化搜索；在一个金融系统中仅需数小时便可以处理数以百万计的股票分析，要知道相同的工作量下此前使用Hadoop MapReduce起码得耗费一周的时间；在学术环境中进行基因科学研究；在视频系统中，Spark与Spark Streaming被用于处理流媒体及其分析；以及卫生保健领域中Spark被用于进行疾病的预测建模。

如此看来似乎各式各样不同的问题都能通过Spark成功地被解决，但是最重要的是我们仍需要不断去优化Spark的架构，以处理任何所提及到的用例。正如Spark拥有强大的特性，简而言之，这也意味着它的复杂性。因此，为了获得最佳性能的Spark，它需要成为一个更广泛的Hadoop基础数据管理平台的重要组成部分。此外，为了能在实时或者预测分析中得到更大收益，那么优化整个数据供应链也是至关重要的。

原文链接： Accelerating real-time analytics with Spark（翻译/丘志鹏审校/林炀责编/仲浩）

译者简介：丘志鹏，关注大数据、机器学习。

本文为ImapBox编译整理，未经允许不得转载，如需转载请联系market#csdn.net(#换成@)

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: https://www.imapbox.com/download/ImageBox.5.8.0_Build20141205_CHS_Bit32.exe

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有文字内容由 imapbox邮箱云存储,邮箱网盘, iurlBox网页地址收藏管理器下载并得到。

ImapBox 邮箱网盘工具地址: https://www.imapbox.com/download/ImapBox.5.5.1_Build20141205_CHS_Bit32.exe

PC6下载站地址：PC6下载站分流下载

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox 网页视频工具地址: https://www.imapbox.com/download/ImovieBox4.7.0_Build20141115_CHS.exe

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

运用Spark加速实时数据分析

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

运用Spark加速实时数据分析

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录