BloomReach基于AWS建立了一个定制化发现平台,其应用程序提供了自然搜索(organic search)、网站搜索、内容营销和商品化等业务。BloomReach从不同的数据源收集数据,其中包括在线商城的产品目录推送数据、在线商城的行为跟踪数据和影像资料等。数据被收集、解析和存储以匹配用户在商城的意图,从而为在线商城提供用户行为分析,并基于这些分析提供一个定制化的呈现页面。 下图展示了用于在线商城的数据输入流程。BloomReach收集的数据包括在线商城页面爬取、在线商城数据推送以及影像数据。系统会包含一个用于数据清洗、过滤和标准化的ETL(Extract、Transform和Load)组件,而处理后的数据会被持久化到产品数据库。产品数据库还用于支撑类似“What’s Hot”这样的应用程序,它会在在线商城网站上为用户显示热门产品。 下图是定制化过程的一个简单概括: 在BloomReach,Amazon EMR集群的使用规模大约在1500个到2000个之间,每天运行的Hadoop作业大约在6000个。作为一个发展很快的公司,BloomReach经历了Amazon EMR短时间内用量增速飞快的过程: 因此,毫无疑问的是,在规模逐渐扩大的过程中,如何控制Amazon EMR的成本开销至关重要。从而,我们制定了下面几个策略:
2. 对比为每个作业单独发布一个集群,建立一个系统让集群为多个小型作业共享可以大幅度的减少成本。无论什么时候都不要忘记,不管你的作业是持续10分钟还是60分钟,你都是按小时支付。因此,如果你有4个10分钟作业,你可以让它们共享一个集群,对比使用4个1小时的集群,你只需要为1个集群支付1个小时的费用,成本效益由此可见。同时,让集群在多个作业中共享还可以为你节省新集群启动时的开销和成本,而这些时间节省可能对实时工作产生关键性影响。
3. 使用Amazon EMR tags来跟踪成本。EMR tags可以让你根据项目和部署需求来监视成本,它可以让你对投资回报有一个更深入的了解,并为预算目标提供非常好的可见度。
4. 建立一个生命周期管理系统,它可以让你跟踪集群并消除未使用的集群。
5. 为作业选择合适的实例类型。举个例子,为计算密集型作业选择c3类型实例。基于作业的规模,这可以显著的减少浪费和开销。下面是一个算法,基于Spot的价格,它为容量选择实例类型时提供了最佳实践。
maxCpuPerUnitPrice = 0 optimalInstanceType = null For each instance_type in (Availability Zone, Region) { cpuPerUnitPrice = instance.cpuCores/instance.spotPrice if (maxCpuPerUnitPrice < cpuPerUnitPrice) { optimalInstanceType = instance_type; } }
这些Amazon EMR策略组合策略以帮助你增加效率、控制成本,并让系统愈加可发展。(文/Prateek Gupta,BloomReach首席工程师)
原文链接:https://blogs.aws.amazon.com/bigdata/post/Tx3L1N4PH3MPPIF/Strategies-for-Reducing-Your-Amazon-EMR-Costs
订阅“AWS中文技术社区”微信公众号,实时掌握AWS技术及产品消息!
AWS中文技术社区为广大开发者提供了一个Amazon Web Service技术交流平台,推送AWS最新资讯、技术视频、技术文档、精彩技术博文等相关精彩内容,更有AWS社区专家与您直接沟通交流!快加入AWS中文技术社区,更快更好的了解AWS云计算技术。
( 翻译/薛童阳 责编/王玉平 )
本网页所有文字内容由 imapbox邮箱云存储,邮箱网盘, iurlBox网页地址收藏管理器 下载并得到。
ImapBox 邮箱网盘 工具地址: https://www.imapbox.com/download/ImapBox.5.5.1_Build20141205_CHS_Bit32.exe
PC6下载站地址:PC6下载站分流下载
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox 网页视频 工具地址: https://www.imapbox.com/download/ImovieBox4.7.0_Build20141115_CHS.exe
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算