【ImapBox现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与ImapBox共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
2014中国大数据技术大会第二日上午大数据生态系统论坛上,Databricks 软件工程师、Apache Spark PMC成员孟祥瑞 ,美国俄亥俄州立大学计算机科学与工程系Senior Research Associate鲁小亿,华为Universe大数据平台的架构师徐健鹏,Apache Hadoop和Tez项目PMC成员Bikas Saha,Intel Senior Software Engineer、Apache Hadoop Committer、Apache Hadoop PMC Member Uma Maheswara Rao G,Intel Senior Software Engineer、Apache Hadoop Committer刘轶六位专家主要专注于大数据热门技术展开演讲。
Databricks 软件工程师、Apache Spark PMC成员 孟祥瑞
Databricks 软件工程师、Apache Spark PMC成员孟祥瑞表示,在加入Apache之后,Spark人气呈直线上升,提供Spark商业版的公司已包括Cloudera、Hortonworks、Pivotal、Datastax、IBM、Oracle、SAP、MapR。Spark之所以能这么火爆,主要原因可归为:
最后一点,也是最重要的是,Spark非常简单,这点可以从Spark和Hadoop中的WordCount方法比较发现:
演讲期间,孟祥瑞还分享了Spark 1.2的主要更新:Core,YARN上的自动扩展、外部的shuffle服务;SQL,外部的数据源、fixed-precision decimal;MLlib,管道和参数、随机森林、更多的Python API;Streaming,驱动程序高扩展性、Python API。最后,孟祥瑞还未我们分享了Databricks Cloud的打造目标:旨在提供100%的Spark特性、一个零管理的云平台、交互式查询和可视化、交互式仪表盘等。
美国俄亥俄州立大学计算机科学与工程系Senior Research Associate 鲁小亿
鲁小亿表示,时至今日,集群计算已成为高性能计算的代名词,在越来越多的超级计算机中被使用:
而在2014年11月公布的Top500超算中,使用了InfiniBand(基于RDMA)高性能网络的系统占45%。毫无疑问,高性能网络已立足新时代的大数据系统。并在高性能计算的消息传递接口(MPI)、并行文件系统(Lustre、GPFS)、苛刻性能(延时、带宽和利用率)要求场景、苛刻扩展性场景下得到广泛应用。
随后,鲁小亿详细的讲解了RDMA技术如何作用到大数据处理的各个环节,最后更公布了RDMA可能给大数据各个组件带来的提升:
HDFS中的通信时间对比 MapReduce上的性能提升
华为Universe大数据平台的架构师 徐健鹏
徐健鹏重点介绍了商业及技术背景和DAG引擎技术解析。大数据时代对ETL提出的挑战一节,徐健鹏表示,当下的挑战主要来自4个方面:数据量显著增长,从G级到T级(每天的数据量);复杂性增加,简单的数据转换->大量的汇总计算、Join操作;时延降低,计算周期从天级->分钟级;成本降低,小型机/磁阵+数据库->X86/本地盘+Hadoop。随后,他详细的分析了流计算、MapReduce、Spark三个类型计算框架的,并说明其不适合电信领域典型场景的原因:
电信领域典型场景需求
当下的3个类型计算框架
1. 流计算
2. MapReduce
3. Spark
为什么不合适
最后,徐建鹏详细介绍了DAG,及华为在基于DAG引擎的流式ETL打造经验。
什么是DAG
DAG是对Hadoop计算模型的补充
Apache Hadoop和Tez项目PMC成员 Bikas Saha
Bikas Saha指出,对比Hadoop1.0和2.0,本质的区别就在于资源管理和计算引擎的分离,也是从整体到分层的改变。随后,Bikas对Tez进行了全方位的解析:
Tez – Design considerations:很难去打造一个通用的引擎,然后进行定制化。Hadoop的流行性势决定了多领域定制化引擎的存在,这里不是要做一个通用的引擎,而是打造一个框架用于建立定制化引擎。
Tez – Empowering Applications:首先,解决分布式Hadoop环境运行难的问题;其次,让应用程序可以聚焦自己关注的领域;最后,成为通用应用程序的平台。随后,他详细介绍了Tez对Hadoop生态圈各个组件的提升。
Tez – Problems that it addresses:计算的表示、性能和运营简单。
Tez – End User Benefits:应用程序获得更高的性能、更可预测的结果、更好的利用计算能力、减少HDFS的压力、减少网络使用、提高应用程序生产力。
……
Bikas随后对各个分类进行了详细的描述,在计算的表示上,Bikas分享说,Tez提供了DAG和Runtime API用于计算。其中DAG API定义了数据处理的结构,以及生产者和消费者之间的关系。
大数据生态系统分论坛上午场最后一场演讲来自Intel的两位员工——Uma Maheswara Rao G 和刘轶。其中,Uma Maheswara Rao G主要负责讲Hadoop的扩展属性,刘轶的分享则是围绕Hadoop的透明加密:
Intel高级软件工程师、Apache Hadoop Committer及PMC Uma Maheswara Rao G
Uma Maheswara Rao G首先为我们介绍了Hadoop的扩展属性:Intel高级软件工程师、Apache Hadoop Committer及PMC 允许用户将使用文件/目录关联额外的元数据;Extended Attributes(Xattrs) 可以在任何INode上设置为Key-Value对;XAttrs不会由文件系统解释;用户可以自定义编码XAttrs格式。
随后,他从命名空间、实现细节、配置、用例等多个方面对XAttrs进行了解析。在实现细节中,Uma强调了如下点:在Namenode中,XAttrs被作为独立的INode特性实现;XAttrs今后将持续作为INode信息;同时,这里不会存在兼容问题,更新可以自动的进行,XAttrs将被视为INode特性储存。
Intel Senior Software Engineer、Apache Hadoop Committer 刘轶
刘轶的分享则围绕着Hadoop的透明加密,其概要为:对上层应用程序透明,并且可由所有HDFS客户端透明访问;高性能,不是瓶颈;透明独立于文件类型和数据格式;扩展键管理;终端到终端的加密,数据只能被客户端加密和解密。安全,HDFS不负责数据解密,或者加密键。
在透明加密的实现细节中,刘轶主要谈了下面几点:支持Pread;原始文件和加密文件的长度相等,并通过AES-CTR实现1:1对应;在Intel平台上使用AES-NI支持可以提升透明加密性能,大约在20倍;定义加密区域,文件可以在这个区域加密和解密;使用了两个键——encryption zone key (EZK)和data encryption key (DEK),DEK由EZK加密,每个文件都拥有唯一的DEK。
更多精彩内容,请关注直播专题 2014中国大数据技术大会(BDTC) ,新浪微博 ImapBox@邮箱云存储 ,订阅ImapBox大数据微信号。
阅读和此文章类似的: 全球云计算