“神经网络(neural network)前途无量,但因为我们尚没有足够的计算能力使其一鸣惊人,神经网络一度销声匿迹。”Google资深系统专家Jeff Dean说。而Google最新开源的TensorFlow深度学习系统也证明了深度学习对硬件的依赖。 那么,今天深度学习的流行,将如何推动硬件的发展呢?在近日的2015年全国高性能计算学术年会(HPC China 2015上,ImapBox记者采访了科大讯飞内核研发中心研发总监于振华、科大讯飞深度学习平台研发主管张致江,倾听行业用户构建深度学习硬件平台的实践心得,以及对深度学习硬件变革的渴望。 以下为采访实录: 记者:科大讯飞有一个讯飞超脑的规划,当前市面上提供的技术,能否跟上讯飞超脑的需求?难点在哪里? 科大讯飞内核研发中心研发总监于振华: 讯飞超脑是一个比较大的概念,大家会觉得比较虚,实际上我们公司内部把它分解成一步一步的非常具体的目标,比如说我们的类人答题,自动阅卷等,可能先去让它去考小学,最终考大学,最终要超过80%的人,这个可能是让一般公众比较容易理解的方式。背后的概念就是在特定领域上,做一些类似于强人工智能的模式,但是我们究竟基于神经网络做出来的东西,最终是不是强人工智能,现在业界还不好说。 目标非常远,难度相应就会大,所以不可能做到真正像人一样,说超脑就跟人脑一样,实际上我们会约束它在一个特定领域上,在一个很窄的领域上,可能在某个特定领域上能达到一般人的智能,甚至超过人的水平,这是我们目标的设定,当然中间有一步步的步骤分解去做。 关于目前硬件发展的一些契合问题,现在神经网络链接数也就10的8次方,其实跟真正的人脑差了将近6个数量级,人脑的复杂度比我们现在做的最复杂的神经网络,还要复杂六个数量级。从目前来讲,短期内,三五年之内能把这个硬件问题解决掉,那是不可能的。那我们只能从技术上来讲,我不一定需要做到跟人脑一样复杂,那么大规模去做这个事情,我可能是针对深度学习技术,去做一些局部的突破和发展,针对特定领域的相对简单的问题,把它做透。 这一块我们对硬件需求,一个是希望它能更快一些,第二个,希望它能更便宜一些。一个是运算速度快,带宽更大,我刚才说的6个数量级填满之前,对速度和带宽的要求是永远不会停下的,当然除了这个速度和带宽之外,作为超算来讲,它的体系架构也非常重要,就是说我们可能针对深度学习这块,特别是神经网络这块,也是希望有新的专门针对于神经网络的这种计算架构的改进,来辅助这个神经网络。 记者:在讯飞搭建的深度学习的平台,使用GPU来加速,CPU和GPU使用的比率是什么样的? 科大讯飞深度学习平台研发主管张致江: 现在比例是有两种机器,一种机器是2:4的关系,一种机器是1:2的关系,或者2:4,或者2:8,准确来讲,就是2:4和2:8,之所以基于这个关系,是因为机器是这样设计的,现在根本就没有一个机器是针对深度学习的方式去设计的,2:8这种机器实际上是针对以后的密码破译这样的方面去设计出来的,我们去用,发现它也有一些不太好的地方,后来我们就换成了2:4的这种搭配方式去做的。 现在目前来说看着还行,实际上我们认为更好的机器,是1:4会更好,因为CPU是不使用的,最后全是GPU。 科大讯飞内核研发中心研发总监于振华: 我补充一下,因为我们现在做深度学习的训练,跑的大部分是矩阵运算,包括CNN,包括GNN,大部分都是矩阵运算或者卷积运算,实际上我们所有运算几乎都是放在加速卡GPU上的。CPU基本上属于一个很瘦的状态,不需要太强的级别,但因为目前这种构架,所有的通信,所有的数据传输要经过CPU,这一块相当于一个硬件构架的限制,其实我们是希望有新的设计,解决这个传输带宽的问题,其实CPU不要求非常强。 记者:NVIDIA的K40、K20,科大讯飞都用了,能否介绍你们的使用感受。 科大讯飞深度学习平台研发主管张致江: K80我们没用过,但是用GPU已经用了很多年了。最初Fermi架构时,我们就在用了,后来我们用到了GTX系列的,就是GeForce,当时书卷不大,跑一天就结束了,后来书卷大了以后,GeForce稳定性会有一点问题,我们就换Tesla系列,等于说这是一个探索的过程,我们认为Tesla的GPU是最稳定的,当然现在GeForce也非常好了,因为后来我们也用了,之前不知道。这是第一个问题。 第二,我们认为Tesla系列是更加稳定的,我们选卡的标准是怎么选呢,哪个最快我们就选哪个,选的是最快的,刚开始我们不仅选了K20M系列,我们还选了K20XM系列,就是类似这样的选卡。然后K40出来了之后,K40比K20又上了一个台阶,我们就选了K40这样一个系列。但是为什么不选K80,是因为K80是两片GPU在一个卡里面,而深度学习的算法有一个特点,需要单芯片的性能越强越好,这是我个人做工程方面去理解的。 我们测过,单芯片K40是最强的,K80比K20高一点点,跟K20XM差不多,后来我们就没有选K80,并不是说K80不好,可能跟我们的有点不太匹配。类似这样的情况。现在也发布了M40,我们测试稳定的话,不排除下一次买GPU会买M系列的,因为我们认为单芯片性能是越强越好。 记者:科大讯飞有多少在开发构建这个深度学习平台?目前的工作重点在哪几块? 科大讯飞内核研发中心研发总监于振华: 我们针对深度学习,公司光是致江这个团队就有将近20号人,他们主要负责技术平台的构建和硬件平台的维护,以及训练算法的基本平台的构建。至于在深度学习相关的一些人工智能算法研究方面,可以说整个研究院几乎超过一半的人,现在都在从事一些跟深度学习相关的工作,我们知道目前深度学习对实现人工智能,成为一个至关重要的工作,所以我们好多人的工作实际上都多多少少跟深度学习有关联的,这样算的人就非常多了。 下一步的工作重点主要有两块,一个是我们还会持续优化训练平台,我们这个训练平台一直相当于自己攒机攒过来的,因为一开始业界没有比较成熟的方案,所以开始的时候我们也没有进HPC这个圈子,我们一开始有深度学习的需求,就用了GPU去优化,后来我们发现HPC相关的一些东西我们都需要,慢慢地就踏入了这个圈子,我们其实属于非正规部队,现在来参加这个会议,也是希望去学习一些比较正规的经验,让我们这个平台后续包括稳定性,可用性以及使用效率等再提升起来。第二块工作还是针对深度学习,包括目前CNN,DNN,每年有一些新的东西出来,比如像今年提出来的LSTM技术等,目前来讲这些技术我们跟得算是比较紧的,针对一些研究性的工作也在持续的跟进,这一块是重要的工作,是我们的立身之本,平台这一块是解决我们的效率和控制问题。 记者:现在科大讯飞深度学习平台的GPU规模有多大? 科大讯飞深度学习平台研发主管张致江: 大概GPU Tesla可用的GPU在400多块,实际上延伸的一些我们不说了,我这里还有将近100块的GTX也不算过期的,整个科大实验室也在用,给学生用,只是性能差一点。 记者:能否分享搭建这个平台的一些经验? 科大讯飞深度学习平台研发主管张致江: 真正想把平台搭好,或者想把一个效率做好,首先你需要对算法需要了解,算法上我们需要进行精心的设计,怎么样去并行,然后哪些可以并行,哪些不可以并行,然后并行需要一些什么样的计算特点,带宽是多大类似这样的东西。就是设计出来之后,这个系统是比如一个节点上面,能够容忍多大的计算量,同时这个节点上的计算量,大概是一种拓扑,然后存储怎么去弄,一些各种各样的细节东西都是需要考虑的,而不仅仅是买一台机器。 通常我们是很少去关注,或者说我们采购的时候很少去关注于最低价,我们往往考虑的是一个整体的解决方案,和整体的性能,或者是合作伙伴能提供出一个什么样的方案,有什么样的一些利处,什么样的知识,考虑到很多这样的细节。 科大讯飞深度学习平台研发主管张致江: 这个平台一开始搭建的时候,就有很多的考虑,非常难去做。首先要懂算法,同时要懂硬件,除了懂硬件,还有很多的一些东西,比如一个平台做出来,你要考虑几个层次,一个最简单的我去买一个硬件,硬件搭起来了以后,我上面跑什么样的软件系统,这是第二块,软件系统跑上来了以后,实际上还有一个很重要的方面,就是一个资源调度和管理,这又是一个层面,我们再看一个层面,这个算法怎么样在这个平台上得更好,像我们公司几百号的研究人员,根本不懂GPU,也不懂网络,甚至C语言都不会,怎么样让它去跑好呢?实际上我们就要提供一些简易的并联接口,或者是针对特定的任务进行优化,这个时候你就需要考虑几个问题,第一个你需要有系统搭建人员,运维人员,这是一个层次的。 第二你需要有软件,或者一些系统经验的,或者调度类似应用层面的开发。第三,你需要从算法上的一个开发。所以说我们当时一开始做的时候,这个就是很多部门共建的,研究院是出人的,专门做算法的这一块研究,然后我们还有一部分叫瓶颈事业部,就是我现在这个所在的部门,需要出工程人员,就是怎么样在CPU和GPU上去做得更好。 实际上我们公司作为一个基建的部门,企业信息化办公室,帮我更好去做IT的管理,我们搭建起来的时候,把它放到普通的办公室管不了,这个东西挺复杂的,首先这个网络就比较麻烦的,还有存储连接也挺麻烦的。所以我们这个团队是很多部门共同去建设的。 记者:需要对算法了解到什么样的程度?针对大量数据的多机多卡并行的计算,在我们业务里面它的难点是在哪个地方? 科大讯飞深度学习平台研发主管张致江: 深度学习如果你想简单的去用它,或者Demo跑一个例子,几乎拿过来就可以用。深度学习需要了解的地方,在于你需要调各种各样的参数,而这些参数需要各种各样的实验,这些东西需要一个研究的能力去做它。整体来讲,算法或者是编写的难度都不是很大,所以我们认为可能需要一些研究员的思维去做它。 实际上我们认为多机多卡的难点,在于要很好地解决好计算一些传输的比例,数据比例的问题,这个地方如果你真的把它多机加得很大的时候,这个带宽也很难去平衡。我们认为我们现在在这一方面做得还可以,在现有的情况下,做到不错的一个平衡。 记者:无监督和弱监督有没有为我们带来一定可能,就是降低我们所需要的数据样本和数量,通过这种方式来减少我们对计算量的需求? 科大讯飞内核研发中心研发总监于振华: 无监督不是降低了计算量,实际上计算量大大增加了,我们知道后台有个语音,包括BAT收数据,实际上大家真是不缺数据,无论是语音,还是图像,还是像人脸这种数据,大家不缺数据,缺的是标注过的数据,实际上这种标注数据,如果是雇人一张一张去标注的话,或者一段一段语音去听的话,那个成本是非常大的,所以才有这种弱监督,或者无监督的做法,无监督的做法其实就是我不管,相当于把进来的数据拿过来,先去训练一个模型,当然这里面有一些理论,怎么样去用这个数据去优化这个结果。 我们一般有监督的话,比如像收集了1万小时的数据,我是有标注的,实际上我可能真正训练,我会拿四万小时,甚至十万小时训练,那九万小时实际上都没有标注的。相对于有监督运算,实际上运算量大了十倍,但是实际上我是会取得一些微弱的性能收益,因为随着计算能力的提升,特别到最后一个大模型生产的时候,大家可以比较奢侈去进行运算,最后挖掘那一点点的性能。这个无监督,主要是提升最后一点点的性能。 记者:我们有没有做一些对模型方面的努力,来降低我们对数据量和计算量的需求呢? 科大讯飞内核研发中心研发总监于振华: 这个牵扯到我们以前胡院长讲的一句话,做研究要做两个事情,做减法,做加法。就是说我可以通过原理在不改变效果的情况下,我去降低一些东西,降低一些复杂度,降低一些数据需求量,然后反过来我再去把数据弄大.减法跟加法实际上我们都在做,包括一些模型改进,比如说像去年谷歌发表的,就相当于在同等训练数据量上,甚至更少数据量上,能达到训练效果的一些方法,这些实际上我们公司也有自己的一些算法,包括一些正在研究的算法,大家在这一块一直在做。 因为现在像有NVIDIA提供GPU这么强的运算能力,特别像我们公司又搭了非常大的运算平台,我们说我们为了降低它的运算量,不是说我们运算能力不够,去降低它的运算,我们更多是做完减法之后,我们想做做加法,我如果能把这个降低了,我还用原来那么多数据,我效果更好,或者我再加更大的数据,我还能训练,所以说我们这个思路是这样的。 记者:科大讯飞非常关注速度,那么是不是更快的NVLink互联网技术有可能会取代PCIE?或者以后这几个发展方向,可能适用的场景不同,每个都有各自的领域? 科大讯飞深度学习平台研发主管张致江: 的确是适用在不同的领域,NVLink作为一个协议,NVIDIA需要维护自己的生态,这个生态到底以后能维护得怎么样,咱们现在也未知。PCIE目前来说,这个生态维护得还行,如果开放得不够好,可能也会限制NVIDIA计算卡性能的发挥,对于我们这样一个企业来讲,我们肯定想让这个卡的性能越来越高,所以说在这种深度学习的环境下,如果PCIE对它有限制的话,我们可能会选择NVLink这样的机器,或者用NVLink的技术去做这样一个东西。 在其他的产品下,比如说大数据的产品下,里面一些交互可能PCIE也就够了,肯定是在不同的产品去用。
NVIDIA中国区政府销售总监Tomas He: 这个做一个补充,CPU和GPU之间,无论X86平台还是用PCIE,对于深度学习来说,更多是GPU之间的通讯,所以我们的策略是以后会用NVLink直接把GPU直连,这种方式就不需要所有的东西要CPU,GPU去绕一圈,那我有几张GPU卡,我的NVLink在那里,大家可以把这些GPU都跟NVLink连接。 NVLink的带宽,第一代是80G,是PCIE的五倍,第二代也会做到200G,这个高速就跟GPU的计算性能打通了。当然这个应用就像刚才您说的,因为是在深度学习这种行业,恰恰这种应用跟CPU之间的交互比较少,就是GPU之间的通讯,所以这种应用特别合适。 那么在其他HPC的应用可能不一样,那IBM跟我们有合作,有OpenPOWER,美国也有两台300P的超算机器,这个就会从CPU和GPU之间,GPU和GPU之间,全部是NVLink,NVIDIA相当于把NVLink已经拿出来了,跟IBM来合作做这个事情。那么在这种生态中间,就不会存在这样的一个问题了。 记者:科大讯飞也非常关注IBM的TrueNorth,你们如何看待TrueNorth的发展? 科大讯飞深度学习平台研发主管张致江: TrueNorth实际上真正利用类似于人脑的方式去做的一个芯片,我们新的计算性能就是模拟人的,所以我们认为这个东西是一个非常大的突破,但是它离商业化还非常远。到具体落地的事情,现在我们目前是非常关注NVIDIA,而且我们对NVIDIA抱有很大的期望,NVIDIA不仅仅是真正去做这个芯片,也并不是说单口号喊了一下人工智能的支持,他实际上做了很多生态的东西,比如说加速都做得挺好的。我们认为NVIDIA在这一次人工智能的浪潮,有很多的促进作用,我们是非常关注他们的。 NVIDIA中国区政府销售总监Tomas He: NVIDIA本身也是借这个深度学习,完成向一个平台化的公司转型,所以在这一方面我们确实做了比较多的一些工作,比如像我们推出了类似在深度学习这个层面,我们有cuDNN,我们现在已经有一版,二版,三版,现在四版大家也在调试了,今年年底还是明年会有五版也在计划中间。 cuDNN针对Caffee这些开源软件架构做了很多优化,让性能做得更好,这样的话能方便地让更多人去使用。NVIDIA虽然是一个做芯片的公司,但是实际上公司的软件人员是很多的,因为我们是要培养整个生态,所以我们对于CUDA整个发展(CUDA现在也是7.5的版本了)投入很多精力。我们希望以后有更多的一些行业,在软件层面、平台层面多花一些功夫,多花一些时间。 其次,就是面向更多的做初期研发的公司,比如像我们有DIGITS的软件,这样很多做算法研究的人,不一定非要对这些使用下面的东西有太多的了解,他可以做初步这样一些训练工作,可视化的工作。 另外一点,因为企业级的这种客户,特别像科大讯飞这样的,他们总是走在科研和应用的前沿,他们会给我们提很多的问题,那我们也会从产品的层面,根据这样一个发展,在下一代的产品中,无论是硬件差别还是软件产品,把这些东西逐渐去解决。 最后一点,我们本身也会有一些开发的工程师,会跟他们做一些配合调试,让客户能够使用得更好,我觉得这个是能够更多满足企业客户的需求,我们在朝这些方面在做一些转变。 第九届中国大数据技术大会将于2015年12月10-12日在北京隆重举办。在主会之外,会议还设立了16大分论坛,包含数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育等7大应用论坛和3大热点议题论坛,票价折扣中预购从速。 本文为ImapBox原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
本网页所有文字内容由 imapbox邮箱云存储,邮箱网盘, iurlBox网页地址收藏管理器 下载并得到。
ImapBox 邮箱网盘 工具地址: https://www.imapbox.com/download/ImapBox.5.5.1_Build20141205_CHS_Bit32.exe
PC6下载站地址:PC6下载站分流下载
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox 网页视频 工具地址: https://www.imapbox.com/download/ImovieBox4.7.0_Build20141115_CHS.exe
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算