当前位置

网站首页> 程序设计 > 程序资讯 > 云计算 > 浏览文章

对话NVIDIA工程副总裁:GPU计算技术趋势解析

作者:小梦 来源: 网络 时间: 2024-07-19 阅读:

在最近的2015年全国高性能计算学术年会(HPCChina 2015)上,NVIDIA解决方案工程架构副总裁MarcHamilton接受CSDN记者的采访,分享利用GPU加速应用的技术趋势和GPU技术研发新动向。他表示,GPU加速是“后摩尔定律”时代应用最广泛的加速计算技术,而加速市场的重心在深度学习及其相关的视觉计算,未来NVIDIA会继续专注于视觉和加速计算。

Marc Hamilton一同接受采访的还有NVIDIA全球副总裁、PSG&云计算业务总经理Ashok Pandey,他介绍了NVIDIA加速计算技术在中国市场的本地化工作以及一些应用进展。

定制加速不如通用GPU

在科学计算、大数据分析、深度学习等领域,对高性能计算的需求是不言而喻的,目前最典型的还是深度学习。NVIDIA认为,当前深度学习流行的主要原因之一,就是GPU所带来的巨大可用的计算能力。比如在深度学习网络当中,有很多以十亿为单位来计算的参数量,那这种对数据和计算能力有非常高的要求的这种训练,是非常适合来用GPU进行的。

深度学习从业者寻求的加速方案包括GPU、FPGA以及类脑芯片等,后者包括完全非冯诺依曼架构的系统,如IBM的SyNAPSE,以及加速芯片的形式,如中国的寒武纪。Marc Hamilton认为,这些不同加速芯片的出现,都是为了应对传统的芯片面临挑战的问题——我们已经接近了摩尔定律描述的末端,未来没有办法再继续依赖于摩尔定律来实现最高的性能。

数字为证:

  • 高性能计算的应用当中,前十个当中九个都是在GPU上面来进行使用的。
  • 前一百的超级计算机当中所有应用当中有70%计算周期,都是在GPU上面来进行的,其中也包括了所有主要的深度学习的这些应用。

或许是由于类脑芯片目前还是概念,Marc Hamilton没有从架构层面对比类脑架构与GPU加速架构的优劣。他表示,目前关于深度学习的这种训练,基本上100%都是用GPU来做的。FPGA受到的关注,跟最近英特尔花了170亿重金收购一家FPGA公司的新闻有关。实际上在深度学习方面,通过FPGA技术运行的应用程序非常少,可能FPGA技术的应用更集中于解决分类和推断的部分。

他谈到了深度学习在医疗影像当中的一个应用例子,在美国加州眼科医生协会,他们组织了一次比赛,这个比赛的背景是这样的:在18-55岁的成年人当中,造成致盲最主要的因素是糖尿病所引起的并发症,如果你定期进行眼科的检查,你只需要用普通的相机拍一个靠近眼底的照片,就可以做出一些判断,看一看到底是不是糖尿病的并发症在你的眼睛当中出现了,但不是所有人都可以很方便地获得眼科医生的帮助,而且眼科医生本身的判断准确性也只有85%左右。最终总共有300多人提交了他们的成果,大部分使用的都是深度学习的一些技术,最后胜出的基本上都是基于GPU深度学习的技术,最终三个获奖的技术都是能够预测的糖尿病的并发症,在眼底当中表现的准确性,高于人类的医生能够所达到85%的准确性,基于GPU深度学习的技术,带来医疗影像上面很大的一些突破。

NVIDIA的GPU有几条产品线,GeForce主要是针对于游戏的,但是对深度学习开发者来说也是非常好用的,相对而言它的价格比较低,很多计算机厂商都会使用这个GPU的产品,所以在市场上的可得性是非常好的,而且对于很多普通的开发者来说,这个是他们可以使用GPU最有成本效益的方式,这也是GeForce战略当中很重要的一部分。

而要使更多的人使用GPU,就是通过云的方式,实际上在AWS里面提供GPU的服务已经有很多年了,在去年这一年当中,包括阿里云在内,还有包括微软的Azure,也都宣布了在他们云服务当中,是可以提供GPU的。现在应该说GPU是目前云服务当中唯一可以获得加速的技术。对于云服务提供商来说,他们肯定不会说是自己一定非要提供这个服务,肯定是对于这样一种加速的技术有需求,才会在云端来提供GPU。

具体的选择上,MarcHamilton表示,在Tesla加速计算平台的品牌下面,实际上也是有多种价位的GPU产品,对于大多数深度学习应用来说,最合适的GPU就是K40,不是因为它比K80要便宜,而是因为它的架构相对于目前深度学习的应用来说是最为合适的,以NVIDIA现在一些产品可能针对不同的客户应用,是有一些相应的优化。所以针对于不同的应用,不同的品有各自的最好性价比。 

Tesla K80双GPU加速器是当前Tesla的最新旗舰,它拥有带宽极高的24GB内存、高达8.74TFlops的单精度峰值浮点性能和高达2.91 TFlops的双精度峰值浮点性能。IBM和微软都是宣布了会在他们的云服务当中来提供K80的GPU,阿里云也是在进行相关的一些论证,可能在未来也会推出。这些都说明了K80的吸引力。NVIDIA认为,K80对于油气行业这个应用程序来说是最优化的,也是最具有性价比,能够有最大的价值。

对于缺乏专门定制化的加速芯片来提升深度学习系统性能的问题,MarcHamilton认为,确实定制化的加速芯片速度会加快,但是它主要有两个问题:

  1. 经济性是一个非常需要考量的因素。现在的制程技术越来越高级,包括芯片的制造,设计等,整个费用会非常高,比如利用现在的10纳米制程技术设计,再进行真的生产芯片,即便眼膜可能就需要一千万美元。
  2. 芯片的变化是非常快的,可能很快就陈旧,如果是一个定制化的芯片,继续更新可能只能再用一个新的芯片替换它,面对着像深度学习这样一个快速迭代的技术,原来芯片刚刚生产出来的时候,它已经过时了。所以从整个技术发展速度和经营的角度考虑,做定制化的芯片,目前并不是一个最为合适的选择。而通用的GPU,无论是用作游戏的用途,或者说用在自动驾驶汽车里面,或者深度学习,可能GPU都是差不多的,只是上面编程不一样,所以可以用在不同的应用。

对于性能追逐者,一个好消息是,明年NVIDIA将要出货的Pscal GPU,相比较现在的GPU预计将会有十倍的性能提升。只依靠摩尔定律,十倍性能提升是很难实现的。PscalGPU的实现来自三个方面的原因:

  1. 摩尔定律本身确实贡献了一部分的性能提升。
  2. 在架构上面的变化。NVIDIA将于明年面世的下一代GPU架构Pascal和NVLink高速互联技术,将为数据中心和深度学习提供更加强大的加速动力
  3. 在软件方面实现性能提升。从现在到明年的Pscal GPU出货的空间,通过cuDNN的软件(cuDNN深度神经网络库,可以支持很多常用的函数和功能),还会再进一步实现性能的提升。NVIDIA希望每年都可以通过硬件和软件的更新来实现更高的性能。例如在过去这一年当中,NVIDIA通过cuDNN3.0版本实现了性能的翻番。

生态构建

生态方面,Marc Hamilton强调了在OpenPOWER的进展,即将问世的NVLink高速GPU互联技术将会支持OpenPOWER。他表示,IBM出货带有GPU加速的OpenPOWER8的系统已有一年多,在去年的HPC中国大会上,就推出了第一款企业级Power8的系统,在上个月也推出了一个相对来说成本比较低的,针对HPC进行了优化的一款平台的产品,这个也是带有GPU的Power8系统。

  开发支持方面,现在有CUDA编程环境,为OpenPOWER系统提供了运行应用程序的基础。不仅仅是IBM已经宣布了要支持在OpenPOWER关键的应用程序,包括像DB2的数据库,而且还有一些第三方已经把他们相关一些应用程序移植到了OpenPOWER的平台上,比如大数据领域新的内存内数据库,还有一些是在GPU内存内的这种数据库,在美国有一个叫做GPUDB,利用的是在GPU的内存,现在也都可以在OpenPOWER上面得到支持。

谈到的另一个方面是ARM,Marc Hamilton表示,从战略上来说,NVIDIA会去支持客户有需求的所有CPU架构,而很多国家的客户都提出了希望支持ARM架构的需求。

NVIDIA支持ARM的处理器厂商,以及系统的厂商等,比如AppliedMicro、Cavium等公司,明年估计也会有几个中国的处理器合作伙伴公布,然后会有多家OEM厂商出货相关的产品。此外,CUDA工具包已经支持ARM的架构,NVIDIA会继续和整个的ARM社区保持合作。

中国市场的进展 

Marc Hamilton对中国市场的进展很满意。他表示,具体看亚太区深度学习的市场,毫无疑问中国是最领先的,从GPU销售量来看,中国和美国把持前两名的位置。现在所销售的用于深度学习的GPU,大部分是用于教深度学习训练的,因为你首先得要对深度学习的系统来进行训练,然后才能部署到实际生产环境当中。

他认为,在未来,深度学习里面涉及到推断和视频处理方面,GPU的应用会有非常好的前景和增长。因为现在从视频来说,有大量的视频上传和下载,增长速度超过了摩尔定律所能够带来的性能提升的速度,现在无论是做社交网络公司还是搜索公司,他们的数据中心已经非常饱和,增加更多的机器也好,或者是CPU的更新换代也好,都很难赶得上推断和视频处理需要的速度。现在多数公司可能还是通过CPU来进行这些相关的这种推断和视频的处理,但是在未来会利用GPU进行加速。

具体而言,在互联网上产生这些视频所带来的计算需求,可能有几个方面,第一个就是视频的编解码,这个非常适合在GPU进行相关的完成;第二,很多的视频可能都会上传到一些社交网络上面,包括微信,或者是其他的平台上面,从深度学习的训练来看,现在基本上大部分都是在GPU上来完成的。从图片推断来看,你可以在CPU上去完成,但是未来随着这些图片上传的量越来越大,它涉及到的计算需求越来越多,完全靠CPU完成可能会变得非常地困难。那涉及到视频方面,它所需要的计算工作,相比图片就要大了很多很多,所以未来这方面的,可能更多会是通过GPU来进行处理。比如原来,视频还可以上传,然后储存在那里,可能进行离线的处理,一两天的时间没有问题。但是现在很多应用,比如说一些视频广播的应用,没有给你储存视频然后进行一个离线处理的时间,比如只有两分钟的时间来对于这些视频进行转代码,然后还要来进行相应的推断,然后才能够基于这些数据向你推荐好友,或者是向你发有针对性的一些广告等等,这所带来计算的需求会非常非常巨大。

综上,Marc Hamilton认为,未来很多计算可能都是在GPU应用上完成的,单视频方面对于GPU的需求,这个市场空间就会非常大。

Ashok Pandey补充说,从技术交流和沟通方面来说,亚太区其他地方的贡献确实是很多的,从高性能计算,从纯科学计算来看,日本的贡献程度是比中国要大。但毕竟还是中国的市场更大,相关的投资和创新,中国的声音非常非常大。比如说NVIDIA每年三月举办的GTC,原来中国面孔很少见,但去年中国这边的参会人数突然非常迅速地增长,已经超过了日本人数,今年NVIDIA的目标是中国人超过德国人数。

Ashok Pandey认为,在互联网这方面,特别是深度学习新技术这一方面,中国绝对不落后于国外,特别是商业模式的这种创新方面,中国可能还超前于国外。中国人的学习能力比较强,还有在商业模式方面创新能力也非常强,不仅仅是BAT,包括众多这种新兴企业,利用新的技术应该不落后于全世界其他国家。

加速方案的选择上,Ashok Pandey认为,中国公司是非常有智慧的,会针对他们的工作负荷来选择当时最具有竞争力的产品,类似于阿里一样其他的公司,现在也积极的在测试一些新的产品。针对这种企业级企业,可靠性、可用性、可维护性是非常重要的,并且他们的应用场景都是集群场景,在集群这种场景里面,Tesla这种数据中心的产品是比较适合的。这和大学、科研机构在单机做一个科研和测试是不一样的。

此外,他表示,NVIDIA在中国生态系统做得非常好,高性能计算OEM,包括浪潮、曙光、联想、华为等,都是NVIDIA的非常密切的合作伙伴,并且他们有一个新产品,NVIDIA马上会去做认证方面的工作。比如现在曙光已经推出了XMachine深度学习一体机。

热点阅读

网友最爱