深度学习训练,选择P100就对了

1.背景
  去年4月,NVIDIA推出了Tesla P100加速卡,速度是NVIDIA之前高端系统的12倍。同年9月的GTC China 2016大会,NVIDIA又发布了Tesla P4、P40两款深度学习芯片。Tesla P100主攻学习和训练任务,而Tesla P4&P40主要负责图像、文字和语音识别。
  同为Pascal架构且运算能力接近的P100和P40常常被拿来对比,单看Spec上运算能力,似乎P40比P100的深度学习性能更好,但实际上呢?本文就通过使用NVCaffe、MXNet、TensorFlow三个主流开源深度学习框架对P100和P40做性能实测来揭晓答案吧。

2.初步分析
  
  我们先来看下P100和P40的Spec参数指标。从参数来看,的确是P40的单精运算能力强于P100,而深度学习训练普遍使用单精度浮点类型,是衡量深度学习性能的一个重要指标。P40支持IN8类型,所以非常适合精度要求不高的推理场景,24G的显存也非常适合在线处理大数据量的图像等。但是P100搭载的是HBM2高速显存,而P40只搭载了GDDR5的显存,这使得P100的显存带宽达到了P40的2倍多,而这是影响深度学习训练的另一个重要指标,在训练中会有大量的显存操作,对显存带宽要求很高。这一点很可能会制约P40的训练性能。当然这需要实测的数据来验证,下一节是我们的实测数据。

3.实测数据
3.1 NVCaffe:GoogLeNet
  使用ImageNet ILSVRC2012数据集,其中训练图片1281167张, 验证测试图片 5万张,数据单位是Images/Second(每秒处理的图像张数),OOM表示Batch Size太大导致GPU显存不够。
  测试数据如下:
  不同Batch Size单卡性能对比:

  最大性能对比:

3.2 MXNet:Inception-v3
  使用Benchmark模式测试Imagenet训练,数据单位samples/sec,测试数据如下:

3.3 TensorFlow:AlexNet
  TensorFlow使用AlexNet Benchmark模式测试单GPU Forward和Forward-backward作为比较参考,数据单位sec/ batch,越小性能越好。
  P100与P40比较的单GPU测试数据如下:

4 测试结论
  通过实测NVCaffe、MXNet、TensorFlow三个主流深度学习框架的图像分类训练性能,验证了我们前面的分析,P40虽然计算力优于P100,但是受限于显存带宽,在深度学习训练上性能是不如P100的,通过实测数据,我们可以得出结论:P100比P40训练性能至少高出20%以上。
  深度学习训练,选择P100就对了。
  阿里云上提供的GN5系列GPU实例,可搭载最多8块P100 GPU,可大大加速深度学习训练,搭载最新V100 GPU的GN6实例近期也已经上线公测,我们后续也会给出GN6实例的性能评测报告。

时间: 2017-11-10

深度学习训练,选择P100就对了的相关文章

用微信控制深度学习训练的Keras插件 - #Geek Time

" 天清 PaperWeekly 交流二群群友 关注音乐生成和量化交易 创意来源 深度学习训练是一个非常耗时.枯燥的过程:一次训练少则几个小时,多则数天,而且中途能人为干预的机会更是少之又少,在大部分时间里能做的只有等待. 不少人都有这样强迫症,脚本开始运行后会不停的看准确率和 loss,就像像球迷看球赛.股民盯报价一样刺激.一般来说,想要监控深度学习训练,只能使用 ssh 或者 Tensorboard.一旦需要外出,只能通过手机监控深度学习,操作十分麻烦,于是只能无奈地守在电脑前空耗生命. 我

GPU加速深度学习

1. 背景 一年半以前,AlphaGo完胜李世乭的围棋赛让深度学习(Deep Learning)这个名词家喻户晓,再度掀起人工智能的新一波热潮.其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出,经过几起几落的发展,到了21世纪初,多层神经网络算法也日趋成熟.深度学习理论早在十多年以前就有重要突破,为何直到近年才出现爆发.这不得不提到2012年的一场竞赛. 2012年,Geoffrey E. Hinton(与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车)的弟

分析全球334家真正的深度学习创业公司,盘点25家AI芯片创业公司 | IEEE Fellow Chris Rowen演讲

在回顾Chris的演讲前,我们先来了解一下Chris本人.Chris Rowen是一位著名的硅谷企业家和技术专家.他目前是Cognite Venture的CEO,斯坦福SystemX联盟顾问,Cadence设计系统的顾问.他正在开发认知计算领域新的创业企业.他曾担任Cadence IP集团首席技术官,在那里他带领团队为移动.汽车.基础设施.深度学习和物联网系统的高级应用开发新的处理器和内存.Chris在1997年创建了Tensilica公司并担任CEO,开发可扩展处理器,成为领先的嵌入式架构之一

大规模深度学习优化技术在PAI平台中的应用及实践

1. 前言 自2012年Deep Learning的代表模型AlexNet在ImageNet大赛中力压亚军,以超过10个百分点的绝对优势夺得头筹之后,依托于建模技术的进步.硬件计算能力的提升.优化技术的进步以及海量数据的累积,Deep Learning在语音.图像以及文本等多个领域不断推进,相较于传统作法取得了显著的效果提升.   工业界和学术界也先后推出了用于Deep Learning建模用途的开源工具和框架,包括Caffe.Theano.Torch.MXNet.TensorFlow.Chai

如何在实战路上与时俱进:深度学习最佳实践

自2006年Hinton提出神经网络新的训练方法起,深度学习发展迅速,促使人工智能在图像.语音.自然语言处理等多个领域有了实质性的突破,达到产业应用标准.然而,深度学习作为人工智能领域的一项前瞻技术,实践性强,入门门槛高,关于深度学习的研究与应用,现在仍有很多问题没有找到满意的答案,这些都给深度学习的广泛应用带来挑战.本文旨在提供一份清晰.简洁的深度学习实践说明,以便从事深度学习研究与工程技术人员能够快速掌握深度学习的实际经验. 第一节:深度学习概述 深度学习是模拟人脑进行分析学习的多层神经网络

不用写代码就能实现深度学习?手把手教你用英伟达 DIGITS 解决图像分类问题

锋网首发.   引言 2006年,机器学习界泰斗Hinton,在Science上发表了一篇使用深度神经网络进行维数约简的论文 ,自此,神经网络再次走进人们的视野,进而引发了一场深度学习革命.深度学习之所以如此受关注,是因为它在诸如图像分类.目标检测与识别.目标跟踪.语音识别.游戏(AlphaGo)等多个领域取得了相当优秀的成绩,掀起了又一波人工只能浪潮.深度学习技术逐渐成为机器学习领域的前沿技术,近年来得到了突飞猛进的发展,这得益于机器学习技术的进步以及计算设备性能的提升.英伟达公司研发的图形处

机器学习和深度学习的最佳框架大比拼

在过去的一年里,咱们讨论了六个开源机器学习和/或深度学习框架:Caffe,Microsoft Cognitive Toolkit(又名CNTK 2),MXNet,Scikit-learn,Spark MLlib和TensorFlow.如果把网撒得大些,可能还会覆盖其他几个流行的框架,包括Theano(一个10年之久的Python深度学习和机器学习框架),Keras(一个Theano和TensorFlow深度学习的前端),DeepLearning4j(Java和Scala在Hadoop和Spark

GitHub 上 57 款最流行的开源深度学习项目

GitHub 上 57 款最流行的开源深度学习项目 本文整理了 GitHub 上最流行的 57 款深度学习项目(按 stars 排名).最后更新:2016.08.09 1.TensorFlow 使用数据流图计算可扩展机器学习问题 TensorFlow 是谷歌的第二代机器学习系统,按照谷歌所说,在某些基准测试中,TensorFlow 的表现比第一代的 DistBelief 快了2倍. TensorFlow 内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用 TensorFlow.

激活引入非线性,池化预防过拟合(深度学习入门系列之十二)

系列文章: 一入侯门"深"似海,深度学习深几许(深度学习入门系列之一) 人工"碳"索意犹尽,智能"硅"来未可知(深度学习入门系列之二) 神经网络不胜语,M-P模型似可寻(深度学习入门系列之三) "机器学习"三重门,"中庸之道"趋若人(深度学习入门系列之四) Hello World感知机,懂你我心才安息 (深度学习入门系列之五) 损失函数减肥用,神经网络调权重(深度学习入门系列之六) 山重水复疑无路,最快下降