正在阅读:IBM完败脸书及微软 创深度学习性能新记录

IBM完败脸书及微软 创深度学习性能新记录

2017-08-09 09:03:49来源:36氪 编辑:沐子飞 关键词:深度学习人工智能服务器阅读量:28884

导读:外媒都在用夸张的标题报道IBM的人工智能又立功了,例如说IBM的速度快得很“抓马”云云。到底怎么回事,量子位把IBM Research的博客全文搬运如下,大家感受一下IBM这次的捷报……
  【中国智能制造网 企业动态】外媒都在用夸张的标题报道IBM的人工智能又立功了,例如说IBM的速度快得很“抓马”云云。到底怎么回事,量子位把IBM Research的博客全文搬运如下,大家感受一下IBM这次的捷报……
 
  深度学习是一种被广泛使用的人工智能方法,帮助计算机按照人类的方式理解并提取图像和声音的含义。深度学习技术有望给各行各业带来突破,无论是消费类移动应用,还是医学影像诊断。然而,深度学习技术的准确性,以及大规模部署能力仍存在技术挑战,模型的训练时间往往需要几天甚至几周。
 
  IBM研究院的团队专注于为大型模型和大规模数据集缩短训练时间。我们的目标是,将深度学习训练的等待时间从几天或几小时缩短至几分钟或几秒,同时优化这些人工智能模型的准确率。为了实现这一目标,我们正在将深度学习部署至大量服务器和英伟达GPU,解决“大挑战”规模的问题。
 
  热门的深度学习框架可以支持在单台服务器上的多个GPU,但无法支持多台服务器。我们的团队(包括Minsik Cho、Uli Finkler、David Kung和他们的合作者)编写了软件和算法,对这种规模庞大、非常复杂的并行计算任务进行优化,实现自动化。这种并行计算任务分布在数十台服务器的数百个GPU加速处理器上。
 
  我们的软件可以完全同步地进行深度学习训练,且通信开销很低。因此,当我们将规模扩大至100s英伟达GPU集群时,对ImageNet-22k数据库中750万张图片的识别准确率达到创纪录的33.8%,高于此前的高纪录,即来自微软的29.8%。
 
  4%的准确率提升是巨大的飞跃,以往的优化通常只能带来不到1%的准确率提升。我们创新的分布式深度学习(DDL)方法不仅提高了准确率,还利用10s服务器的性能实现了在短短7小时时间里训练ResNet-101神经网络模型。这些服务器配备100s的英伟达GPU。
 
  此前,微软花了10天时间去训练同样的模型。为了实现这一成绩,我们开发了DDL代码和算法,克服在扩展这些性能强大的深度学习框架时固有的问题。
 
  这些结果采用的基准设计目标是为了测试深度学习算法和系统的极限,因此尽管33.8%的准确率听起来可能不算很高,但相比于以往已有大幅提升。给予任何随机图像,这个受过训练的人工智能模型可以在2.2万种选择中给出高选择对象(Top-1精度),准确率为33.8%。
 
  我们的技术将帮助其他人工智能模型针对特定任务进行训练,例如识别医学影像中的癌细胞,提高度,并使训练和再训练的时间大幅缩短。
 
  Facebook人工智能研究部门于2017年6月在一篇论文中介绍了,他们如何使用更小的数据集(ImageNet-1k)和更小的神经网络(ResNet 50)来实现这一成果:“深度学习需要大型神经网络和大规模数据库才能快速发展。然而,更大的网络和数据库会造成更长的训练时间,不利于研究和开发进度。”
 
  讽刺的是,随着GPU的速度越来越快,在多台服务器之间协调和优化深度学习问题变得越来越困难。这造成了深度学习的功能缺失,促使我们去开发新一类的DDL软件,基于大规模神经网络和大规模数据集运行热门的开源代码,例如Tensorflow、Caffe、Torch和Chainer,实现更高的性能和度。
 
  在这里,我们可以用“盲人摸象”来形容我们试图解决的问题,以及所取得的初步成果的背景。根据维基百科上的解释:“每个盲人去摸大象身体的不同部位,但每个人只摸一部分,例如侧面或象牙。然后他们根据自己的部分经验来描述大象。对于大象是什么,他们的描述完全不同。”
 
  尽管初有分歧,但如果这些人有足够多的时间,那么就可以分享足够多的信息,拼凑出非常准确的大象图片。
 
  类似地,如果你有大量GPU对某个深度学习训练问题并行处理几天或几周时间,那么可以很容易地同步这些学习结果。
 
  随着GPU的速度越来越快,它们的学习速度也在变快。它们需要以传统软件无法实现的速度将学到的知识分享给其他GPU。这给系统网络带来了压力,并形成了棘手的技术问题。
 
  基本而言,更智能、速度更快的学习者(GPU)需要更强大的通信方式,否则它们就无法同步,或是不得不花大量时间去等待彼此的结果。如果是这样,那么在使用更多、学习速度更快的GPU的情况下,你就无法加快系统速度,甚至有可能导致性能恶化。
 
  我们利用DDL软件解决了这种功能缺失。当你关注扩展效率,或是在增加GPU以接近系统性能时,优势表现得明显。我们在实验中试图了解,256个GPU如何“对话”,以及彼此学习了什么东西。
 
  此前对256个GPU的佳扩展来自Facebook人工智能研究部门(FAIR)。FAIR使用了较小的学习模型ResNet-50以及较小的数据库ImageNet-1k,后者包含约130万张图片。这样做减小了计算的复杂程度。基于8192的图片批量规模,256个英伟达GPU加速集群,以及Caffe2深度学习软件,FAIR实现了89%的扩展效率。
 
  如果利用ResNet-50模型以及与Facebook同样的数据集,IBM研究院的DDL软件基于Caffe软件能实现95%的效率,如下图所示。这一结果利用了由64个Minsky Power S822LC系统组成的集群,每个系统中包含4个英伟达P100 GPU。
 
  如果使用更大的ResNet-101模型,以及ImageNet-22k数据库中的750万张图片,图片批量规模选择5120,那么我们实现的扩展效率为88%。
 
  此外,我们还实现了创纪录的快训练时间,即50分钟,而Facebook此前的纪录为1小时。我们用ImageNet-1k数据库训练ResNet-50模型,使用DDL将Torch扩展至256个GPU。Facebook使用Caffe2训练类似的模型。
 
  对和数据科学家来说,IBM研究院的DDL软件提供了一种API(应用程序接口),每个深度学习框架都可以挂接并扩展至多台服务器。技术预览版已通过PowerAI企业深度学习软件第4版发布,任何使用深度学习技术去训练人工智能模型的企业都可以使用这种集群扩展功能。
 
  我们预计,通过将这种DDL功能提供给人工智能社区,随着其他人利用集群性能去进行人工智能模型训练,我们将看到准确性更高的模型运行。
 
  原标题:IBM完败Facebook、微软,创下深度学习性能的记录
我要评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了