芯片的未来之战霸主英伟达真就无人能挡

Source:WiredWriter:NicoleKobie

业内有一个传说,讲的是英伟达怎样从游戏和图形硬件转向了AI芯片市场的统治者。早在年,现任英伟达首席科学家BillDally有一天正与斯坦福大学的前同事、计算机科学家吴恩达共进早餐,当时吴正在与谷歌合作一个项目。“他试图在互联网上找猫—他描述的不是那样,但他就是那样做的,”Dally说。

吴当时在谷歌X实验室从事一个项目,旨在构建一个可以自行学习的神经网络。这个神经网络在YouTube上观看了万个视频,并学会了如何认出人脸、身体和猫—但要准确做到这一点,系统需要数千个CPU(中央处理器),即为计算机提供动力的主要处理器。

“我说,‘我敢打赌,我们只需要几个GPU就可以做到同样的事情,’”Dally说。GPU(图形处理单元)专门用于处理更密集的负载,例如3D渲染—这让它们比CPU更适合用来为AI提供算力。Dally找到了现在在英伟达领导深度学习研究的BryanCatanzaro来实现这一目标。他做到了——只用了12个GPU——就证明GPU提供的并行处理能力可以比CPU更快、更高效地训练吴的猫识别模型。

但Catanzaro想让人们知道,英伟达开始在AI领域投入的契机并非只是那一次早餐。事实上,在年加入英伟达之前,他还是伯克利分校的研究生时就一直在为AI开发GPU。“英伟达在这个市场上的地位并非偶然,”他说。

现在英伟达主导了AI芯片市场,当初的契机和开始的时间看起来也就不那么重要了。

英伟达由首席执行官黄仁勋于年与他人共同创立,其主要收入来源仍然是图形和游戏。但在上一个财政年度,公司用于数据中心的GPU销售额攀升至67亿美元。

年,前四大云供应商AWS、谷歌、阿里巴巴和Azure中97.4%的AI加速器实例(用于提高处理速度的硬件)部署了英伟达GPU。CambrianAIResearch的分析师KarlFreund表示,它占据了人工智能算法训练市场“近%”的份额。Top超级计算机中近70%使用了它的GPU。几乎所有AI里程碑都发生在英伟达硬件上。

吴的YouTubecatfinder、DeepMind的围棋游戏冠军AlphaGo、OpenAI的语言预测模型GPT-3都运行在英伟达硬件上。它是人工智能研究人员安身立命的基础。

尽管取得了骄人的成绩,但Catanzaro很不爽那些说英伟达只是偶然从游戏转向人工智能市场并取得成功的暗示。“我发誓,几乎我读过的每一个故事都在说GPU只是恰好被发现在人工智能领域表现出色,而英伟达向新市场出售已有芯片时幸运地获得了短期的意外收获,很快它们就会被由初创公司提供的硬件取而代之,”Catanzaro说。“但英伟达进军AI市场的战略已经布局十年之久了。”

十年过去了,这个市场已经足够成熟,到了变革的前夜。

越来越多的企业开始使用人工智能来理解他们收集的海量数据,而各国政府则在向深度学习研究领域投入资金以保持领先地位。中美之间的竞争尤为激烈;德勤分析师CostiPerricos表示,人工智能将成为各国竞争“下一个超级大国”的焦点领域。与此同时,深度学习模型的规模和复杂性不断增加,需要更多的计算能力。

OpenAI的GPT-3是一个可以编写有意义文本段落的深度学习系统,它就是一个极端的例子;它由亿个参数组成,这些参数是构成模型的变量。它的计算成本约为万美元,之后被具有1.6万亿个参数的谷歌语言模型超越。

行业需要更高效的硬件来处理更多参数和更多数据以提高准确性,同时还要防止人工智能成为环境灾难,丹麦研究人员计算出训练GPT-3所需能量的碳足迹相当于驾车行驶,公里。我们需要更多、更好的人工智能芯片。

虽然英伟达的早期工作为这家GPU制造商提供了领先优势,但挑战者正在竞相迎头赶上。

谷歌于年开始制造自己的芯片;在年收购AnnapurnaLabs后,亚马逊去年开始将Alexa的大脑转移到自己的Inferentia芯片上;百度拥有昆仑,最近估值为20亿美元;高通拥有CloudAI;IBM正在致力研发一种节能设计。AMD收购了Xilinx用于AI数据中心产品,英特尔在年为其Xeon数据中心CPU添加了AI加速模块;它还收购了两家初创公司,年以4.08亿美元收购了Nervana,年以20亿美元收购了HabanaLabs。

尚未被抢购走的初创公司则纷纷发布了他们自己的硬件:在过去几年中,Graphcore、SambaNova、Cerebras、MythicAI、Blaize和TensTorrent等公司都发布或展示了自己的AI芯片。

我们仍处于人工智能的早期阶段。

随着智能物联网设备开始掀起一场机器对机器的革命,越来越多的数据将汇聚起来,奔流不息。所有人都在渴望实现同一个目标:掌控人工智能芯片的未来。

BryanCatanzaro,英伟达应用深度学习副总裁机器学习是一种与众不同的计算负载,需要使用不是特别精确的数字进行大量数学运算。传统的高性能计算(HPC)是将多个系统连接在一起以构建超级计算机来处理复杂负载,例如科学模拟或金融建模,而这种负载需要高精度的数学计算—至少64位精度。

AI计算也需要庞大的计算基础设施,但所使用的数字不那么精确,精度只有16位甚至8位—这和HPC比起来就像是80年代像素游戏碰上了超现实图像。人工智能芯片初创公司Cerebras的首席执行官AndrewFeldman说:“用到的数学很简单,但计算量很大。”

AI芯片指的是经过优化以通过谷歌的TensorFlow和Facebook的PyTorch等编程框架运行机器学习负载的处理器。在训练或运行深度学习模型时,AI芯片不一定会完成所有工作,而是扮演加速器的角色,快速处理最密集的负载。例如,英伟达的成品AI系统DGXA使用8个自研的A“安培”GPU作为加速器,但还配备了核的AMDCPU。

AI并不是什么新概念,但我们以前缺乏让深度学习模型跑起来的算力,研究人员只能等待硬件发展赶上他们的想法。“GPU的引入打开了大门,”另一家制造AI芯片的初创公司SambaNova的联合创始人兼首席执行官RodrigoLiang说。

年,多伦多大学的研究员AlexKrizhevsky在一年一度的ImageNet计算机视觉挑战赛中击败了其他竞争对手。这个挑战赛让研究人员相互竞争,以开发可以识别图像或图像内物体的算法。Krizhevsky首次使用由GPU驱动的深度学习技术来击败手工编码的竞争算法。到年,ImageNet比赛的所有顶级玩家都用上了GPU。

深度学习研究迎来了爆炸式增长。

英伟达的技术太优秀了,可以提供20倍或更多的性能提升,以至于当英国芯片初创公司Graphcore的联合创始人开始创业时,他们都找不到投资人开会。

“我们从风投那里听到的是:‘什么是人工智能?’”联合创始人兼首席技术官SimonKnowles回忆起年去加利福尼亚寻求风投资金的旅行时说。“这真的很令人惊讶。”几个月后,也就是年初,一切都变了。“一下子,所有人都开始热衷于人工智能,”Knowles说。“然而,他们对芯片并不感冒。”新的芯片架构被认为是没有必要的;英伟达已经覆盖了行业需求。

GPU、IPU、RPU—它们都用于处理深度学习的数据集,但它们名称的不同确实反映了各自架构层面的差异。

Graphcore的ColossusMK2IPU的核心是大量独立运行、并行工作的处理器,这种技术称为多指令多数据。软件是按顺序编写的,但神经网络算法需要一次性完成所有工作。

Graphcore的CTOSimonKnowles说,为了解决这个问题,一种解决方案是列出所有数据及其约束,比如声明问题的结构。这是一个图—这也是他的公司的命名来源。

但在年5月,谷歌改变了一切——Cerebras的Feldman称之为“虚张声势的战略决策”——宣布它已经为人工智能应用开发了自己的芯片。这些芯片被称为张量处理单元(TPU),旨在与该公司的TensorFlow机器学习编程框架搭配使用。

Knowles表示,此举向投资者发出了一个信号,即新的处理器设计可能存在市场空间。“一夜之间,所有的风投都在想:那些疯狂的英国人在哪里?”他说。从那时起,Graphcore已经筹集了7.1亿美元(5.15亿英镑)。

英伟达的竞争对手辩称,GPU是为图形而非机器学习设计的,尽管其强大的处理能力意味着它们在人工智能任务领域比CPU表现更好,但由于精心的优化和复杂的软件层,它们的市场主导地位也只能到此为止了。

“英伟达在隐藏GPU的复杂性方面做得非常出色,”Graphcore联合创始人兼首席执行官NigelToon说。“它之所以如此成功,归功于他们创建的软件库、框架和隐藏复杂性的种种优化。英伟达在底层做了非常繁重的工作。”

但就算不考虑GPU,争论也还是会继续下去,你可能会从头开始设计一个具有全新架构的AI芯片。有很多选项可供选择。谷歌的TPU是专用集成电路(ASIC),专为特定负载而设计;Cerebras制造了一个晶圆规模的引擎,这是一个比其他任何芯片大至少56倍的庞然大物;IBM和BrainChip基于人脑模型制造神经形态芯片;Mythic和Graphcore都做的是智能处理单元(IPU),但它们的设计有所不同。此外还有很多例子。

但Catanzaro认为,许多芯片只是AI加速器的变体—任何能提升AI性能的硬件都可以叫这个名字。“我们会谈GPU、TPU或IPU或其他各种名词,但人们对这些字母过于执着了,”他说。“我们之所以叫GPU是因为我们过去做的事情……但GPU一直就是用于加速计算的,只是人们关心的负载性质在不断变化。”

任何人都可以参与这场竞争吗?英伟达在核心基准测试,也是深度学习芯片的黄金标准MLPerf中占主导地位,要知道这种基准测试里很难保持领先。

CambrianAIResearch的分析师KarlFreund指出,由包括谷歌在内的学术界和行业参与者设计的基准测试工具MLPerf是由谷歌和英伟达主导的,但初创公司通常不会费心完成所有测试,因为系统的研发成本最好花在刀刃上。

英伟达确实很在意这个测试—而且每年的成绩都超过谷歌的TPU。“谷歌发明了MLPerf来证明他们的TPU有多好,”英伟达解决方案架构和工程负责人MarcHamilton说,“黄总说,如果我们每次运行MLPerf基准测试时都能向谷歌证明我们的GPU比TPU只快一点点,那就太好了。”

之前,为了确保它在这个基准测试的一个版本中拔得头筹,英伟达将一台自研超级计算机从36个DGX模块升级到了惊人的96个。这需要重新布线整个系统。为了尽快做到这一点,他们直接把电线都剪断了—Hamilton说这是价值约万美元的套件—并发来了新设备。这可能进一步说明了争夺测试冠军的战斗有多疯狂,但它也激发了DGX的新设计:现在这一代模块无需任何重新布线就可以将20个组成一组。

对于基准测试和超级计算机来说,你可以随时添加更多芯片。但对于AI计算的另一领域—边缘推理,情况就不是这么一回事了。

一个英伟达SuperPOD,Cambridge-1超级计算机是用很多机柜的这种模块搭建而成的英伟达在年以亿美元的价格收购了英国芯片设计公司ARM,引起了全世界的

转载请注明:http://www.abuoumao.com/hytd/4134.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7