百度字节跳动等中企向英伟达订购50亿美元芯片

中国半导体论坛振兴国产半导体产业！

邀请函：Cadence2023中国用户大会！

8月10日消息，据外媒报道，百度、字节跳动、腾讯和阿里巴巴已向英伟达订购了价值50亿美元的芯片。

多名知情人士称，这些中国企业已向英伟达订购约10万颗A800芯片，这些芯片价值10亿美元，将于今年交付。两位接近英伟达的人士表示，这些公司还订购了价值40亿美元的英伟达图形处理器（GPU），这些GPU将于2024年交付。

这些中国企业之所以抢购英伟达芯片，是因为这些芯片对打造生成式人工智能系统至关重要。

据报道，在美国要求英伟达停止向中国出口用于人工智能相关工作的两款顶级计算芯片后，英伟达在中国推出A800芯片，以满足出口管制规定。

据悉，英伟达的A800芯片可以用来代替A100芯片。除了互连速度不同，两者之间的规格几乎相同。其中，A800的运行速度是400Gbps，而A100的运行速度是600Gbps。

据外媒报道，A800芯片的设计似乎是为了避开美国的出口限制，同时仍能实现核心计算能力。去年11月份，英伟达的一位发言人表示，A800GPU已于2022年第三季度投产。

中国互联网集团竞相囤积A800芯片，原因是担心美国政府正在考虑出台新的出口限制措施，甚至连英伟达性能较弱的芯片也会被限制出口，以及需求过剩导致更大范围的GPU短缺。

目前，英伟达备受投资者青睐，被认为是满足AI计算能力需求的关键供应商，其高端处理器已被用于训练和运行各种聊天机器人。

据悉，聊天机器人ChatGPT等生成式AI的大火，拉升了对英伟达H100、A100、H800和A800等高性能GPU的需求，这使得该公司在全球AIGPU市场拿下达90%的市占率。

投行摩根大通认为，凭借GPU和网络产品等硬件产品，英伟达今年将在人工智能产品市场中占据高达60%的份额。

文章内容整理自网络，如有侵权请联系沟通

元宇宙是什么，为什么最近那么火？

?元宇宙（metaverse），即为虚拟世界，其中的Meta即为元素的意思，元宇宙概念是未来6种改变生活工作场景技术的集合，这6种技术分别为区块链（Blockchain）、交互技术（Interactivity）、电子游戏（Game）、人工智能（AI）、网络技术（Network）、物联网技术（IOT），因其英缩写的关系，元宇宙也被戏称为大蚂蚁（Big Ant）。

? 其实这一概念的起源并不是最近才出现的，微软早在10几年前就已经有过未来元素生活的探索尝试，但在当时的硬件条件下，这类尝试无法大规模推广，时间来到当下后，在元宇宙概念的背景下，未来人类可通过在各种虚拟的空间中完成各类实感的体验，整个世界将会打破物理隔阂，各国家、种族的人类可以自己创造、共享、参与到每个人的虚拟世界中，以自己独有的识别方式及个性化的形象，使用包括虚拟货币、混合现实增强、脑波感知等衍生技术，在世界互联网空间中以自己的方式创造自己的虚拟世界。

? 那么如何用最简单的方式理解元宇宙呢？打个较为简单的比方，就是未来的互联网公司，技术实现公司将为人类提供各类创造型虚拟元素，有可能是游戏场景，也有可能是生活场景，人们通过各类的元素工具，比如虚拟的锅子，冰箱，燃气灶，菜肴，调味剂就能创造虚拟的线上厨房空间，装修自己定，场景自己创造，完全数字化虚拟实现，再通过脑机接口，MR（混合现实）接口等进入虚拟空间，做出有嗅觉，味觉的虚拟菜肴，比如虚拟的食物饮品，让你的大脑感知到这钟色香味的感觉，同时通过多人互动技术，把朋友们也邀请到自己创造的虚拟厨房里，朋友们的形象也是完全由自己定义，并且通过区块链技术保证每个人的形象，ID，支付信用体系都是唯一的，大家在线上一边吃饭，一边聊天，在大脑的感知下和现实完全一样。可能在未来的双十一，人们能够在线上体验到不输线下购物般的乐趣体验，同时还有产品的体验感，支付的虚拟化，无边际的商品体验空间等，都会大大改变大家的生活。因此，未来的人类将不再单单是现实的人类，其精神、思维、行为习惯，生活工作等也将以数字的形式活跃在另一个世界。

? 当然，一个技术或者概念的发展从来都不是一帆风顺的，元宇宙也一样，各项机制和技术的不完善，都时常被人诟病，同时对此概念的相关制度也不全面，未来是否会出现元宇宙的犯罪，或者其他的危机也无法窥见。也许元宇宙还有很长的路要走，也同样希望未来的某一天，我们能够真正的，安全的体验到元宇宙给人们的生活带来的便利与乐趣，而我们汉玛智慧作为一家科技产品的公司，也会一直关注下去的。

?原文出自? 汉玛智慧

独家 | 寒武纪二代芯片发布在即，提前揭秘如何挑战英伟达！

「初创公司要贸然打入云端市场，简直就是自寻死路」。

长久以来，云端的数据中心市场被视为创业公司的禁地，因为英特尔、英伟达、AMD 等巨头林立，竞争太过凶残。

但近年来，云计算势不可挡，云端芯片市场呈现爆发式增长，不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司，寒武纪挑战云端市场的底气十足。

2018 年 5 月，寒武纪发布首颗云端 AI 芯片，并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解，滴滴、海康威视也已经成为寒武纪的客户。

与此同时，寒武纪成数亿美元 B 轮融资。据机器之心了解，目前寒武纪的估值约为 30 亿美元，与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后，寒武纪二代芯片已经箭在弦上，这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉，寒武纪二代云端芯片或将于本月公布，同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源，提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解，寒武纪二代云端 AI 芯片代号为「MLU270」，延续上一代芯片「MLU170」的 MLU（Machine Learning Unit）系列。今年初，寒武纪已经为旗下芯片注册两大中文商标名，分别是「思元」、「玄思」。综上，寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上，虽然还名列有其他芯片，但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式，转向主打云端市场的芯片方案提供商。

在芯片架构方面，寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长，成为数据中心的任务主流，寒武纪在「思元 270」里内建视频解码单元，瞄准海量的视频处理市场专门配置。

据机器之心了解，寒武纪「思元 270」在今年年初研制成功，制程工艺方面明显抛弃了此前终端市场的激进打法，选择仍然沿用台积电 16nm 工艺，定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线，英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺，AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺，寒武纪这次似乎希望单纯依靠技术路线取胜，不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面，「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看，「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算，INT16 的峰值性能为 64Tops（64 万亿次运算），INT8 为 128Tops，INT4 为 256Tops。

对比 Tesla T4，FP16 的峰值性能为 65 Tops，INT8 为 130 Tops，INT4 为 260 Tops。

功耗方面，「思元 270」功耗为 75w，与 Tesla T4 持平。

但值得注意的是，这些「理论峰值」不过是纸面规格，真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人，同时也是阿里云早期核心技术研发人员李立表示，「T4 在实测过程中，75w 功耗维持不了多久就降一半频率。」

据该负责人介绍，他在几个月前已经拿到「思元 270」的具体规格和特性，「对比而言，第一代 MLU100 是试水，第二代 270 就聚焦多了，威力非常大，NV 后面会很难受。」

与此同时，该负责人还指出，「寒武纪的方案在某些领域可能不会特别好使，尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念，整数运算（定点运算）与浮点运算。

它们是计算机计算中最为常用的两种运算表示法，顾名思义，其差异就体现在整数和浮点上，加减乘除运算都是一样的。

整数表示法，即所有位都表示各位数字，小数点固定；浮点表示法，则分成两部分，阶码和尾数，尾数就是数字部分，阶码表示乘幂的大小，也就是小数点位置。所以浮点数在做运算的时候，除了对尾数做加减乘除，还要处理小数点位置。

基于两种不同的运算表示法规则，导致面对同样长度的整数和浮点运算，后者计算模式更为复杂，需要消耗更多的资源去处理，并且二者功耗差距通常是数量级的。 简单来说，就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先，定点表示法运算虽然直观，但是固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数，可能「溢出」。

而浮点的精度虽然没有定点大，但是浮点运算的小数点位置可以移动，运算时不用考虑溢出，所以科学计算法一般都使用浮点。所谓「溢出」，指超出某种数据格式的表示范围。

此外，具体到使用 GPU 做训练，业界通常更倾向于浮点运算单元，主要是因为在有监督学习的 BP 算法中，只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高，所以通常必须是高精度的浮点运算，比如 FP32 才能搞定，FP16 都难。

综上，虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势，但截止目前，浮点计算在云端的训练场景中仍具有不可替代的特性，并且以高精度运算为主。

那么，如何在不增加芯片面积和功耗的前提下，如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路，目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算，业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点，目前大家的研究热点之一，就在于如何全部的定点单元（比如 INT8）代替浮点单元，或者以主要的定点单元配合少量的高精度浮点计算单元（比如 FP32）做更多的训练任务，目的是达到定点计算的快速度，同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文，李立表示，行业相关的研究文章已经有一些，不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」，要做好低精度训练，就要找到一个好的数据表示方法，既能表达最后大的数，又能让 0 附近的小量能够更好地表达，因此这个数据表示可能需要有自适应性，能随着训练的过程调整。

他还补充， 「低精度训练确实未必要是浮点数，只要能把数域表达好，0 附近的小量表达好，什么样的数据表示都可以。」

综上，寒武纪在大幅度提升训练阶段的计算功耗比方面，很有可能采用的是以整数为主的低精度运算，这在目前已公布的 AI 芯片项目中属于首创。

实际上，寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间，寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路，也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈： Diannao（电脑）是 ASPLOS'14 最佳论文（亚洲第一次），DaDiannao（大电脑）是 MICRO'14 最佳论文（美国以外国家的第一次）……

而在大洋彼岸，美国两家风头正劲的 AI 芯片公司 Graphcore、GTI（Gyrfalcon Technology, Inc.）正是沿用了 DianNao 系列论文的基本思路，采用大量堆叠的简单计算单元以实现复杂的云端计算。（机器之心曾进行过相关报道，《一款芯片训练推理全搞，Hinton 为其背书，Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地，能效比高出 Tesla10 倍 | CES 直击》）

此外，要切数据中心市场的蛋糕，一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流，其 CUDA 软件生态的基础功不可没。

据机器之心了解，寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链，该平台终端和云端产品均支持，可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容，同时提供寒武纪专门的高性库，可以方便地进行智能应用的开发，迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持，但想要真正在数据中心市场扎下根，以实现陈天石去年在发布会上谈到的目标：到 2020 年底，力争占据中国高性能智能芯片市场的 30% 份额，仍然面临着异常残酷的市场竞争。

整体上，英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场，同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU，AMD、FPGA 占据非常小的份额，剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解，近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示，到 2022 年，全球人工智能训练市场的规模将达到约 170 亿美元，云端推理芯片市场的规模将达到 70 亿美元。

可以预见，2019 年，AI 芯片之争将从端燃及云上，云端的大体量、高增速市场势必迎来更多强劲玩家。

（应采访者需求，文中李立、王一均为化名。）

正文

百度字节跳动等中企向英伟达订购50亿美元芯片