这半年来,ChatGPT带来的AI热,大家都直观感受到了。
图片来源:由**AI生成
事实上,在不太直观的地方,数据也在悄然发生变化:斯坦福大学发布的《2023年AI指数报告》显示,2022年采用AI的公司比例比2017年翻了一倍多。这些公司报告称,在采用AI后,他们实现了显著的成本降低和收入增加。
虽然2023年的数据还没出来,但仅凭ChatGPT点燃的AIGC场,就不难推测上述数字将在今年迎来新的转折点。AIGC有潜力掀起第四次工业革命。
但与此同时,这些企业也迎来了建设AI基础设施的新挑战。
首先,即便是在动力方面,今年AI领域计算能力需求激增与供给不足的矛盾也变得尤为激烈。就连OpenAI的首席执行官山姆·奥特曼(Sam Altman)也承认,他的公司受到计算能力不足的困扰,其API的可靠性和速度一再被投诉。此外,大量公司还面临着这一波高需求带来的计算成本上升的问题。
其次,在模式的选择上,很多企业发现目前最热门的大模式并没有成熟的商业模式,其安全性等方面还存在问题。以三星的设备解决方案部门为例。在他们启动ChatGPT不到一个月的时间里,发生了三起数据泄露事件,让原本打算直接调用OpenAI API的企业知难而退。此外,自己训练和部署大型模型也是非常令人气馁的:试想一下,简单地向大型模型发送请求,可能需要昂贵的GPU卡进行独占操作,这是很多企业无法负担的。
但是,反过来说,ChatGPT这种“无所不知”的超级模式,对企业来说真的有必要吗?运行AI模型辅助业务是否意味着GPU规模的疯狂扩张?那些已经用AI提升效率的公司都是怎么做的?在分析了一些企业的最佳实践后,我们找到了一些参考答案。
已经使用人工智能的公司:在性能和成本之间的艰难选择
如果要分析最早使用人工智能提升效率的行业,互联网是不可回避的一个,其典型工作量的优化——推荐系统、视觉处理、自然语言处理等。—离不开AI。然而,随着业务量的激增,它们在性能和成本方面也面临着不同的挑战。
先看推荐系统。推荐系统广泛应用于电子商务、社交媒体、音视频流媒体等诸多领域。以电子商务为例。每年的618、双十一购物高峰,阿里巴巴等头部电商都会面临庞大的全球客户群数亿次的实时请求,因此希望在吞吐量、延迟等方面满足AI推理的要求,同时保证AI推理的准确性和推荐的质量。
接下来看视觉处理,可以发现智能图像处理、商家证照识别、扫码开自行车、扫药箱买药等诸多应用场景。人工智能已经成为其商业版图的重要组成部分。然而,随着美团业务和用户的快速增长,越来越多的应用需要通过视觉AI构建智能流程。美团需要提高视觉AI推理的吞吐量,同时保证视觉AI推理的准确性,以支持更多的智能服务。
最后,自然语言处理。得益于ChatGPT带来的人气,自然语言处理正在获得前所未有的市场关注和技术追踪。作为国内NLP技术研究的先行者,百度在该领域已经构建了完整的产品体系和技术组合。ERNIE 3.0作为其NLP模型的重要组成部分,在各种NLP应用场景中也表现出色,尤其是在中文自然语言理解和生成任务中。但随着NLP在更多行业的商用,用户也对ERNIE 3.0提出了更多细分需求,比如更高的处理效率、更广的部署场景等。
所有这些问题的解决都离不开大规模的基础设施投入,但困扰这些企业的共同问题是,独立GPU可以满足性能需求,但成本压力大,盲目扩大GPU规模并不是最佳选择。
经济高效的解决方案:英特尔第四代至强可扩展处理器
AI界有一种刻板印象:CPU不适合承载AI任务。但是“拥抱脸”首席传播官朱利安·西蒙的一次展示打破了这种刻板印象。他的公司与英特尔合作创建了一个名为Q8-Chat的生成式AI应用,可以提供类似于ChatGPT的聊天体验,但只需要32核英特尔至强处理器即可运行。
如这个例子所示,用CPU来承载AI任务(尤其是推理任务)其实在业界是很常见的。阿里巴巴、美团、百度都使用相关解决方案来缓解计算能力问题。
阿里巴巴:用CPU助力下一代电商推荐系统,成功应对双十一峰值负载压力。
如前所述,阿里巴巴在电商推荐系统业务中,面临AI吞吐量、延迟、推理准确率等多重考验。为了实现性能和成本的平衡,他们选择使用CPU来处理AI推理等工作负载。
那么,什么样的CPU才能同时经受住多重考验呢?答案自然是英特尔第四代至强可扩展处理器。
这款处理器于今年年初正式发布。除了一系列微架构创新和技术规格升级,新CPU对AI计算的支持“更上一层楼”引起了特别的关注,尤其是英特尔新内置的AI加速器——英特尔高级矩阵扩展(AMX)。
在实际工作负载中,Intel AMX可以同时支持BF16和INT8两种数据类型,可以保证CPU像高端通用图形处理器(GPGPU)一样处理DNN工作负载。BF16的动态范围与标准IEEE-FP32相同,但精度低于FP32。在大多数情况下,BF16的模型推理结果与FP32格式的结果一样准确,但由于BF16只需要处理FP32一半大小的数据,因此BF16的吞吐量远高于FP32,对内存的要求也大大降低。
当然,AMX自己的架构也是为了加速AI计算。该架构由两部分组成:2D寄存器文件(TILE)和TILE矩阵乘法单元(TMUL)。前者可以存储更大的数据块,后者是处理TILE的加速单元,可以在单次操作中计算更大的矩阵指令。
借助这一全新架构,英特尔AMX实现了显著的跨代性能提升。与运行英特尔高级向量扩展512神经网络指令(AVX-512 VNNI)的第三代英特尔至强可扩展处理器相比,运行英特尔AMX的第四代英特尔至强可扩展处理器在一个单位计算周期内执行INT8操作和BF16操作的次数增加到2048次,而第三代英特尔至强可扩展处理器仅执行FP32操作64次。
英特尔AMX先进的硬件特性为阿里巴巴的核心推荐模型带来了AI推理性能的突破,并保证了足够的准确率。此外,阿里巴巴还使用英特尔OneAPI深度神经网络库(Intel OneDNN)对CPU进行微调,以达到峰值效率。
下图显示,在AMX、BF16混合精度、8通道DDR5、更大缓存、更多内核、高效核间通信和软件优化的配合下,主流48核第四代英特尔至强可扩展处理器可将* *型号的吞吐率提升至2.89倍,超过主流32核第三代英特尔至强可扩展处理器,同时保持延迟严格低于15ms,推理精度仍能满足需求。
优化后的软硬件已经部署在阿里巴巴真实的商业环境中,并成功通过了一系列验证,符合阿里巴巴的生产标准,包括应对阿里巴巴双十一购物节期间的高峰负荷压力。
而且阿里巴巴发现升级到第四代英特尔至强可扩展处理器带来的性能收益远远高于硬件成本,投资收益非常明显。
美团:使用CPU搭载低流量长尾视觉AI推理,服务成本下降70%。
如前所述,美团在业务拓展中面临视觉AI推理服务成本高的挑战。其实这个问题并不是铁板一块:一些低流量长尾模型推理服务的负载压力和延迟要求相对较低,可以由CPU承载。
在几个可视化AI模型中,美团通过使用英特尔AMX加速技术,将模型数据类型从FP32动态转换为BF16,从而在精度损失可接受的情况下提高吞吐量和加速推理。
为了验证优化后的性能提升,美团将对比采用英特尔AMX加速技术转换的BF16模型与基准FP32模型的推理性能。如下测试数据所示,将模型转化为BF16后,模型的推理性能可以提升3.38-4.13倍,Top1和Top5的准确率损失可以控制在0.01%-0.03%。
得益于性能的提升,美团可以更充分地释放现有基础设施的潜力,降低高昂的GPU部署和运维成本,节省70%的服务成本。
百度:在CPU上运行蒸馏模型,解锁更多行业和场景。
众所周知,模型中更多的层和参数意味着更大的模型体积、更强的计算资源需求和更长的推理耗时,这对于对业务响应速度和构建成本敏感的用户来说,无疑提高了入门和使用的门槛。因此,模型小型化是NLP领域常见的优化方向。
百度也采用了这种方式,借助模型轻量级技术对ERNIE 3.0模型进行提炼和压缩,从而扩展到更多的行业和场景。这些轻量级模型(ERNIE-Tiny)不仅反应迅速,而且还有一个重要的优势:它们可以在没有昂贵的特殊AI计算设备的情况下部署。因此,引入更强的通用计算平台和优化方案,成为帮助ERNIE-Tiny实现更好效率的又一重要手段。
为此,百度与英特尔展开了深度的技术合作:一方面,将第四代英特尔至强可扩展处理器引入ERNIE-Tiny的推理和计算过程;另一方面,推动了多项优化措施,如通过英特尔OneAPI深度神经网络库调用英特尔AMX指令,确保ERNIE-Tiny能够充分利用AMX带来的性能加速红利。
对比测试的数据显示,与采用英特尔AVX-512 _ VNNi技术实现的单通道和双通道AI加速的第三代英特尔至强可扩展处理器相比,ERNIE-Tiny升级内置英特尔AMX技术的第四代英特尔至强可扩展处理器后,整体性能提升了2.66倍,取得了令人满意的效果。
目前,ERNIE-Tiny不仅已经部署在零门槛AI开发平台EasyDL、BML和ERNIEKit(旗舰版)中,还将配合平台和产品的其他能力,在基于第四代英特尔至强可扩展处理器的基础设施上,为用户提供文本分类、关系提取、文本生成和问答的能力。
从阿里巴巴、美团、百度的实践经验可以看出,在现实生产环境中,一些并不那么庞大的AI模型还是真的发挥了作用。这些机型已经部署了成熟的方案,可以借鉴,借助英特尔至强CPU和配套的软硬件加速方案,可以实现显著的性价比。
当然,随着AIGC的强势崛起,许多企业也将目光投向了这种更大的机型。但是,如前所述,无论是调用超大型模型API,还是自己训练部署,都有自己的问题。如何选择一个经济、高效、安全的解决方案,是企业面临的一个棘手问题。
AIGC时代来了,企业如何应对?
拥抱AIGC的企业是否意味着一定有一个“无所不知”的超级模特?对此,波士顿咨询公司(BCG)给出的答案是否定的。
他们选择的解决方案是用自己的数据训练一个特定行业的模型。这个模型可能没有那么大,但它可以洞察BCG过去50年的高度机密专有数据。同时,所有的AI训练和推理完全符合BCG的安全标准。
这个解决方案的背后是一台英特尔AI超级计算机,它配备了英特尔第四代至强可扩展处理器和Habana Gaudi2ai硬件加速器。前者在PyTorch上的AI训练性能可以达到上一代的10倍,后者在计算机视觉(ResNet-50)和自然语言处理(BERT微调)上优于NVIDIA A100,在计算机视觉上几乎等于H100。两者的结合为BCG提供了一套经济高效的AIGC解决方案。
在一个聊天机器人界面上,BCG的员工可以通过语义搜索,从冗长的多页文档列表中检索、提取和总结有效信息。BCG报告称,与现有的关键词搜索解决方案相比,其用户满意度提高了41%,结果准确率提高了25%,工作完成率提高了39%。
由此可见,无论是传统的中小型AI,还是目前前景看好的AIGC行业模式,GPU都不是AI加速的唯一选择。但无论是什么规模的机型,英特尔都提供了高性价比的软硬件结合解决方案。
对于希望应用AI提升效率的企业来说,选择什么规模的模式,建设什么样的软硬件基础设施,并没有标准答案。所谓的超大型模型和超大型GPU计算集群可能就没必要了。根据业务特点和属性,选择适合自己的技术方案是一个重要因素。
参考链接:
https://www . Intel . cn/content/www/cn/zh/人工智能/amx-Tencent-Bert-model-search-applications . html
https://www . Intel . cn/content/www/cn/zh/cloud-computing/Alibaba-e-comm-recommendation-system-enhancement . html
本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
原文地址"低成本ac+ap,成本直降70%的秘密:这些企业找到了一种高性价比的AI打开方式":http://www.ljycsb.cn/qukuailian/212671.html。

微信扫描二维码投放广告
▲长按图片识别二维码