电子发烧友网报道(文/黄晶晶)据预测,计算到2026年底中国道路上将有超过100万辆搭载L3级别ADAS(高级驾驶辅助系统)的平台汽车。到今年年底,生态中国将有超过1.7 亿台支持AI的合作智能手机,55% 的宣告PC 将支持AI功能。同时,智能终端AI 数据中心将增长5倍。全面从这组数据中,计算我们已经看到AI正在快速地推进众多行业的平台智能化进程。当前首要任务是生态夯实AI底座,构建一个强大的合作生态系统,为AI应用打下坚实的宣告根基,从而助力其实现指数级增长。智能终端
在最近举办的全面ArmTech Symposia年度技术大会上,Arm终端事业部产品管理副总裁James McNiven表示,计算在过去的三十多年里,Arm一直致力于打造全球最大的计算平台,并以无与伦比的能源效率著称。凭借Arm的行业洞察和数十年与生态伙伴的合作,Arm的计算平台正持续推动新一代生态系统合作伙伴关系的发展。正如 Arm 曾经助力智能手机的崛起,Arm 也将成为AI计算平台的驱动者。
图:Arm终端事业部产品管理副总裁James McNiven
大会期间,James说道:“我们正面临全新的需求,无论是算力、性能、能效,还是上市时间的需求都在不断提升。”在谈及Arm如何以超越硬件的设计方法助力AI应用时,James分享:“要想充分释放 AI 的潜力,我们需要从系统层面思考问题,将硬件、软件和生态无缝集成到一个全面的解决方案,使其具备卓越的可扩展性、性能和能效,并且能够加速产品上市。”
以硬件为基石
Arm推出的计算子系统 (CSS),正是为客户提供优化的解决方案,强大的软件生态系统,以及更快的上市时间。该解决方案主要聚焦于异构计算并实现对系统多种计算要素的优化协作,实现高效率的软件编写方式、易用且可扩展的全球解决方案,让开发者能够针对硬件进行开发。
James强调,Arm多年来持续投资Armv9架构。在过去几年中,通过加入许多以 AI 为核心的功能,使该架构适用于未来发展,而这一进程还在持续。十多年前,Arm首次将 AI 功能引入 Arm 架构,随后在 Armv8 架构中引入了64位技术,但真正开启AI时代的,则是 Armv9。
这其中包括两大关键技术,可伸缩向量扩展 (SVE)和可伸缩矩阵扩展 (SME)。
SVE2 已应用于一些领先的计算产品中,如全新的天玑 9400,可加速工作负载,惠及开发者和终端用户。SVE2 提升了视频和图像处理,提供更好的照片质量。
SME新一代架构功能将为开发者提供通用指令集,使其能够一次在多个硬件平台上实现 Arm 架构中的加速效果。
James表示,未来十年的Arm计算平台将持续为 AI 而优化,所有功能将通过软硬件能力的结合来实现。
以软件为中心
在传统的、AI 热潮兴起前的初创公司中,硬件和软件工程师的比例大约是 50/50。但现在这一比例变成了 10/90,即10% 的硬件工程师和90%的软件工程师。软件的地位已经压倒性地提升,而围绕软件构建的复杂性也在持续增长。
针对这一趋势,James表示,Arm 聚焦于整体的技术栈,从底层硬件到整个技术栈中的软件和应用程序。Arm已投入 30 多年来编写和优化软件,软件始终是 Arm 计算平台不可或缺的一部分。未来技术将变得更加复杂,并且需要大量的支持。软件的开发成本高且耗时,因此投资策略也必须不断进化。
Arm相信我们正处于以软件为中心的未来。目前已有2000万名开发者在Arm平台上进行软件开发。受到如此多的开发者青睐,正是因为Arm 拥有全球最大的计算平台,这形成了良性循环,即更多的硬件吸引更多开发者开发软件,进而推动对高能效硬件的需求,彼此互为循环。这一过程贯穿整个技术栈,从底层的操作系统到顶层的应用程序和用户与科技的互动方式。一致的计算平台为开发者提供了信心,使他们能够编写出可在当前数十亿台Arm 硬件上良好运行的软件。
为了进一步以技术赋能开发者,Arm正在抽象化许多硬件相关的技术细节,真正实现对开发者友善的设计,让他们能专注于打造优秀的软件与简单的整合。
其今年中旬发布的KleidiAI,是一款致力于提升人工智能计算性能的软件库,旨在通过与主流AI框架的深度集成,为开发者无缝获取底层硬件架构的高性能。目前KleidiAI已与PyTorch、TensorFlow和MediaPipe等热门框架集成,能够显著优化如Meta Llama 3和Phi-3等大型语言模型的性能。在本次年度大会上,Arm还宣布其与腾讯合作,通过 KleidiAI 集成提升混元大模型端侧 AI 性能,为腾讯众多应用场景提供卓越的 AI 体验。当与Arm终端CSS结合使用时,KleidiAI借助Neon、SVE2和SME2等技术实现了性能的显著提升,特别是在生成式AI应用中的效率得到了极大的优化。
James解析,Kleidi 技术可以用于加速Armv9 和Armv8 架构。最初的版本实际上是覆盖 Neon 指令集,而Arm陆续新增了 SVE (可伸缩向量扩展)、SVE2 和 SME (可伸缩矩阵扩展)等新架构功能。因此,它将适用于多个不同版本的架构,包括 Armv8、Armv9.0,乃至目前最新的Armv9.2。
Kleidi 技术以其卓越的性能给人留下深刻印象,通过集成 Kleidi,腾讯混元大模型的预填充部分加速了 100%,而解码器的速度提高了 10%。这些性能改善有助于实现更快、更高效的 AI 操作。其应用范围从发布伊始的终端市场,已经扩展到云端应用,例如在基于Arm架构的 AWS Graviton 处理器上运行Llama 3 模型时,词元 (token) 首次响应时间可提高2.5 倍。
在谈及Kleidi未来的发展,James表示:“随着 Kleidi 的逐步普及和更多开发者的参与,我们将看到更多的优化。作为开源生态系统的一部分,我们期待开发者为其贡献力量,从而在整个 Arm 生态系统中实现更广泛的协作。”
此外,在此次大会期间,Arm也展示了其对生态系统合作的重视。今年,Arm与vivo持续深化合作,宣布成立联合实验室,分别发挥各自在技术赋能和用户理解领域的优势,为用户带来卓越的 AI 体验,这成为Arm生态合作的一个优秀范例。此外,Arm还与合作伙伴携手,积极推进产业标准化进程,旨在构建一个健康、可持续的Arm生态系统。James 表示,Arm正在思考如何打造一个软件库,通过将其集成到合作伙伴的软件中,让这些应用能够在包括移动终端在内的端侧领域,充分发挥 Arm CPU的性能优势。同时,Arm也将持续投入软件,例如,在企业场景中提供支持,通过与 Linaro 的合作,持续强化对 Linux的支持,在固件标准(如 UEFI)上的贡献,以及对一些开源工具的支持等,尽可能减少产业的碎片化。
Arm加快AI PC进程
Arm正在加紧建设AI PC的相关生态。目前Windows on Arm 平台已成功运行很多原生应用程序,并配备了丰富的开发工具,而且越来越多的创新应用正在涌现,如爱奇艺、哔哩哔哩和搜狗等原生支持 Windows on Arm 的应用,可以充分利用AI PC的全部AI功能。未来,用户将会看到更多、更加卓越的使用体验。
Arm正与包括微软在内的多家合作伙伴携手合作,继续深化Arm的AI PC进程。现在微软已经推出了专门针对Arm 架构的 Windows 11 系统。谈到业内担心的基于Arm 架构运行时面临的软件兼容和生态问题,James解释道:“我们持续和微软合作,通过微软提供的仿真环境,我们也为应用程序的开发者提供更多指引和建议。根据微软的统计,其 PC 用户投入在笔记本电脑上的时间,大约 90% 是用在原生应用上,表明了目前 WoA 原生应用的用户体验得到了显著提升。”
小结:
预计到2025年,将会有1,000亿台基于 Arm 架构的设备可用于AI,这其中包括广泛的面向边缘 AI 的产品,从Arm Cortex-M到 Arm Cortex-A涵盖了不同的性能水平和功耗需求。而Arm终端CSS、KleidiAI以及广泛的生态合作,将助力开发者更方便快捷地释放AI技术的潜力。