借助平台化优势英特尔锐炫A系列独显首发移 - 窦性心动过缓

TUhjnbcbe - 2024/2/27 15:57:00

回顾过去的时间点，英特尔是在年的8月17日正式公布的高性能显卡产品品牌——“IntelArc”，中文名称锐炫，一直到年3月30日，英特尔方正式揭开了它神秘的面纱。

从英特尔公布独显计划开始，英特尔造显卡一直是科技行业的热门话题。对消费者而言，终于在NVIDIA和AMD两家之外有了第三个选择，意味着新的竞争格局会给这个市场带来新的潮流与走向。按之前的披露，英特尔Xe-HPG锐炫显卡将会采用台积电6nm制程，放弃原有EU的基本模块，采用了全新的Xe核心，第一代XeHPG微构架核心的代号名为Alchemist（炼金术士），第二代与第三代将分别使名为Battlemage、Celestial，然后将是全新下一代Xe架构的Druid。可以看到，英特尔在Xe-HPG上的规划已经相当建全。

Part1.解读英特尔在GPU领域的积累

如果按历史进程来看，英特尔其实并非“显卡俱乐部”的新玩家，早在二十多年前，英特尔便尝试过开放独立显卡，一直以来，英特尔从未放弃过对高性能显卡的尝试。事实上，年英特尔拿出一款代号为”DG1”的显卡，便让用户们感到异常兴奋。但事实上，英特尔正式在市场中推出的却是移动端的独立显卡——代号为“Alchemist”的英特尔锐炫显卡。

首推移动端独显其实并不意外，按英特尔院士（主要负责图形创新）TomPetersen的解读：“英特尔最大的优势就是平台级的创新。之所以先从移动端平台开始发布我们的显卡，因为一直以来这都是我们的优势和强项，我们通过笔记本和移动端让用户感受到平台间的相互协作。在移动端笔记本的基础上，我们还可以提供更多的差异化特性，突出不同的体验。”

英特尔在移动端的优势非常明显，老用户应该记得，英特尔在从年推出迅驰平台起便统一了总线接口、无线规格、通用接口等笔记本平台的标准；随后在传统高速数据的雷电接口、用于视频编解码的IntelQuickSyncVideo，以及超极本、二合一创新形态、轻薄Evo平台上，都一直在增强移动端的平台化优势。

而且从Xe锐炬核显到Xe-HPG锐炫独显，英特尔事实上已经在显卡方面经历了数代积累，其实去年英特尔已经在构架日上推出一款由8个Xe组成的SoC——面向服务器的PonteVecchioGPU便给我们留下了很深的印象。

全新的A系列移动端独立显卡沿用了英特尔在CPU上的命名习惯，共分为3、5、7三大系列，其中3系列主要面向主流游戏、5系列面向性能游戏、7系列面向硬核性能游戏。其中3系列随着3月30日发布日开始正始向市面发售，而5、7系列则会在年初夏面市。关于英特尔的性能划分，接下来我会一一给大家分析。

不管哪个系列，英特尔A系列移动端独立显卡均会采用相同的显卡构架，也就是我们常提及的显卡各个功能性内核。如今，显卡越来越强调显卡在构架上的并行性，可以看到，Xe-HPG锐炫独显正在硬件层划分为内置XMX（矩阵引擎）的Xe内核、支持下一代编解码器标准的Xe媒体引擎，以及解决高输出规格的Xe显示引擎和新的图形管线，用来处理各种不同显示任务。所以在A系列移动端独立显卡之上，对DX12Ultimate终极版的支持、AI运算、视频编解码、显示输出和渲染着色等任务都是由不同引擎来负责的，这有利于分担Xe内核的运算负载。

Part2.看懂XeHPG微架构的优势

Xe内核

Xe内核正是XeHPG微架构上最小模块，刚才提及，它取代了之前集成显卡上EU的概念，它正是显卡的最基础执行单元，单个Xe内核的性能的强大与否，关系着这一代显卡的整体性能和能耗比。A系列移动端独立显卡的Xe内核包含了16个位宽的SIMD矢量引擎（XVE），负责为传统图形着色器执行大部分的运算；内核另外还包含16个矩阵引擎（XMX），每个引擎都是位宽，也就是专门为了AI加还运算使用的；为了满足矩阵、矢量和光线追踪单元的高带宽需求，每个Xe内核中均内置了一个KB的大型本地内存，可以根据每个工作负载的需要在L1缓存和共享本地内存（SLM）之间动态分配。

可以看到，Xe内核的功能相当全面，而且将矢量运算和AI运算放在同一内核中，可以根据响应负载类型灵活调用本地内存，运行效率更高。

矢量引擎（XVE）

矢量引擎（XVE）是Xe内核中的重要组成部分，可以看到英特尔改进了该引擎的ALU（算术逻辑单元），为浮点运算（FP）提供专用的执行端口。FP指令可以与整数运算（INT）指令同时运行，比如DP4a的快速INT8计算便是通过该引擎执行。

矩阵引擎（XMX）

Xe内核的另一部分则是全新的XMX矩阵引擎，它的任务便是为了强化AI加速能力，用于高吞吐量矩阵乘法，涵盖包括BF16和INT8等最常见的AI数据类型。

刚才我已经提及将矢量引擎（XVE）和矩阵引擎（XMX）放在同一个Xe内核中可以灵活调用本地内存的好处，我们来看在实现数据执行中，不同引擎的执行效率。MAC是图形中使用的基本SIMD矢量指令，相当于每个时钟执行16个Ops（8次并行运算乘法+8次并行加法）；DP4a是针对不需要32位精度的AI计算所做的优化，总共是32次并行乘法；矩阵引擎通过将乘法累加4深度流水线化，相当于总共执行了64次操作的4个阶段，共次操作。

所以，不同的引擎可以实现浮点FP、整数INT和XMX指令的并行处理，以锁步形式实现两个引擎的并行和资源共享，以获得更高的算力与执行效率。

渲染切片（RenderingSlice）

渲染切片（RenderingSlice）可以理解为Xe内核的上一层单位，它是可重用IP的基本构建块。在Xe-HPG微架构里，每4个Xe内核组成了一个渲染切片。在每个渲染切片中，还包含了网格着色器、采样器反馈，以及四个硬件光追加速器等功能性模块，以实现对DX12Ultimate的支持和对实时光线追踪功能的支持。

再向上，渲染切片便可用来构建不同的SoC，也就是不同的A系列移动端独立显卡，目前发布的产品最少包含两个渲染切片，最大八个。可以看到，Xe-HPG微架构是不是有搭积木的即视感，这正是该构架的优势所在——配置灵活。除此之外，它的能耗比也有相当明显的提升，相对上一代产品Xe-LP微架构，其每瓦性能提升了1.5倍。

Part3.A系列移动端独立显卡的重要特征

讲完了XeHPG微架构的构成和优势，其实很多朋友都基本了解A系列移动端独立显卡的一些重要特征。当然，我还是进一步将其展开来聊一聊，便于了解英特尔在这些领域的进度。

XeSS超级采样

英特尔在构架日发布Arc品牌时便公布了XeSS超级采样的技术，从构架上来看，这项技术也是根植于Xe内核之中，由XMX矩阵引擎作为它的硬件执行单位。从英特尔披露的技术特征来看，XeSS有别于市面上普通的空间放大（Spatialupscaler）技术并不相同，是通过神经网络辅助运动矢量运算，重新渲染低分辨率画面，生成更为真实的高分辨率画面。这项技术与NVIDIA的DLSS类似。

XeSS超级采样技术需要游戏厂商的支持，在今年的CES之上，英特尔便公布了Games的《死亡搁浅：导演剪辑版》便支持了该技术，至A系列移动端独立显卡正始发布之日，已经有14款游戏完成了对XeSS的支持。可以看到，这个进度是比较快的，而且随着装载A系列移动端独立显卡的笔记本越来越多地面市，会有更多游戏厂商将会支持该功能。

Xe媒体引擎

Xe媒体引擎是A系列移动端独立显卡的一项重要技术进步，它集成了英特尔号称“最先进的媒体加速器之一”可以看到，除了H./HEVC、H./MPEG-4/AVC、VP9等主要媒体格式，该引擎是业界首次实现AV1编码和解码的硬件加速支持，其硬件编码速度比CPU软件编码快了50倍。这也意味着装载A系列移动端独立显卡的笔记本电脑进行媒体编解码工作时，最大可能释放CPU的性能，帮助电脑同时进行更多任务。

Xe显示引擎

与其他显卡构架不同，英特尔专门为A系列移动端独立显卡构建了一个独立的Xe显示引擎，用于高规格的显示输出。它支持如今笔记本上广泛兼容的HDMI2.0b和DP1.4a的规格，支持向单台p

Hz或4台4k

HzHDR的显示器输出。为解决显示高帧率画面撕裂的问题，英特尔自研发了SpeedSync，并同时支持VESA标准的AdaptiveSync，特别是自研的SpeedSync，可以有效避免以往V-Sync带来的高延迟问题。

Xe显示引擎上，还有一项英特尔独创的SmoothSync功能，它以插件形式集成在锐炫显卡之上。这项功能的原理是通过模糊化两个撕裂帧之间的边界，来减少视觉失真。这个插件无需编码，系统负载比帧同步技术低得多。

Part4.A系列显卡的参数与性能

Alchemist，也就是A系列移动端独立显卡采用了两种SoC封装，可以简单称其为“大芯片”和“小芯片”，大芯片的代号为ACM-G10，共有32个Xe内核和光追单元（也就是8个渲染切片），提供16MB的L2缓存，位GDDR6接口和16路PCIe4接口；小芯片的代号为ACM-G11，配置为8个Xe内核和光追单元、4MBL2缓存，96位显存接口，8路PCIe4接口。两款芯片均包含两个Xe多功能编解码引擎和4路显示输出引擎。

从产品来参数来看，锐炫3系列共包含AM和AM两款，提供了6个和8个两种Xe内核和光追单元数量，功耗设计和显卡时种频率均不相同，采用了相同的4GB64位宽的GDDR6独立显存；锐炫5系列仅有一款AM，采用了16个Xe内核和光追单元数量；锐炫7系列同样有两个配置，分别是24个Xe内核和光追单元数量的AM和32个Xe内核和光追单元数量的AM，其中AM的显存高达16GB位，显卡功率也达到~W。

刚才已经提及，A系列移动端独立显卡全系列支持DirectX12Ultimate，支持光线追踪、可变速率着色、网格着色和采样器反馈。除硬件级光追外，诸如可变速率着色，能让应用例如游戏告知显卡，场景中哪些部分需要更高的细节，哪些部分可以适当减少，从而加快当前帧的渲染，最终提高游戏帧率。

以AM为例，这款显卡基本定位于p之下以中、高画质畅玩主流游戏，它相对12代酷睿移动处理器的核显有两倍的性能提升。英特尔公布的测试成绩中，诸如《杀手3》《毁灭战士：永恒》《重返德军总部：新血脉》等游戏，均能以中、高画质实现60~80fps的帧率表现。

在《堡垒之夜》《GTA》这样的竞技游戏中，可以看到AM可以在p分辨率下跑到90fps以上。

在创作类软件中，诸如常用的Handbrake、Dvinci、PremierePro，均有不同性能的提升，特别是PremierePro中的两个典型场景应用，有着超过锐炬显卡1.8X和2.4X的性能表现。

Part5.A系列显卡背后的驱动力

仅在硬件层面去看英特尔A系列移动端独立显卡是不全面的，它背后还有众多技术针对不同层面的性能提升提供了驱动力，为了方便用户理解，英特尔将其打包为IntelDeepLink，它事实上包含了三个方面的技术：动态功率共享、超级编码和超级算力。

在动态功率共享功能上，英特尔其实早在年，也就是Kobe-LakeG时代便推出了第一版的动态功率共享功能，在CPU裸片和GPU裸片之间动态分配功率。如今的A系列独立显卡上，应用了英特尔最新的算法，通过循环采集各种CPU和GPU的温度、占用率、各自的功耗等各种系统信息，特别是在游戏中GPU负载过高时的GPUBound的场景时，动态调整GPU和CPU的功率配比，将更多的功率分配给GPU。CPU高功耗场景中，反之亦然。目前，该功能的调整最小间隔仅需毫秒。

超级编码技术是通过整合笔记本电脑现有的编解码硬件能力，同时运用集成显卡和独立显卡的编解码引擎来提升编解码效率。这种协作是通过OneVPL的API接口来实现的，通过特定的API函数按组被分配到不同的多媒体引擎上并行处理。

通过同样的逻辑，英特尔还可让整个系统都参与到内容创作中来，为之设计的这样一个基于机器学习的服务被称为MLS。MLS是OpenVino中的一个框架，它能智能的把负载分配给不同的算力模块。同样是基于轮询显卡的延迟敏感度、吞吐量、性能要求、功率消耗等负载特征，将负载分配给独立显卡、集成显卡，或者CPU。仔细看来，DeepLink的三项功能其实在运行逻辑和资源调集上都是有内在联系的，所以将其整体为一个技术并不奇怪。

非常有意思的是，IntelDeepLink技术基于笔记本电脑的现有构架，最大可能地调集笔记本电脑的所有硬件资源，在配备独立显卡之后，针对一项工作同样能够最大限度调集集成显卡和CPU的剩余资源，以提升整机效率。

针对这项技术，我特别询问了英特尔图形产品管理总监DevonNekechuk。Devon提及：“IntelDeepLink技术在动态功率共享上是针对整体性能的，但超级编码、超级算力则需要与不同的ISV（软件开发商）去合作。当然，对用户来说，英特尔基于人工智能的MLS引擎是透明的，软件算法集成到较靠底层的软件库中，系统是自动根据负载做出调配的，不需要人为干预。而ISV则可以通过深度定制，对整个系统进行、打通上下层的软件，进一步提升效率。目前，英特尔已经合DaVinciResolve、Handbrake等重要的内容创作软件实现了深度匹配。”

基于现有的硬件构架，IntelDeepLink技术在动态功率共享上能够实现30%的性能提升，超级编码上提供60%的性能提升，结合XMX矩阵引擎，可实现24%的性能提升。是否每款A系列移动端独立显卡都拥有相同的性能提升能力，等到真机入手时我会给大家一一测试。

Part6.A系列显卡笔记本预览

首先发布的A系列移动端独立显卡为锐炫3系列，它也将主要搭载在Evo平台的轻薄本之上。据英特尔宣称，搭载锐炫3独显和12代酷睿CPU的Evo轻薄本依旧拥有超过9小时的电池续航能力，这一点也是对A系列独立显卡在能耗比表现上的印证。

全球首款搭载锐炫显卡的笔记本已经面市，为搭载锐炫AM的三星GalaxyBook2Pro，目前国内暂时看不到这款产品，不过从第二季度开始，包含宏碁、华硕、蓝天电脑、戴尔、技嘉、海尔、惠普、联想、三星、微星和NEC等各大OEM厂商将推出搭载锐炫3系列独显的产品，而锐炫5、7系列的笔记也将在今年夏天陆续面市。

随着锐炫独显笔记本的上市，所有锐炫独显均会装载一个统一的显卡管理软件——ArcControl。它提供了快速升级、实时查看显卡性能的工作负载，以及直播、串流用到的相关设置，比如开启直播功能将游戏精彩的画面分享到直播平台上、开启虚拟摄像头将背景移除、自动调整画面比例，并截取和保存游戏中的高光时刻等功能，目前，已经有10个游戏支持抓取游戏截图或者视频的功能。

Part7.写在最后

关于英特尔锐炫A系列移动端独立显卡的解读内容暂时就给大家报告到这里，不过关于产品的报道对于我们来说才刚刚开始。相信大家跟我们一样，对于A系列移动端独立显卡在笔记本上的真实表现非常感兴趣。而且随着英特尔独显的上市，无疑会给市场引起剧烈的化学反应，也会带来一系列的不确定因素：比如英特尔的轻薄独显本性能如何？价格是否有优势？开放给其他厂商后是否会接招？游戏厂商、软件厂商对XeSS、DeepLink等软件的跟进力度如何？一切话题我们都会高度跟进。