回顾过去的时间点,英特尔是在年的8月17日正式公布的高性能显卡产品品牌——“IntelArc”,中文名称锐炫,一直到年3月30日,英特尔方正式揭开了它神秘的面纱。
从英特尔公布独显计划开始,英特尔造显卡一直是科技行业的热门话题。对消费者而言,终于在NVIDIA和AMD两家之外有了第三个选择,意味着新的竞争格局会给这个市场带来新的潮流与走向。按之前的披露,英特尔Xe-HPG锐炫显卡将会采用台积电6nm制程,放弃原有EU的基本模块,采用了全新的Xe核心,第一代XeHPG微构架核心的代号名为Alchemist(炼金术士),第二代与第三代将分别使名为Battlemage、Celestial,然后将是全新下一代Xe架构的Druid。可以看到,英特尔在Xe-HPG上的规划已经相当建全。
Part1.解读英特尔在GPU领域的积累
如果按历史进程来看,英特尔其实并非“显卡俱乐部”的新玩家,早在二十多年前,英特尔便尝试过开放独立显卡,一直以来,英特尔从未放弃过对高性能显卡的尝试。事实上,年英特尔拿出一款代号为”DG1”的显卡,便让用户们感到异常兴奋。但事实上,英特尔正式在市场中推出的却是移动端的独立显卡——代号为“Alchemist”的英特尔锐炫显卡。
首推移动端独显其实并不意外,按英特尔院士(主要负责图形创新)TomPetersen的解读:“英特尔最大的优势就是平台级的创新。之所以先从移动端平台开始发布我们的显卡,因为一直以来这都是我们的优势和强项,我们通过笔记本和移动端让用户感受到平台间的相互协作。在移动端笔记本的基础上,我们还可以提供更多的差异化特性,突出不同的体验。”
英特尔在移动端的优势非常明显,老用户应该记得,英特尔在从年推出迅驰平台起便统一了总线接口、无线规格、通用接口等笔记本平台的标准;随后在传统高速数据的雷电接口、用于视频编解码的IntelQuickSyncVideo,以及超极本、二合一创新形态、轻薄Evo平台上,都一直在增强移动端的平台化优势。
而且从Xe锐炬核显到Xe-HPG锐炫独显,英特尔事实上已经在显卡方面经历了数代积累,其实去年英特尔已经在构架日上推出一款由8个Xe组成的SoC——面向服务器的PonteVecchioGPU便给我们留下了很深的印象。
全新的A系列移动端独立显卡沿用了英特尔在CPU上的命名习惯,共分为3、5、7三大系列,其中3系列主要面向主流游戏、5系列面向性能游戏、7系列面向硬核性能游戏。其中3系列随着3月30日发布日开始正始向市面发售,而5、7系列则会在年初夏面市。关于英特尔的性能划分,接下来我会一一给大家分析。
不管哪个系列,英特尔A系列移动端独立显卡均会采用相同的显卡构架,也就是我们常提及的显卡各个功能性内核。如今,显卡越来越强调显卡在构架上的并行性,可以看到,Xe-HPG锐炫独显正在硬件层划分为内置XMX(矩阵引擎)的Xe内核、支持下一代编解码器标准的Xe媒体引擎,以及解决高输出规格的Xe显示引擎和新的图形管线,用来处理各种不同显示任务。所以在A系列移动端独立显卡之上,对DX12Ultimate终极版的支持、AI运算、视频编解码、显示输出和渲染着色等任务都是由不同引擎来负责的,这有利于分担Xe内核的运算负载。
Part2.看懂XeHPG微架构的优势
Xe内核
Xe内核正是XeHPG微架构上最小模块,刚才提及,它取代了之前集成显卡上EU的概念,它正是显卡的最基础执行单元,单个Xe内核的性能的强大与否,关系着这一代显卡的整体性能和能耗比。A系列移动端独立显卡的Xe内核包含了16个位宽的SIMD矢量引擎(XVE),负责为传统图形着色器执行大部分的运算;内核另外还包含16个矩阵引擎(XMX),每个引擎都是位宽,也就是专门为了AI加还运算使用的;为了满足矩阵、矢量和光线追踪单元的高带宽需求,每个Xe内核中均内置了一个KB的大型本地内存,可以根据每个工作负载的需要在L1缓存和共享本地内存(SLM)之间动态分配。
可以看到,Xe内核的功能相当全面,而且将矢量运算和AI运算放在同一内核中,可以根据响应负载类型灵活调用本地内存,运行效率更高。
矢量引擎(XVE)
矢量引擎(XVE)是Xe内核中的重要组成部分,可以看到英特尔改进了该引擎的ALU(算术逻辑单元),为浮点运算(FP)提供专用的执行端口。FP指令可以与整数运算(INT)指令同时运行,比如DP4a的快速INT8计算便是通过该引擎执行。
矩阵引擎(XMX)
Xe内核的另一部分则是全新的XMX矩阵引擎,它的任务便是为了强化AI加速能力,用于高吞吐量矩阵乘法,涵盖包括BF16和INT8等最常见的AI数据类型。
刚才我已经提及将矢量引擎(XVE)和矩阵引擎(XMX)放在同一个Xe内核中可以灵活调用本地内存的好处,我们来看在实现数据执行中,不同引擎的执行效率。MAC是图形中使用的基本SIMD矢量指令,相当于每个时钟执行16个Ops(8次并行运算乘法+8次并行加法);DP4a是针对不需要32位精度的AI计算所做的优化,总共是32次并行乘法;矩阵引擎通过将乘法累加4深度流水线化,相当于总共执行了64次操作的4个阶段,共次操作。
所以,不同的引擎可以实现浮点FP、整数INT和XMX指令的并行处理,以锁步形式实现两个引擎的并行和资源共享,以获得更高的算力与执行效率。
渲染切片(RenderingSlice)
渲染切片(RenderingSlice)可以理解为Xe内核的上一层单位,它是可重用IP的基本构建块。在Xe-HPG微架构里,每4个Xe内核组成了一个渲染切片。在每个渲染切片中,还包含了网格着色器、采样器反馈,以及四个硬件光追加速器等功能性模块,以实现对DX12Ultimate的支持和对实时光线追踪功能的支持。
再向上,渲染切片便可用来构建不同的SoC,也就是不同的A系列移动端独立显卡,目前发布的产品最少包含两个渲染切片,最大八个。可以看到,Xe-HPG微架构是不是有搭积木的即视感,这正是该构架的优势所在——配置灵活。除此之外,它的能耗比也有相当明显的提升,相对上一代产品Xe-LP微架构,其每瓦性能提升了1.5倍。
Part3.A系列移动端独立显卡的重要特征
讲完了XeHPG微架构的构成和优势,其实很多朋友都基本了解A系列移动端独立显卡的一些重要特征。当然,我还是进一步将其展开来聊一聊,便于了解英特尔在这些领域的进度。
XeSS超级采样
英特尔在构架日发布Arc品牌时便公布了XeSS超级采样的技术,从构架上来看,这项技术也是根植于Xe内核之中,由XMX矩阵引擎作为它的硬件执行单位。从英特尔披露的技术特征来看,XeSS有别于市面上普通的空间放大(Spatialupscaler)技术并不相同,是通过神经网络辅助运动矢量运算,重新渲染低分辨率画面,生成更为真实的高分辨率画面。这项技术与NVIDIA的DLSS类似。
XeSS超级采样技术需要游戏厂商的支持,在今年的CES之上,英特尔便公布了Games的《死亡搁浅:导演剪辑版》便支持了该技术,至A系列移动端独立显卡正始发布之日,已经有14款游戏完成了对XeSS的支持。可以看到,这个进度是比较快的,而且随着装载A系列移动端独立显卡的笔记本越来越多地面市,会有更多游戏厂商将会支持该功能。
Xe媒体引擎
Xe媒体引擎是A系列移动端独立显卡的一项重要技术进步,它集成了英特尔号称“最先进的媒体加速器之一”可以看到,除了H./HEVC、H./MPEG-4/AVC、VP9等主要媒体格式,该引擎是业界首次实现AV1编码和解码的硬件加速支持,其硬件编码速度比CPU软件编码快了50倍。这也意味着装载A系列移动端独立显卡的笔记本电脑进行媒体编解码工作时,最大可能释放CPU的性能,帮助电脑同时进行更多任务。
Xe显示引擎
与其他显卡构架不同,英特尔专门为A系列移动端独立显卡构建了一个独立的Xe显示引擎,用于高规格的显示输出。它支持如今笔记本上广泛兼容的HDMI2.0b和DP1.4a的规格,支持向单台p
Hz或4台4kHzHDR的显示器输出。为解决显示高帧率画面撕裂的问题,英特尔自研发了SpeedSync,并同时支持VESA标准的AdaptiveSync,特别是自研的SpeedSync,可以有效避免以往V-Sync带来的高延迟问题。Xe显示引擎上,还有一项英特尔独创的SmoothSync功能,它以插件形式集成在锐炫显卡之上。这项功能的原理是通过模糊化两个撕裂帧之间的边界,来减少视觉失真。这个插件无需编码,系统负载比帧同步技术低得多。
Part4.A系列显卡的参数与性能
Alchemist,也就是A系列移动端独立显卡采用了两种SoC封装,可以简单称其为“大芯片”和“小芯片”,大芯片的代号为ACM-G10,共有32个Xe内核和光追单元(也就是8个渲染切片),提供16MB的L2缓存,位GDDR6接口和16路PCIe4接口;小芯片的代号为ACM-G11,配置为8个Xe内核和光追单元、4MBL2缓存,96位显存接口,8路PCIe4接口。两款芯片均包含两个Xe多功能编解码引擎和4路显示输出引擎。
从产品来参数来看,锐炫3系列共包含AM和AM两款,提供了6个和8个两种Xe内核和光追单元数量,功耗设计和显卡时种频率均不相同,采用了相同的4GB64位宽的GDDR6独立显存;锐炫5系列仅有一款AM,采用了16个Xe内核和光追单元数量;锐炫7系列同样有两个配置,分别是24个Xe内核和光追单元数量的AM和32个Xe内核和光追单元数量的AM,其中AM的显存高达16GB位,显卡功率也达到~W。
刚才已经提及,A系列移动端独立显卡全系列支持DirectX12Ultimate,支持光线追踪、可变速率着色、网格着色和采样器反馈。除硬件级光追外,诸如可变速率着色,能让应用例如游戏告知显卡,场景中哪些部分需要更高的细节,哪些部分可以适当减少,从而加快当前帧的渲染,最终提高游戏帧率。
以AM为例,这款显卡基本定位于p之下以中、高画质畅玩主流游戏,它相对12代酷睿移动处理器的核显有两倍的性能提升。英特尔公布的测试成绩中,诸如《杀手3》《毁灭战士:永恒》《重返德军总部:新血脉》等游戏,均能以中、高画质实现60~80fps的帧率表现。
在《堡垒之夜》《GTA》这样的竞技游戏中,可以看到AM可以在p分辨率下跑到90fps以上。
在创作类软件中,诸如常用的Handbrake、Dvinci、PremierePro,均有不同性能的提升,特别是PremierePro中的两个典型场景应用,有着超过锐炬显卡1.8X和2.4X的性能表现。
Part5.A系列显卡背后的驱动力
仅在硬件层面去看英特尔A系列移动端独立显卡是不全面的,它背后还有众多技术针对不同层面的性能提升提供了驱动力,为了方便用户理解,英特尔将其打包为IntelDeepLink,它事实上包含了三个方面的技术:动态功率共享、超级编码和超级算力。
在动态功率共享功能上,英特尔其实早在年,也就是Kobe-LakeG时代便推出了第一版的动态功率共享功能,在CPU裸片和GPU裸片之间动态分配功率。如今的A系列独立显卡上,应用了英特尔最新的算法,通过循环采集各种CPU和GPU的温度、占用率、各自的功耗等各种系统信息,特别是在游戏中GPU负载过高时的GPUBound的场景时,动态调整GPU和CPU的功率配比,将更多的功率分配给GPU。CPU高功耗场景中,反之亦然。目前,该功能的调整最小间隔仅需毫秒。
超级编码技术是通过整合笔记本电脑现有的编解码硬件能力,同时运用集成显卡和独立显卡的编解码引擎来提升编解码效率。这种协作是通过OneVPL的API接口来实现的,通过特定的API函数按组被分配到不同的多媒体引擎上并行处理。
通过同样的逻辑,英特尔还可让整个系统都参与到内容创作中来,为之设计的这样一个基于机器学习的服务被称为MLS。MLS是OpenVino中的一个框架,它能智能的把负载分配给不同的算力模块。同样是基于轮询显卡的延迟敏感度、吞吐量、性能要求、功率消耗等负载特征,将负载分配给独立显卡、集成显卡,或者CPU。仔细看来,DeepLink的三项功能其实在运行逻辑和资源调集上都是有内在联系的,所以将其整体为一个技术并不奇怪。
非常有意思的是,IntelDeepLink技术基于笔记本电脑的现有构架,最大可能地调集笔记本电脑的所有硬件资源,在配备独立显卡之后,针对一项工作同样能够最大限度调集集成显卡和CPU的剩余资源,以提升整机效率。
针对这项技术,我特别询问了英特尔图形产品管理总监DevonNekechuk。Devon提及:“IntelDeepLink技术在动态功率共享上是针对整体性能的,但超级编码、超级算力则需要与不同的ISV(软件开发商)去合作。当然,对用户来说,英特尔基于人工智能的MLS引擎是透明的,软件算法集成到较靠底层的软件库中,系统是自动根据负载做出调配的,不需要人为干预。而ISV则可以通过深度定制,对整个系统进行、打通上下层的软件,进一步提升效率。目前,英特尔已经合DaVinciResolve、Handbrake等重要的内容创作软件实现了深度匹配。”
基于现有的硬件构架,IntelDeepLink技术在动态功率共享上能够实现30%的性能提升,超级编码上提供60%的性能提升,结合XMX矩阵引擎,可实现24%的性能提升。是否每款A系列移动端独立显卡都拥有相同的性能提升能力,等到真机入手时我会给大家一一测试。
Part6.A系列显卡笔记本预览
首先发布的A系列移动端独立显卡为锐炫3系列,它也将主要搭载在Evo平台的轻薄本之上。据英特尔宣称,搭载锐炫3独显和12代酷睿CPU的Evo轻薄本依旧拥有超过9小时的电池续航能力,这一点也是对A系列独立显卡在能耗比表现上的印证。
全球首款搭载锐炫显卡的笔记本已经面市,为搭载锐炫AM的三星GalaxyBook2Pro,目前国内暂时看不到这款产品,不过从第二季度开始,包含宏碁、华硕、蓝天电脑、戴尔、技嘉、海尔、惠普、联想、三星、微星和NEC等各大OEM厂商将推出搭载锐炫3系列独显的产品,而锐炫5、7系列的笔记也将在今年夏天陆续面市。
随着锐炫独显笔记本的上市,所有锐炫独显均会装载一个统一的显卡管理软件——ArcControl。它提供了快速升级、实时查看显卡性能的工作负载,以及直播、串流用到的相关设置,比如开启直播功能将游戏精彩的画面分享到直播平台上、开启虚拟摄像头将背景移除、自动调整画面比例,并截取和保存游戏中的高光时刻等功能,目前,已经有10个游戏支持抓取游戏截图或者视频的功能。
Part7.写在最后
关于英特尔锐炫A系列移动端独立显卡的解读内容暂时就给大家报告到这里,不过关于产品的报道对于我们来说才刚刚开始。相信大家跟我们一样,对于A系列移动端独立显卡在笔记本上的真实表现非常感兴趣。而且随着英特尔独显的上市,无疑会给市场引起剧烈的化学反应,也会带来一系列的不确定因素:比如英特尔的轻薄独显本性能如何?价格是否有优势?开放给其他厂商后是否会接招?游戏厂商、软件厂商对XeSS、DeepLink等软件的跟进力度如何?一切话题我们都会高度跟进。