首页资讯科技 移动图形概论

移动图形概论

张平在上一期的文章中,我们介绍了ARM Cortex-X2、Cortex-A710和Cortex-A510三款全新微架构,它们的出现进一步推高了移动计算CPU的性能上限。而在本次发布会上,除了新的CPU架构之外,ARM还发布了全新的GPU架…

移动图形概论

张平

在上一篇文章中,我们介绍了三种新的微架构,即ARM Cortex-X2、Cortex-A710和Cortex-A510。它们的出现进一步推高了移动计算CPU的性能极限。在本次大会上,除了全新的CPU架构,ARM还发布了全新的GPU架构和片上架构。在本文中,我们一起来了解一下这些内容。

在上一篇文章中,我们提到ARM发布了CPU、GPU以及相关的片上架构。由于篇幅所限,上一期只介绍了最重要的CPU架构。其实片上架构也很重要,比如大。LITTLE、DynamIQ和互连总线,这些都要通过片上架构来实现。所以这一期我们就先了解一下片上架构的内容,然后再深入了解一下新的ARM GPU架构。

更宽的带宽和更强的性能:新型ARM DSU—110L3及其互连架构设计

移动SoC是一个复杂的综合体,它包括CPU、GPU、系统级L3、大量互联的组件和其他相关模块。因此,在此次更新中,ARM也直接升级了L3和互联设计,以更好地适应新的架构。ARM DSU-110 L3:带宽增加

ARM DSU-110包含了一个全新的集群和L3架构,这是继ARM之前发布DynamIQ之后,关于L3和集群的新设计方案,其中包含了运行模式的重大变化。

ARM声称,新的DSU-110具有出色的可扩展性,可以为大屏幕设备和较小的移动设备设计。从ARM给出的例子可以看出,DSU-110可以搭配Cortex-X2这样的大核组成高性能产品,也可以搭配Cortex-A710组成中核产品,还可以搭配Cortex-A510-实现面积和功耗的最小化。整体配置非常灵活。此外,DSU-1 10的整个架构已经重写,可以以更高的效率为处理器内核提供更好的性能。其中最重要的一点是,L3的带宽在使用DSU-110后增加到了上一代的5倍。

在性能方面,ARM提到,在DSU-110架构下,ARM处理器可以配置高达16MB的L3缓存,与上一代相比,还可以降低系统功耗,提高处理器的性能功耗比。在多核能力方面,DSU-110目前可以支持多达8个高性能的Cortex-X2内核。这里有一个有趣的想法,即如果一个处理器有8个Cortex-X2内核和16MB三级高速缓存,它的一些性能会与当前的高端笔记本电脑相当吗?另外,在带宽方面,除了前面提到的5倍提升,ARM还特别说明了DSU-110的L3缓存也为单核提升了带宽,尤其是DSU-110可以支持的数据带宽比目前新的CPU微架构所要求的带宽更宽,但ARM并没有透露具体的数据。这说明未来L3的带宽不再是困扰ARM处理器的性能因素。

内部结构方面,ARM之前从未公布过相关资料,但在DSU-110上,ARM给出了一些内部结构图。根据原理图,考虑到面向未来和可扩展性,ARM选择重做DSU-110的内部架构。整体结构主要包括L3缓存、监听过滤器和控制逻辑单元。详细地说,DSU-110实现了基于地址的块控制。此时多个请求可以并行访问不同的缓存块,同时读取,从而大大增加带宽。现在每个扇区最多可以同时支持64笔交易,扩大了整个区域的读取容量。

此外,DSU-110的内部总线架构采用环形总线架构,每个环负责四个缓存区,所以八个缓存区总共使用两个环,除缓存区外的所有单元都可以通过站点环形总线连接。每个环可以向任何方向传输数据。ARM声称它可以获得最优的延迟和带宽,最终的延迟数据与上一代DSU相似。

从性能方面来说,DSU-110的带宽和并行度的提升是非常令人满意的,但这一切都需要配合新的CPU架构才能有效。新的CPU架构能给DSU-110带来什么样的性能提升,还要通过实际测试来确定。

先说安全部分。DSU-110支持MTE功能,即记忆标记扩展。这个功能在本刊之前已经介绍过了,主要目的是增强内存的安全性。DSU-110加速模块的ACP功能单元提高了带宽,系统MMU还支持增强的虚拟化和安全功能的优化。对外,可扩展总线接口最多支持四个主总线接口,每个接口都是256位宽,并支持更新的AMBACHI协议,这意味着设计人员有可能实现1024位系统存储器的双向位宽。2GHz频率,总读写带宽可能高达256G B/s,这是目前一些高端笔记本电脑无法实现的带宽方案。此外,在外设端口方面,新的设计还带来了一致性支持和更高的带宽支持,可以用来连接系统的其他部分,也可以帮助优化DRAM的访问路径。

DSU-110大大提高了电力效率。与目前的DSU相比,它可以降低高达75%的功耗。节省的方式主要包括增加新的电源管理状态,频率和微架构的提升可以减少25%的功率泄漏,同时提供2倍的带宽。最重要的是,新的电源模式允许在某些情况下关闭L3和logic以节省电源,例如当屏幕关闭时,用户不再操作,或者在低强度工作负载下可以关闭一些单元。

请注意,这里所有的比较都是相对条件,DSU的有功动态功率会随着带宽的增加而线性增加。比如你要实现5倍的带宽,功耗肯定会增加到原来的5倍——这是下一代SoC在内存工作负载较重的情况下,系统功耗和功耗行为预测的重要因素。

总的来说,ARM将DSU-110描述为Armv9的中坚力量显然是合理的。DSU-110增加的带宽可以显著提升CPU的单线程和多线程性能,尤其是16MB L3方案,使ARM产品有可能出现在高端笔记本电脑上。当然,我希望它也有同样优秀的高性能功耗比性能。

Cl-700和Nl-700:缓存一致性增强

再来看看片上互连系统的更新。ARM的上一代片上互联系统是2015年发布的CCI-500。当时片上系统没有缓存一致性要求。虽然这从GPU的角度来看是不可思议的,但是从CPU的角度来看是完全合理的。所以之前缓存一致性主要是用在CPU的各个核之间,所以在SoC层面,缓存一致性并不是那么重要。

但是随着技术的发展,SoC上出现了各种各样的功能模块,比如NPU、DSP以及更多的想要实现与GPU的缓存一致性并使用相关数据的模块。正是因为这种改变,ARM决定更新片上互连系统。

先看CI-700。它声称,ARM CI-700是专为AAA游戏、120Hz帧率、HDR视频和其他苛刻的计算需求而设计的。它基于最新的互连架构,支持MTE、内存分区和监控(MPAM)、AMBA池(和DSU智)等。,并能实现快速配置,全面支持Cortex-A系列微架构。在功能方面,新CI-700支持企业级AMBA CHI技术、完全一致的设计以及系统级缓存和监听过滤器。这种设计可以带来更好的性能和更低的功耗,还可以增加CPU集群中的缓存容量,实现CPU之间集群和加速器的IO响应。目前,CI-700支持将DSU集群从1个扩展到最多8个,最多支持8个内存控制器。

继续看a-700的网络拓扑。这部分和我们在CMN IP里看到的很像,因为CI-700主要是由点、交点和“XP”部分组成的。值得一提的是,CI-700的XP单元可以连接更多的端口,也可以配置为真正网格的唯一-XP,本质上也可以配置为lxl网络。CI-700最多可以实现4x3网格配置。

缓存方面,CI-700支持1-8个SLC扇区的配置方案,每个扇区高达4MB,总计32MB,还包括监听滤波器的SRAM缓存。每个扇区覆盖8MB的地址空。一般来说,ARM建议覆盖网格客户端底层私有缓存1.5-2倍。此外,SLC缓存还可以用作带宽放大器,可以减少系统对外部存储器或内存的依赖,从而降低系统功耗。在这里,ARM仍然强调对MTE技术的支持,允许这一代IP跨CPU、DSU和新缓存一致性的互联。

除了CI-700,NI-700也是本次发布的重要功能之一。NI-700通过其可扩展和高度可配置的设计和数据传输分组设计,将SoC的NoC部分的导线数量减少了多达30%。并且可以支持多个时钟和多个电源。完全支持新的ARM AMBA安全特性等。

总的来说,CI-700和NI-700的改进,使得ARM在新的架构和工艺下,实现了更快、更大的具有缓存一致性和安全特性的内部互联,极大地方便了厂商开发更高性能、更多特性的SoC。相对于CPU架构的升级,NI-700和CI-700的升级在实际应用中可能具有更大的意义。

持续提高性能:新的ARM Mali—G710、Mail—G610、Mail—G510和Mali—G310 GPU

介绍完ARM在系统L3缓存和互联设计上的更新,我们继续看GPU的更新。

这次ARM- Breath发布了四款GPU,分别是Mali-G710 Mali-G610,Mali-G510,Mali-G3。首先值得注意的是,这些GPU的型号全部由之前的两位数命名改为三位数命名。比如之前的型号是Mali-G78,之后的型号应该是“Mali-G79”,但是新产品变成了Mali-G710。在这一代ARM产品中,形成了从高到低的“7、6、5、3”的产品阵容,以满足不同市场的需求。其中,“6”系列产品是新的。采用与“7”系列产品相同的核心微架构,但核心数量较少。这种细分机型的出现,是ARM帮助合作伙伴更好区分旗舰机型和高级机型的设定,也有助于消费者明确产品定位。其他产品方面,Mali-G510是2019年Mali-G57的继承型号,Mali-G310是Mali-G31的全面改进版本。上面提到的所有GPU都采用了新的Valhall微架构。关于Valhall微架构的内容,本刊在之前的文章中已经做了详细的介绍,大家可以翻翻之前的文章进行回顾。

Mali-G710:性能提升高达20%

首先看定位顶配Mali-G710。根据ARM给出的数据,Mali-G710可以带来高达20%的性能提升,20%的功耗降低,以及高达35%的机器学习性能提升。

从宏观架构上看,Mali-G710与之前的Mali-G77和Mali-G78基本相同。其主要特点是Valhallarchitecture,波前阵列由之前的8个改为16个,支持双数据执行引擎架构。相应的,在Valh all G78中,我们看到每核32FMA。此外,它还支持指令、API等的动态调度。

ARM给出了Mali-G710渲染核心的结构图。与之前的Mali-G78相比,Mali-G710真正的变化是在渲染核心内部增加了第二个执行引擎,使Mali-G710的每个渲染核心的计算性能翻倍。从某种意义上说,ARM是在重复我们在上一代Mali架构中看到的东西,比如Mali-G76,它的单个渲染核心有三个执行引擎。另外,ARM也给出了一些详细的数据,比如执行引擎和纹理单元都是重新设计的,每个周期的吞吐量是8个单元;在优化加载和存储缓存、交换单元和信息总线后,每个周期的吞吐量为8个单元。其余管理单元和块处理单元采用更大的单元块设计,其吞吐量增加到4个单元。

质感部分是这次换臂的重点之一。新的纹理单元每时钟可以处理8个双线性纹理元素,性能是上一代的两倍。而且ARM重新优化了整个纹理单元的设计,提高了面积效率。结合性能的提升和面积的减少,新的纹理单元带来高达50%的性能密度优势。

ARM给出了Mali-G710执行单元的结构图。根据整体结构,Mali-G710分为三部分:前端、处理单元和消息块。其中,前端包括波前相关状态、排序、16KB指令缓存、发散等功能模块。处理单元包括指令拾取、射频单元、Arg复用、FMA、CVT、SFU等功能和计算模块。信息块部分是信息RX管道和信息PX管道等。好在ARM已经把Mali-G710和上一代Mali-G78对比过了。从对比图中可以看出,新M ali-G710采用了4个并行宽度为4的前端执行单元,取代了上一代并行宽度为1/6的前端执行单元。这样不会改变GPU的吞吐量,但是会提高执行的灵活性,从而提高效率。

总体来说,新的设计使得GPU每个核心在每个时钟周期的FMA能力翻了一番,执行引擎部分的功耗比也下降了20%,非常可观。

此外,Mali-G710的另一个亮点是使用了“CommandStream Frontend (CSF)”,而不是之前的“JobManager”。新的CSF负责调度和处理绘图调用。它引入了一个性质未公开的新CPU和一个新的固件层。此外,CSF通过提供非常轻量级的提交路径降低了驱动程序的成本,同时也提高了系统CPU的效率,也使得复杂的图形工作负载更加灵活和可扩展。CSF还有助于简化API的状态继承和二级缓冲函数的支持,简化时间敏感应用的处理流程。此外,同步事件也受益于这种改进,延迟降低。

新添加的固件现在可以与硬件层紧密耦合,处理来自主机的请求,通知命令缓冲区等。,减少了一些开销,甚至允许额外的指令来模拟硬件中尚不存在的API函数。

在硬件设计方面,ARM声称新的CSF经过了彻底的重新设计,可以实现最新的功能,并允许相关的计算任务提交给其他GPU单元。ARM声称使用新的CSF后,每秒可以调用500多万次,显著提高了效率。

最后,我们来看看整个Mali-G710的技术改进概述。Ali-G710的改进包括:全新的CSF,可扩展的硬件架构,可配置的渲染核心数量(7-16),可配置的L2块数量(2-4,每个块可以是256KB或512KB),支持ACE函数(128b或256b),系统缓存支持PBHA(基于页面的硬件属性)。从上面的改进可以看出,ARM在这一代产品中的目标是改善API开销相关的弱点,但实际应用中的具体表现还有待检验。但从这一代20%的能效比和性能提升来看,其性能尚可,但并未改变整个移动GPU市场的竞争格局。

另外,Mali-G610的微架构和Mali-G710-是一样的,只是核心数少于7个,这里就不赘述了。

Mali-G510和Mali-G310:总有一款适合您。

与M-G510的前身Mali-G57相比,M ali-G 510在同等条件下性能提升高达100%,节能高达22%,机器学习性能提升高达100%。ARM给出了相关M ali-G510的技术概述,包括可配置的最大L2块数为4(每个L2块数可为128KB或256KB)、ACE支持(可配置为128b或256b)、AFRC支持、lObit和YUV8支持等。

ARM也给出了Mali-G510的渲染核心图。可以看到,M ali-G510日常有两个执行单元,每个单元都支持宽度为16的并行波前数据。但是,其中一个可以配置为一个集群或两个集群,另一个固定为两个集群。这样,整个执行单元可以在每周期48 FMA或每周期64 FMA之间选择,进一步节省了片上面积和晶体管数量。一般来说,这类GPU的用户一般都有一些标准的配置和特定的用例,他们可以用最低的配置来满足这些需求。所以ARM给出了该区域最低配置的方案。

从更高的层面来说,Mali-G510可以选择双核或者六核。除了上述可以选择每周期48个FMA或64个FMA的执行单元部分之外,纹理单元部分也可以配置为每周期4或8个单元的吞吐量设计。此外,可以在回写和改变单元端口b中配置每个周期4个单元吞吐量的方案。

在具体的产品配置上,ARM强调M ali-G510有10项配置可以满足几乎所有要求。ARM特别指出,CSF port B score和block部分可以根据面积和性能进行优化,渲染核心可以从2到6中选择,内存部分也可以根据需求进行改进。最终形成10种配置方案,其FMA单元可覆盖96-384°的广域范围。而且不同的配置在FPS、功耗、面积、能耗上有不同的取舍,需要厂商根据自己的需求来配置。

最后看看Mali-G310。它采用了全新的Valhall架构,上一代产品使用的是Bifrost架构,所以在架构层面,M ali-G310实现了飞跃。Mali-G310的架构图显示,由于定位较低,Mali-G310的渲染核心中的两个执行单元成为了可选的一个或两个集群的配置方案,因此FMA每个周期可以执行16-64次运算,具体为16、32、48或64次。回写单元可以配置为每周期4个单元吞吐量,纹理单元每周期2-8个单元吞吐量,可变单元每周期2-4个单元吞吐量。

在配置方案方面,ARM也给出了五种不同的配置方案,以满足不同类型用户的需求。认为ARM Mali-G310可用于入门级智能手机、机顶盒、数字电视等场合,其最大特点在于性能和效率的灵活性,如五种可选配置方案,面积小。

业绩提升,市场有待观察

这里我们基本了解了下一代Mali GPU。从ARM公布的信息来看,新一代Mali GPU在高端市场的性能最高可以提升20%,这看似是一个激动人心的数字,但实际上Mali GPU的高端市场正在逐渐流失。比如Mali之前最大的客户华为,一直无法使用Mali相关的授权。三星也已经宣布下一代移动GPU将选择AMD的RDNA 2架构,而高通拥有自己的GPU架构。剩下唯一可能对ARM GPU感兴趣的厂商就是联发科了。考虑到联发科在高端移动SoC并不占据强势市场地位,ARM的顶级Mali GPU可以出现在哪些高端手机上?市场表现如何?还有待观察。

之所以会这样,很可能是因为ARM在移动GPU上无法提供更好的性能或者更好的性能/功耗比。考虑到目前高端SoC市场竞争如此激烈,苹果显然占据领先地位,高通的GPU表现也可圈可点。ARM在这里有一些错误。主要原因是ARM试图以一种微架构来迎合从最低端到最高端这样一个广阔的市场,这就使得ARM目前的表现要么考虑高端而失去低端,要么在低端市场表现出色,但高端市场表现平庸,难以平衡。

好在ARM在M ali-G510和M ali-G310上的表现应该足够优秀。据称,ARM将在2020年出货10亿颗GPU,占据80%的DTV市场和50%的智能手机市场。接下来ARM会继续靠Mali-G510和Mali-G310扩大市场份额,这也是一条不错的发展道路。

本文来自网络,不代表管理窝立场。转载请注明出处: https://www.guanliwo.com/a/zx/61465.html
上一篇打游戏性价比
下一篇 专业电竞屏
管理窝

作者: 管理窝

这里可以再内容模板定义一些文字和说明,也可以调用对应作者的简介!或者做一些网站的描述之类的文字或者HTML!

为您推荐

评论列表()

    联系我们

    联系我们

    0898-88888888

    在线咨询: QQ交谈

    邮箱: email@wangzhan.com

    工作时间:周一至周五,9:00-17:30,节假日休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部