苹果M4深度揭秘

作者:电子创新网张国斌

1.jpg

5月8日——苹果在今天凌晨的发布会上正式推出了新一代iPad Pro、iPad Air,其中前者直接全球首发M4处理器,M4 的发布让业界有点看不懂苹果的产品策略,因为在 Mac 方面,目前所有的 MacBook 都基于 M3 系列芯片。另一方面,M3 从未出现在 iPad 系列上,而且似乎永远不会出现。相反,2022 年推出的最新 iPad Pro 是基于 M2 的设备,而新推出的面向中端市场的 iPad Air 也使用了 M2。因此,至少就目前而言,M3 和 M4 各自存在于自己的小世界中。

2.png

3.jpg

据公开的资料,M4的制造工艺从第一代3nm N3B升级为第二代3nm N3E,相信良品率更高,成本也更容易控制,而且晶体管数量从250亿个增加到260亿个。CPU部分从4+4 8核心升级为4+6 10核心,也就是增加了2个能效核,号称性能相比M2提升了最多50%——是的,都没有和M3比较。

GPU部分几乎毫无变化,还是M3同样的架构、10个核心,但号称相比M2快最多4倍。而唯一变化是支持了新款iPad Pro加入的双层串联Tandem OLED显示技术,也就是双层堆叠,将全局亮度提高到了超过1000nits,官方命名为Ultra Retina XDR。

4.jpg

从高层次上看,M4 采用了某种新的 CPU 架构,GPU 似乎在很大程度上借鉴了 M3,而 M3 本身就是一种新的 GPU 架构。苹果特别关注的是神经引擎(NPU),它仍然采用 16 核设计,但现在能提供 38 TOPS 的性能。此外,内存带宽也增加了 20%,有助于为更强大的芯片提供足够的电力。

在工艺方面,台积电的 3 纳米工艺节点增强版是 M3 系列芯片使用的 N3B 工艺的升级版;N3E 的密度不如 N3B,但根据台积电的说法,它的性能和功耗特性略胜一筹。虽然两者之间的差距不大,架构的作用更大,但在能效竞争中,苹果公司会利用一切可以利用的优势。

苹果作为台积电新工艺流程节点发布合作伙伴的地位已经确立,苹果似乎是第一家推出 N3E 工艺芯片的公司。不过,他们不会是最后一家,因为预计台积电的几乎所有高性能客户都将在明年采用 N3E 工艺。因此,苹果公司在芯片制造方面的即时优势将只是暂时的。

M4 CPU 架构:改进的 ML 加速

苹果的 M4 CPU 内核设计是一个谜。苹果公司守口如瓶,又缺乏与 M3 的性能对比,因此,M4 是苹果 CPU 设计的分水岭--新的 Monsoon/A11 --还是类似于 A17 中 Everest CPU 内核的小更新,还有待观察。

5.jpg

苹果公司在关于 SoC 的简短主题演讲中指出,性能内核和效率内核都采用了改进的分支预测技术,对于性能内核,还采用了更广泛的解码和执行引擎。不过,这些都是苹果公司为 M3 所做的广泛宣传,因此这本身并不能说明是一种新的 CPU 架构。

不过,苹果 M4 CPU 的独特之处在于为两种 CPU 内核类型提供了 "下一代 ML 加速器"。这与苹果在 M4 中更广泛地关注 ML/AI 性能是相辅相成的,不过该公司并未详细说明这些加速器的具体内容。有了 NPU 来完成所有繁重的工作,在 CPU 内核上增强 AI 的目的就不再是总吞吐量/性能,而更多的是处理混合在更多通用工作负载中的轻型推理工作负载,而无需花费时间和资源来启动专用的 NPU。

一个有根据的猜测是,苹果已经更新了记录不全的 AMX 矩阵单元,该单元从一开始就是 M 系列 SoC 的一部分。不过,最近的 AMX 版本已经支持 FP16、BF16 和 INT8 等常见的 ML 数字格式,因此如果苹果在这里进行了修改,那就不是简单直接的事情了,比如添加(更多)常见格式。同时,如果是 AMX 的问题,那么苹果公司提及此事就有点出人意料了,因为他们在其他方面对这些设备是如此保密。

另一个合理的选择是,苹果公司对其 CPU 中的 SIMD 单元进行了一些改动,以增加通用的 ML 数字格式,因为开发人员可以更直接地访问这些单元。但与此同时,苹果公司一直在推动开发人员使用更高级别的框架(这也是访问 AMX 的方式),因此这可能会导致两种结果。

无论如何,无论支持 M4 的 CPU 内核是什么,有一点是肯定的:它们会更多。完整的 M4 配置是 4 个性能内核搭配 6 个效率内核,比 M3 多出 2 个效率内核。低配 iPad 机型采用 3P+6E 配置,而高配 iPad 则采用 3P+6E 配置。

在其他条件相同的情况下,与 M3 的 4P+4E 配置相比,增加两个效率内核应该不会大幅提升 CPU 性能。但苹果的效率内核也不容小觑,因为即使是苹果的效率内核,由于采用了超序执行,其性能也相对较强。尤其是当固定的工作负载可以在效率内核上进行,而不是提升到性能内核上时,能效提升的空间就更大了。

除此之外,苹果公司还没有公布新 SoC/CPU 内核的详细性能图,因此没有什么硬数据可谈。但该公司声称,M4 的 CPU 性能比 M2 快 50%。这大概是针对多线程工作负载而言,可以充分利用 M4 的 CPU 内核数量优势。另外,苹果公司在主题演讲中还声称,他们能以一半的功耗提供 M2 的性能,作为工艺节点改进、架构改进和 CPU 内核数增加的组合,这似乎是一个合理的说法。

M4 GPU 架构:光线追踪和动态缓存的回归

与 M4 的 CPU 情况相比,GPU 的情况要简单得多。最近,苹果刚刚在 M3 中引入了新的 GPU 架构--苹果并不像 CPU 那样经常对这种内核类型进行更新--苹果几乎已经确认,M4 的 GPU 与 M3 的架构相同。

6.jpg

M4 拥有 10 个 GPU 内核,在高级配置上与 M3 完全相同。这是否意味着各种区块和缓存真的与 M3 完全相同还有待观察,但苹果并没有对 M4 的 GPU 性能做出任何宣称,也没有以任何方式将其解释为优于 M3 的 GPU。事实上,iPad 较小的外形尺寸和更有限的散热能力意味着 GPU 在任何持续工作负载下都会受到热限制,尤其是与 M3 在 14 英寸 MacBook Pro 等主动散热设备上的表现相比。

无论如何,这意味着 M4 配备了 M3 GPU 引入的所有主要新架构功能:光线追踪、网格着色和动态缓存。在这一点上,光线追踪无需过多介绍,而网格着色则是下一代几何处理的重要手段。同时,动态缓存是苹果公司对 M 系列芯片内存分配技术的改进,可以避免从苹果公司统一的内存池中向 GPU 过度分配内存。

除 GPU 渲染外,M4 还采用了 M3 更新的媒体引擎块,这对于使用 iPad 的 M2 来说是一个比较大的变化。最值得注意的是,M3/M4 的媒体引擎区块增加了对 AV1 视频解码的支持,这是下一代开放式视频编解码器。虽然苹果公司非常乐意为 HEVC/H.265 支付版权费,以确保其生态系统中的可用性,但免版权费的 AV1 编解码器预计将在未来几年中占据重要地位并得到广泛使用,这使得 iPad Pro 能够更好地使用最新的编解码器(或者至少不必在软件中低效地解码 AV1)。

不过,M4 在显示方面的新功能是一个新的显示引擎。它负责合成图像并驱动设备上的附加显示屏,苹果公司从未给予它特别多的关注,但当他们对它进行更新时,通常都会带来一些立竿见影的功能改进。

7.jpg

这里的关键变化似乎是启用了苹果新的夹层 "串联 "OLED 面板配置,这种配置将在 iPad Pro 上首发。iPad 的 Ultra Retina XDR 显示屏将两块 OLED 面板直接叠放在一起,使显示屏的亮度累积达到苹果公司的 1600 尼特目标,而单块 OLED 面板显然无法实现这一目标。这反过来又要求显示控制器知道如何操作面板,不仅仅是驱动一组镜像显示屏,还要考虑到一个面板低于另一个面板所造成的性能损失。

虽然与 iPad Pro 并不直接相关,但苹果是否会借此机会增加 M4 可驱动的显示器总数,这将是一个有趣的问题,因为香草 M 系列 SoC 通常只能驱动 2 台显示器,这让 MacBook 用户感到非常不安。事实上,M4 可以驱动串联 OLED 面板和一个外置 6K 显示屏,这让人充满希望,但我们将拭目以待 M4 在 Mac 上的应用。

M4 NPU 架构:全新、更快

可以说,苹果公司 M4 SoC 的最大亮点是公司的 NPU,也就是他们的神经引擎。从 M1 开始,该公司就一直在采用 16 核设计(在 A 系列处理器上也采用了更小的设计)。每一代产品的性能都有适度提升。但随着 M4 代的推出,苹果表示其性能将有更大的飞跃。

8.jpg

M4 NPU 仍采用 16 核设计,额定性能为 38 TOPS,是 M3 神经引擎 18 TOPS 的两倍多。巧合的是,也只比 A17 的神经引擎高几个 TOPS。因此,作为一种基准说法,苹果正在宣传 M4 NPU 比 M3(更不用说为以前的 iPad 提供动力的 M2)强大得多,甚至比 A11 的 NPU 快 60 倍。

遗憾的是,细节决定成败,因为苹果没有列出最重要的精度信息--这个数字是基于 INT16、INT8 还是 INT4 精度。作为目前 ML 推理的法定精度,INT8 是最有可能的选择,尤其是苹果去年为 A17 所引用的就是 INT8。但随意混合精度,甚至不公开精度,至少可以说是令人头疼的。而且这样也很难进行同类规格的比较。

无论如何,即使大部分性能提升来自于 INT8 支持与 INT16/FP16 支持的对比,M4 NPU 也将为 AI 性能带来显著提升,这与 A17 已经发生的情况类似。苹果是首批推出搭载 NPU 的消费级 SoC 的芯片供应商之一,因此该公司并不惧怕在这个问题上大放厥词,尤其是将其与 PC 领域的情况进行比较。特别是由于苹果公司提供的是一个完整的硬件/软件生态系统,因此该公司的优势在于可以利用自己的 NPU 来塑造自己的软件,而不是等待杀手级应用的出现。

M4 内存:采用更快的 LPDDR5X

最后,但肯定不是最不重要的,M4 SoC 的内存能力也得到了显著提升。鉴于苹果为 M4 提供的内存带宽数据(120GB/秒),所有迹象都表明他们最终将在新的 SoC 上采用 LPDDR5X。

作为 LPDDR5 标准的中期更新,LPDDR5X 允许比 LPDDR5 更高的内存时钟频率,LPDDR5X 的最高时钟频率为 6400 MT/秒。虽然 LPDDR5X 目前的速度高达 8533 MT/秒(未来还会有更快的速度),但根据苹果公司为 M4 提供的 120GB/ 秒的数据,内存时钟速度大约为 LPDDR5X-7700。

由于 M4 将首先安装在 iPad 上,暂时还不清楚它的最大内存容量。M3 可以容纳高达 24GB 的内存,虽然苹果在这一点上极不可能退步,但也没有迹象表明他们是否能够将内存容量提高到 32GB。与此同时,iPad Pro 都将配备 8GB 或 16GB 内存,具体取决于具体型号。

9.jpg

2024 M4 iPad Pro:下周上市

苹果将提供两种尺寸的 2024 款 iPad Pro:11 英寸和 13 英寸。除屏幕尺寸外,两种尺寸的 iPad Pro 均采用相同的 M4 和内存配置。256GB/512GB 机型采用 3P+6E 内核 CPU 配置和 8GB 内存,而 1TB 和 2TB 机型则采用完全支持 M4 SoC 的 4P+6E CPU 配置和 16GB 内存。两款机型的 GPU 配置相同,均为 10 个 GPU 内核。

256GB 11 英寸机型的起价为 999 美元,256GB 13 英寸机型的起价为 1299 美元。而最高配置的 13 英寸机型配备 2TB 存储空间、苹果纳米纹理磨砂显示屏和蜂窝网络功能,售价为 2599 美元。

最后的疑问:为何苹果平板搭载最强处理器?

老张的理解是目前平板领域苹果的优势地位受到了来自华为、OV等中国厂商的挑战,根据市场调研机构IDC发布的数据,2023年全球平板电脑出货量在2023年第一季度同比下降了19.1%,总计出货3070万台。尽管苹果在市场份额上仍然占据优势,出货量达到了1080万台,市场份额占比达到35.2%,但与去年同期相比,整体出货量降低了10.2%。

此外,中国大陆市场的数据显示,苹果的市场份额有所下降。据Canalys发布的数据,2023年第三季度,中国大陆平板电脑市场同比增长16%,但苹果的市场份额从38%下降到了31%,同比下滑了5%。与此同时,华为的市场份额则从去年同期的15%增至24%,增幅高达90%。

另外,苹果在2023年并未对iPad产品线进行更新,这也是自iPad自2010年问世以来的首次停更。所以为了强化自己的平板优势,苹果直接采用了最强大的处理器M4。

平板采用了M4之后,其Mac系列肯定会采用更强大的升级版处理器,比如pro ,或者MAX版,甚至M5处理器。

最新文章