[闲聊] Cyrix 的高效能超纯量处理器家族(下)

楼主: KotoriCute (Lovelive!)   2017-11-03 10:58:22
时代的眼泪系列:Cyrix 的高效能超纯量处理器家族(下)
https://technews.tw/2017/10/30/cyrix-part-two/
在 20 世纪后期与 21 世纪初期,为了掩饰与 Intel 处理器之间尴尬的“时脉不平衡状
态”,AMD 与 Cyrix 先后采用 Performance Rating(简称 P-Rating,虽然那个 P 经常
认知为“Pentium”)为标示处理器性能位阶的行销手段,造成不少争议,被当时的连线
BBS 硬件讨论区、电脑玩家与电脑卖场“津津乐道”。
也该是掀开 PR 值神祕面纱的时候了。
“只会让自己的产品看起来比较差,并不会比较好”的 PR 值怎么定义的?
这是当年 PC Magazine“Inside Track”专栏对 PR 值的最毒舌评论,但就事后诸葛的角
度来看,实也不失中肯。
Performance Rating 最早是由 AMD、Cyrix、IBM(代工并以自有品牌销售 6×86)与
SGS-Thomson(代工 6×86)4 家厂商共同制订的效能评测基准与相关测试规范,并由
Micro Design Resources(MDR,知名的 Microprocessor Report 发行公司)进行效能
验证,并维护其测试环境的一致性与细节流程。
但 Cyrix 并非首家采用此行销手法的 Intel 竞争者,也不是第一间引进 PR 值的厂商。
早在 1994 年,NexGen 就将其 Nx586 标上“Pxx”,如时脉 75MHz 是 P80、83.3MHz 则
是 P90。
至于引进 PR 值,最早登记有案的是 AMD Am5x86-P75,象征时脉 133MHz 的 5×86 可匹
敌 Pentium 75。后期 150MHz 的 Am5x86-P75+,多出那个 Plus 则代表“超越”
Pentium 75,这招后来也被 Cyrix 所采用,意谓他们的表现“青出于蓝胜于蓝”。
以下列举 MDR 提供给 Cyrix 的“理论基础”(列举 3 款 6×86 型号),你也可以注意
到,即使限定在以整数运算为主的测试程式,6×86 的 PR 值也不代表保证胜过同等级的
Pentium,更遑论浮点运算了。
https://i.imgur.com/b4dWzeB.png
产品定价策略就变成以下的模样。
https://i.imgur.com/MQoLnrx.jpg
如果你是够细心的读者,一定会马上提出两个质问:
一、上篇不是提到 6×86 初期量产评估成本高达 340 美元?那这样卖一定亏本啊。而且
晶粒面积 394mm2 ,比 Pentium Pro 不包含 L2 快取的核心部位 306mm2 还要大,产量
不会有问题吗?
1996 年实际销售的 6×86,版本代号实为“M1R(Revised)”,借由修改为第二世代的
0.6μ、5 层导线的新制程(如 IBM 用在制造 PowerPC 620 的 CMOS-5S),晶粒面积巨
幅精简至 225mm2 ,预估制造成本也降低到 105 美元,但仍不如使用 Intel P852(0.5
μ)的 Pentium(P54C,163mm2 ),更远不及 1995 年开始投入产线的 P854(0.35μ)
制程版本(P54CS,90mm2 )。
二、为何 Pentium 90 和 Pentium 100 的价格一样?不是时脉越高,价格也该等量齐观
吗?Pentium 166 与 Pentium 133 和前款较低位阶的明显价差,也颇令人在意。答案很
复杂也很简单:因为两者效能“有可能”几乎一样。这就要谈一下“外频”(系统总线
时脉)这档事了。
Pentium 100 先后有“50MH×2”和“66MHz×1.5”,前者的外频比“60MHz×1.5”的
Pentium 90 还要低,系统总线频宽反而较低,有可能导致两者整体效能相当,同理可
证,66MHz 外频的 Pentium 也会得到除了处理器本身时脉以外的额外优势,价格更高是
合理的,但这多少造成消费者的困扰,包含当时的笔者。
大概是有鉴于在产品线内交互穿插不同外频,会造成定价策略的困绕,Cyrix 就坚壁清野
,不让高时脉产品有较低的外频。至于 6×86 同时支援两种不同的系统总线爆发存取
模式(Burst Mode),在此就不多谈。
https://i.imgur.com/PwFxVTs.jpg
这也就是为何迟至 1996 年 6 月 3 日上市、时脉 150MHz 的 6×86-PR200+,效能一开
始就被“看好”的主因:6×86 只有 2 倍或 3 倍两种倍频,要嘛就是 50MMHz×3,要嘛
就是 75MHz×2,Cyrix 当然选择后者,但代价就使用者是要慎选芯片组与主机板。
Cyrix 的PR 值最终发展如下,时脉 300MHz 的 M-II PR433 是其绝响。
https://i.imgur.com/UL98IB3.jpg
在 K6 始乱终弃,在辉煌的 K7 / K8 时代又死灰复燃的 PR 值
AMD 在 K6 初期曾引进“PR2”,比较的基准从 Pentium 升级到 Pentium II,但不知为
何,很搞笑的跟处理器时脉“同步”,像 K6/PR2-166 的真实时脉,就真的是 166MHz,
让 PR2 变成一个毫无意义的多余数字,过没多久,就束之高阁。
但在创造 AMD 历史高峰的 K7 与 K8 时代,AMD 在 Athlon XP 与 Athlon 64 等桌机产
品线,重新启用 PR 值以对抗 Intel Pentium 4 那压倒性的高时脉。和过去唯一不同的
是,这时的 AMD x86 处理器微架构以非昔日吴下阿蒙,逐渐具有整数浮点兼备的竞争力
,让那时的 PR 值“看起来比较像真的,而且数字也比较大”。
然后随着 Intel 在 90nm 制程 Pentium 4“Prescott”出大包,让 AMD 好一阵子在媒体
评测把 Intel 电得吱吱叫,再加上 x86 处理器也跟着 IBM Power4 的脚步走上双核心与
多核心化,结束了长达 10 年的时脉战争,PR 值也就功成身退,成为计算机发展史上被
撕掉的一页。
企图以最少成本换取两倍效能的 6x86MX“M2”
https://i.imgur.com/LRjCKHK.jpg
前有持续强化中的 Pentium MMX(P55C),后有即将降临桌机市场的 Pentium Pro 后代
,AMD 因购并 NexGen 而得到的 K6,更是即将乱入的程咬金,Cyrix 势必要尽快推出 6
×86 的后继产品,那看似换汤不换药的 6x86MX“M2”,就要继续在 Intel 巨大制程优
势的阴影下,争取“丰厚获利中的一小块肥肉”。
Cyrix 宣称 M2 可达到 M1 的“两倍效能”,但近两倍时脉的“最终型态”PR400(
285MHz)与 PR433(300MHz),拖到了 1999 年 7 月才上市,Intel 早处于桌机主力从
Pentium II 转移至 Pentium III 的交接期,完全时不我与。两倍时脉是否代表真正的
两倍效能,在此就不多论。
https://i.imgur.com/2EaBmYy.jpg
M2 相较于 M1,主要有以下几个改良点:
※ 4 倍容量的第一阶快取内存:从 16kB 增加到 64kB,这可能是最立竿见影的帮助。
※ SIMD 指令集扩充:支援前身为 NSP(Native Signal Processing)的 Intel MMX 指令
集 ,并加入 12 个 Cyrix 自订的 EMMI(Extendted Multi-Media Instructions),
MMX 与 EMMI 均由改良过的浮点运算单元处理,即使 MMX 本质上是借用浮点暂存器放
资料的整数运算。
※ 改善 x86 指令集相容性:6×86 缺少的指令,主要是 Intel 在 Pentium 新增的部分
,像 CPUID、CMPXCHG8B,以及在 Pentium Pro 新定义的条件搬移指令(Conditional
Move)、如 CMOV FCMOV FCOMI 等,都在 M2 得到补强。这对重视软件相容性的个人电
脑市场来说,是重中之重。
※ 强化分支预测:加倍 M1 的分支目标快取与分支历史表。
※ 改进内存位址转换效率:想必读过作业系统教科书(像有名的“恐龙”书系列)的科
班读者对“TLB(Translation Lookaside Buffer)”绝不陌生,这是进行位址转换时
,用来记录实体位址与虚拟位址之间的对应关系、增强内存管理单元效率的小型快取
内存。
Cyrix 在 TLB 大兴土木,改造为两层式快取结构,精简过的第一层有利提高时脉,拦截
漏网之鱼的第二层则可提高整体命中率,并和 M1 的第一层相同,仅增加一个时脉周期的
存取延迟。换言之,M2 比较像是放大 M1 原本的 TLB 后,再加上一个“L0”“抽乐透”
。总之,根据 Cyrix 的估计,原先 M1 的 TLB 命中率约为 92%,而 M2 即使第一层没中
乐透,第二层也有 99.6% 的“拦截率”。
不过整体而言,M2 实在有愧其“第二世代产品”的编号,可能连“1.5 代”都称不太上:
※ M2 的指令管线依旧“不动如山”,没变长也没变短,非循序指令引擎也纹风不动。
※ 关于浮点运算这个大罩门,Cyrix 稍微缩减了部分浮点指令的延迟,但杯水车薪,依旧
没改变被 Intel 压着打的窘境。
坦白讲,M2 的改进幅度并没有比加大第一阶快取、导入和 Pentium Pro 相同的分支预测
技术、增加指令管线深度的 Intel Pentium MMX(P55C)高明到哪里去,更何况在
6x86MX 上市的 1997 年 5 月,Intel 还早了近一个月,在月初就投入了 P6 微架构投
入桌机市场的首发 Pentium II“Klamath”,AMD K6 更在当年 4 月抢滩 x86 处理器战
场,Cyrix 势必要有更激进的作为,才有继续瓜分市场“享受丰厚利润”的本钱。
https://i.imgur.com/kRUdSEN.jpg
也因此,Cyrix 同步进行了两个新核心的发展,具有管线化浮点运算单元、再度自行扩充
MMX 指令集的真 M2“Cayenne”,与全新打造类似 P6 解耦式超纯量(Decoupled
Superscalar)的 M3“Jalapeno”,两者并附赠了更具野心的单芯片系统解决方案,也就
是今日我们所熟悉、入门级处理器整合绘图核心的样貌,Cyrix 才是这方面真正的先驱者
,而 1997 年的 MediaGX,则是 Cyrix 在这块人迹杳然的荒野,开出的第一枪。
https://i.imgur.com/NZ92du9.jpg
因为 MediaGX 整合的 5×86 并非超纯量处理器,不在标题的“打击半径”内,日后另外
撰文介绍整合绘图式 x86 处理器历史后,再深入探讨。
https://i.imgur.com/FV1iazf.jpg
“痛改前非”的 M2 微架构完全体“Cayenne”:管线化浮点单元与 MMXFP 指令
Cyrix 自认“已足以跟 Pentium II 一较长短”而从 6x86MX 正名而来的 M-II,依然打
不过 Intel Pentium II,追根究柢,还是卡死在浮点运算这个罩门,Cyrix 仍被迫开发
“Cayenne”核心,也堪称是“完整版”的 M2。
Cayenne 有 3 项主要改进:
※ 管线化的浮点运算及 MMX 执行单元:原本 M1(6×86)与 M2(6x86MX, M-II)每个时
脉周期只能发出一个浮点指令,并因未管线化的浮点执行单元,最快每两个时脉周期才
能执行一个指令。
Cayenne 完全解除了这要命的枷锁,不但可完全管线化执行多数的简单浮点运算(双倍精
确度乘法除外),每个时脉周期可发出两个浮点指令,更在单精确度浮点乘法上领先
Intel Pentium II。整体来说,彼此互有长短,但总算终结了 Cyrix 的浮点饥荒。
※ 支援 AMD 3D Now! 指令:1990 年代末期,正是 3D 游戏准备起飞的酝酿期,但在
1999 年 8 月 31 日 nVidia 发表 GeForce 256(NV10)并创造 GPU 一词之前,硬件
支援的几何运算(Geometry)几乎都不存在于任何消费性绘图芯片,只能靠处理器的浮
点运算器越俎代庖。Intel 的“老相好”AMD Cyrix 与电击参战的 Centaur,均有志一
同的寄望针对 3D Now! 最佳化过的微软 DirectX,以加速 3D 游戏的几何运算。
※ 15 个专属 MMXFP 指令:原本 MMX 是借用 x87 浮点暂存器进行 SIMD 整数运算,而
Cyrix 自行定义了将 MMX 延伸至浮点数的 MMXFP 指令,如一个 MMX 暂存器可存放两
个 32 位元单精确度浮点数。当处理器时脉 250MHz 时,可达到 1G Flops 理论运算效
能,并以牺牲掉部分 IEEE 754 浮点数相容性规范为代价,提供相较于 Pentium II 效
率惊人的倒数与开根号倒数指令。MMXFP 指令亦可指定不同 MMX 暂存器中的一半元素
,进行“聚集”与“分散”运算。
除了 MMXFP 之外,Cayenen 新增了 MPEG-1 与 H.323 压缩所需要的动态估测(Motion
Estimation)指令,对熟悉视讯压缩演算的读者,想必并不陌生。
但当 1999 年 6 月“最可怕的竞争者”AMD K7 堂堂登场时,Pentium 平台的 Socket 7
(或应该称之为 Super Socket 7)早已没有市场,M-II 正统继承人“Jedi(Socket 7
的 Cayenne)”胎死腹中。
Cyrix 又历经被购并至国家半导体后、又被出售给 VIA 的动荡,Cayenne 迟至 2000 年
初,才以 VIA Cyrix III“Joshua”(约书亚)之名降临,无缘与最早设定的对手
Intel Pentium II 家族正面较量,并且 Cyrix 在 VIA 内部迅速被 Centaur 体系取而
代之,独特的 MMXFP 指令也从此消失于众人的记忆中。
https://i.imgur.com/xoch8xd.jpg
功败垂成的 Cayenne 核心 MediaGX 后继者:MXi
https://i.imgur.com/xnue31M.jpg
自从开辟“1,000 美元以下”低价位个人电脑,与迷你型笔记型电脑市场的 MediaGX 仗
著低价优势,以 Compaq 的 Presario 2100 和 CTX EzBook V92C266 为起点,攻入 OEM
品牌的供应炼后,尝到甜头的 Cyrix 随即研发 Cayenne 核心的 MediaGX 后代“MXi”,
企图巩固这得来不易的桥头堡,并试图扩大战果。既然 Cayenne 已经解除了 Cyrix 处理
器的浮点运算瓶颈,结合硬件化的 3D 绘图引擎“打造终极游戏用处理器”,就成为
1997 年中期,策略彻底转向低价电脑市场的“Cyrix 之野望”。
严格说来,MXi 并非单芯片解决方案,和 MediaGX 的改良版 MediaGXm(改进制程,支援
MMX)一样,需要额外一颗南桥芯片,来提供完整的系统功能,像类比视讯输出的
RAMDAC 与 ISA 总线等。
Cyrix 并未透露太多其 3D 硬件引擎的技术细节,唯一比较有看头的是维持 AGP 相容性
、又声称会比未来 AGP 4x 还快的“虚拟 AGP”接口,与摆明靠高时脉支撑效能。但看在
其内建的内存控制器,仅能供给 2GB/s 的理论频宽,又缺乏第二阶快取内存“掩护
”的分上,实在让人难以相信,这一点点频宽能够喂饱豺狼虎豹般的 3D 绘图,又要兼顾
一般用途的效能。
https://i.imgur.com/b0gJuFR.jpg
1997 年 11 月,Cyrix 被国家半导体购并后,尽管缺乏方向,但 MXi 仍被继续发展,在
1998 年夏天还邀请台湾媒体至美国参访,展示高时脉版本 M-II 与 MXi,并大张旗鼓的
宣传其雄心壮志,但 MXi 并没有像它的前代 MediaGX 一样好运、续留在国家半导体的
Geode 产品线、然后 2003 年 8 月变成 AMD 的一部分,在 1999 年 6 月 Cyrix 被
VIA 吃掉后,风云变色,马上惨遭腰斩,今日仅剩供后人凭吊的工程样品照片。
短命的 VIA Cyrix III“Joshua”:Socket 370 的“Cayenne”
https://i.imgur.com/AyXF9xp.jpg
Cyrix 体系的处理器,在 VIA 内并没有马上消失──虽然也仅为昙花一现。
2000 年初上市的 Cyrix III“Joshua”(约书亚),是 Cayenne 核心第一个被实际应用
的产品,相容 Intel 的 Socket 370 脚位,整合 256kB 第二阶快取内存,其区块置换
策略并采用当时 Intel 竞争者阵营流行的互斥式(Exclusive)架构,第一阶和第二阶快
取彼此之间没有重复的资料,以求最大的快取容量利用率。
https://i.imgur.com/jJKXMNF.jpg
但 VIA 似乎很不满意 Joshua 的晶粒面积、发热量与效能/功耗比,很快的就被电晶体
数量少一半的 Centaur 体系“Samuel”取而代之,最后发展重心逐步转向嵌入式应用的
VIA 处理器,全面转进 Centaur 体系,Cyrix 终于消失在历史的洪流,而今日仍存在的
AMD Geode LX 嵌入式处理器产品线,是仅存至今的 Cyrix 唯一血脉。
https://i.imgur.com/ShQdqTH.jpg
近似 Intel P6 的解耦式超纯量近梦幻微架构 M3“Jalapeno”
从未问世的 M3“Jalapeno”是今日极少人知悉的“幻之处理器”,对其比较白话一点的
描述,不外乎以下这句:
M3=Cyrix 体系的 P6+MediaGX 和 MXi 的市场定位+ATi Rage 128 等级的高时脉绘图
核心+双通道 DRDRAM(Direct Rambus DRAM)内存
※ Cyrix 体系的 P6:M3 的指令管线不像其祖先 M1、M2“一条肠子通到底”,而是像
Intel P6 与 AMD K5 / K6 / K7 的解耦式超纯量(Decoupled Superscalar),解开了
管线前端与后方执行单元的“耦合性”,“内宽外窄”,被解码的指令暂存在保留站,
再被送入数量庞大的执行单元,便于打造“更有肚量、更能吸收持续灌入大量指令后的
震荡(可想像数十个指令同时在处理器的肚子内“飞行”的样子)”的非循序执行引擎

为了企求时脉压制 Intel 第三世代熟成品 P6(Coppermine),在采取 11 阶管线的同时
,Cyrix 也简化了 M3 的分支预测和暂存器更名机制。无独有偶,M3 也让 Cyrix 步上其
竞争对手行之有年的“将复杂的 x86 指令转译为数个简单的类 RISC 微指令”这条不归
路,接着就消失在世界的尽头了。
※ MediaGX 和 MXi 的市场定位:恐怕是基于必须承认已无本钱跟 Intel AMD 正面硬碰的
残酷现实,Cyrix 吃了秤陀铁了心,要完全转型,集中资源专心耕耘低价位电脑市场,
所以有别于事后整并现有核心的 MediaGX(5×86)与 MXi(Cayenne),M3 打从娘
胎就是整合绘图核心的方案。
※ ATi Rage 128 等级的高时脉绘图核心:Cyrix 没公布技术细节,但光仰仗高时脉,能
否对抗产品问世之际,整合硬件几何运算单元的 GPU,实在令人存疑。
※ 双通道 DRDRAM(Direct Rambus DRAM)内存:这倒是 M3 最具野心的一环,不让记
忆体频宽变成整合绘图方案的性能瓶颈,但看在日后 Intel 在引进 Rambus 惨遭滑铁
卢的后见之明,也实无任何乐观的理由。
假使 M3 可顺利上市,届时跟 Intel 的“Timna”(整合 S3 Savage4 绘图芯片与 ICH2
)正面对决,想必非常精彩。历史没有如果,也许假以时日,笔者能有机会好好介绍隐藏
于黑历史的“幻之 x86 处理器”系谱,如果有读者想看。有可能吗?
盖棺论定:又一个被 Intel 研发资源与制程优势彻底压垮的挑战者
1993 年 Cyrix 首次公开 6×86 计画时,产品设计团队仅仅 20 人,同时期“后发先至
”的 Intel Pentium Pro 计画却高达 450 人,更有一整票专精手工电路布线最佳化的“
军队”和傲视世界的自有先进制程,全力压榨 Intel 处理器的时脉极限,注定 Cyrix 高
效能超纯量 x86 处理器的荆棘之路。而短暂 VIA 时代的约书亚,也无力引领 Cyrix 的
技术体系,抵达那“即使是小厂,只要些许市占率,即可掠取丰厚的利润”的应许之地。
假使 Cyrix 晚诞生个 20 年,在半导体业界制程集体撞墙,连晶圆代工业者都有机会紧
咬 Intel 的今天,甚至从 ARM 指令集踏出第一步,是否会有截然不同的故事结局,就留
给各位读者去思考了。

Links booklink

Contact Us: admin [ a t ] ucptt.com