CPU 不可靠了?Google:芯片愈做愈小,反而让 CPU 运算错误难以预测
https://buzzorange.com/techorange/2021/06/18/small-chip-cause-cpu-error/
作者:新智元
Google 正在警惕一件事情,那就是:电脑芯片已经发展到不再可靠的地步,并且可能无
法以可预测的方式执行运算。
但并不是说它们曾经完全可靠。
实际上,CPU 错误的存在时间与 CPU 本身一样长。错误不仅产生于设计上的疏忽,也产
生于环境条件和产生故障的物理系统故障。
但是这些错误已经趋于罕见,只有最敏感的运算才会受到广泛的核查。如果系统看起来像
预期的那样运行。大多数情况下,电脑芯片被视为值得信赖的。
Google:芯片缩小可能是 CPU 错误无法预测的根本原因
Google 工程师 Peter Hochschild 在本周作为操作系统热点话题(HotOS)2021 会议的
一部分发布的影片中说:“我们的冒险,开始于生产团队越来越多地抱怨惯犯机器破坏数
据。”
“这些机器被可靠地指控破坏了多个不同的、稳定的、经过调试的大规模应用程式。每台
机器都被独立的团队反复指控,但传统的诊断方法没有发现它们有任何问题。”
在更深入地研究相关程式码和来自他们机器的操作遥测数据后,Google 工程师开始怀疑
他们的硬件有问题。他们的调查发现,硬件错误的发生率比预期的要高,而且这些问题在
安装后很久才零星出现,而且是在特定的、单独的 CPU 核心上,而不是在整个芯片或部
件家族上。
Google 的研究人员在研究这些无声的破坏性执行错误(CEEs)后得出结论:“易变的内
核(mercurial core)”是罪魁祸首——CPU 在不同情况下偶尔会计算错误,其方式无法
预测。
这些错误不是芯片架构设计失误的结果,也不是在制造测试中检测出来的。相反,
Google 工程师推断,这些错误的出现是因为我们已经将半导体制造推到了一个故障越来
越频繁的地步,而我们缺乏提前识别它们的工具。
在一篇题为“不算数的内核”(Cores that don’t count)的论文中,Hochschild 及其
同事列举了电脑内核不可靠的几个看似合理的原因,包括使罕见问题更加明显的大型伺服
器群、对整体可靠性的关注增加,以及减少软件错误率的软件开发改进。
“但我们认为有一个更根本的原因:越来越小的特征尺寸使其更接近 CMOS 的扩展极限,
再加上架构设计的复杂性不断增加。”研究人员指出,现有的验证方法不适合发现零星出
现的缺陷或部署后物理恶化的结果。
Facebook 也发现 CPU 的运算错误
今年 2 月,Facebook 发表了一篇相关的论文“规模化的无声数据破坏”(Silent Data
Corruption at Scale),其中指出:‘无声数据破坏正在成为数据中心中比以前观察到
的更常见的现象。”
该论文提出了缓解策略,但没有解决根本原因。
在 Google 的研究人员看来,Facebook 发现了一个不可靠核心的症状——无声的数据损
坏。但确定问题的原因,并提出修复方法,将需要进一步的工作。
行为不端的内核所带来的风险不仅包括崩溃(现有的错误处理的故障停止模型可以适应)
,还包括不正确的运算和数据丢失,这可能会被忽视,并在规模上构成特殊的风险。
“我们的一个易变的内核破坏了加密,”他解释说,“它是以这样一种方式做到的,即只
有它能解密它错误加密的内容。”
Google 的研究人员以“商业原因”为由拒绝透露其数据中心检测到的 CEE 率,尽管他们
提供了一个大致的数字,“每几千台机器有几个易变的内核– 与 Facebook 报告的比率
相似。”
理想情况下,Google 希望看到自动化的方法来识别易变的内核,并建议在整个芯片的生
命周期内进行 CPU 测试,而不是只在部署前依赖烧机测试。
这家公司目前依靠的是人类驱动的内核完整性审讯,这不是特别准确,因为识别可疑内核
的工具和技术仍在进行中。
作者:
SkyShih (天行者)
2021-06-19 13:12:00做不赢就放消息,学绿营?
作者:
wcre (锜)
2021-06-19 13:15:00觉得硬件不可靠就自己做啊,GoogleFB领多少,相信强者自己拿纸笔算一样很强
作者:
abyssa1 (abyssa1)
2021-06-19 13:26:00那就装三组来投票吧容错运算老题目了 很多解法啦
作者:
k258610 (k258610)
2021-06-19 13:40:00林纳斯好像也讲过类似的话
作者:
iFann (好饿饿饿.....)
2021-06-19 13:43:00量子力学了
作者:
ssccg (23)
2021-06-19 13:43:00硬件本来就一直都会错,就是错误修正要再加强啦
作者:
dave123 (宅男就是传奇)
2021-06-19 13:46:00要越做越大了?
作者: dragonrose (远离颠倒梦想) 2021-06-19 14:02:00
HW bug?
作者:
b777787 (冬瓜)
2021-06-19 14:07:00你干脆说 逻辑闸越多越难预测好了
作者:
klo578 (科科理性勿战)
2021-06-19 14:10:00stadia:
作者:
labbat (labbat)
2021-06-19 14:32:00赶快跑个prime95 v298b6压压惊
作者:
aowen (...)
2021-06-19 14:49:00硬件当然会错 不过google自己软件bug一大堆…
作者: jim543000 (玄黄无极) 2021-06-19 14:58:00
这里怎么好像没人知道铜原子扩散早就是大问题了?
作者: weinine32 (随意) 2021-06-19 16:22:00
你们的手机也不能维修只能换新阿。未来硬件就是这样了
作者: chiataan 2021-06-19 16:33:00
这家公司出嘴的比做事的多,做出来再说吧
它在说 silicon 不可靠,其实CPU 也有可能有很多 bug, 软件不容易发现,你看CPU 厂商发一堆 errata 就只到有人踩到有感觉,有人没踩到或没感觉。复杂的电路本来就无法保证没问题。
作者:
twicm (WhyMe)
2021-06-19 17:26:00Error, fault, failure, 自行google 一下
作者:
JustinCy (Step by step)
2021-06-19 18:28:00垃圾google. 干 做不赢开始放消息带风向尤其google是一家以软件为主的公司。硬件不是本行也可以讲得煞有其事
作者:
eric210 (老狗)
2021-06-19 18:33:00chipping
作者: NSYSUEE (Monkey) 2021-06-19 21:43:00
要嘛是IC设计的时候出问题,要嘛是你软件写的有问题,去怪芯片太小而出错..是不是搞错什么
作者:
hsujerry (NHK å®…å®…)
2021-06-19 21:46:00作者: kkking 2021-06-19 21:47:00
所以跟缩小有什么关系~
作者:
jupei (沛)
2021-06-19 21:50:00做不赢
作者:
hsujerry (NHK å®…å®…)
2021-06-19 21:56:00做越小 device的charge越少 约容易被外部干扰flip
作者:
GGing (小轩轩)
2021-06-19 22:19:00英国研究指出:电晶体越多越复杂
reliability跟radiation的问题比较难分析 而且目前还没有一个评量的标准
东西坏了就要换,搞不好岁修的时间来个 ATPG 检测
作者:
guanole (())
2021-06-20 09:44:00Emc
作者:
moboo (我是陈米布)
2021-06-20 11:09:00做赢的cpu就没bug吗?人家的网站呑吐是全世界前三的当然可以出来说
作者:
yudofu (豆腐)
2021-06-20 13:08:00IC里面的资料一直都有极小的机率性的读写错误问题,但是在极大量的吞吐量级下,变成不能忽视的存在
作者:
nbook (书)
2021-06-20 13:13:00跟越来越小有关系的就量子穿隧效应阿?
作者: jasonkey123 (jasonkey123) 2021-06-20 14:17:00
这篇文章能看出google翻译还有很大的改善空间
作者: evdict (飞月逐梦) 2021-06-20 14:39:00
干,一楼吃大便是不是。
作者:
dslite (呼呼)
2021-06-20 15:19:00lockstep不会?
作者: Jiraya 2021-06-20 21:55:00
他这个意思是要说 牙膏或其他厂的CPU有问题 然后又没办法找出证据? 用大数据debug感觉很猛
作者:
skevin (NG)
2021-06-21 12:25:00raid cpu ,选我正解
作者: linecross (EJEJ) 2021-06-21 22:31:00
智子开始科技锁定了啦