[新闻] Google:芯片愈小,反让CPU运算错误难预测

楼主: ljsnonocat2 (平凡是幸福)   2021-06-19 13:10:01
CPU 不可靠了?Google:芯片愈做愈小,反而让 CPU 运算错误难以预测
https://buzzorange.com/techorange/2021/06/18/small-chip-cause-cpu-error/
作者:新智元
Google 正在警惕一件事情,那就是:电脑芯片已经发展到不再可靠的地步,并且可能无
法以可预测的方式执行运算。
但并不是说它们曾经完全可靠。
实际上,CPU 错误的存在时间与 CPU 本身一样长。错误不仅产生于设计上的疏忽,也产
生于环境条件和产生故障的物理系统故障。
但是这些错误已经趋于罕见,只有最敏感的运算才会受到广泛的核查。如果系统看起来像
预期的那样运行。大多数情况下,电脑芯片被视为值得信赖的。
Google:芯片缩小可能是 CPU 错误无法预测的根本原因
Google 工程师 Peter Hochschild 在本周作为操作系统热点话题(HotOS)2021 会议的
一部分发布的影片中说:“我们的冒险,开始于生产团队越来越多地抱怨惯犯机器破坏数
据。”
“这些机器被可靠地指控破坏了多个不同的、稳定的、经过调试的大规模应用程式。每台
机器都被独立的团队反复指控,但传统的诊断方法没有发现它们有任何问题。”
在更深入地研究相关程式码和来自他们机器的操作遥测数据后,Google 工程师开始怀疑
他们的硬件有问题。他们的调查发现,硬件错误的发生率比预期的要高,而且这些问题在
安装后很久才零星出现,而且是在特定的、单独的 CPU 核心上,而不是在整个芯片或部
件家族上。
Google 的研究人员在研究这些无声的破坏性执行错误(CEEs)后得出结论:“易变的内
核(mercurial core)”是罪魁祸首——CPU 在不同情况下偶尔会计算错误,其方式无法
预测。
这些错误不是芯片架构设计失误的结果,也不是在制造测试中检测出来的。相反,
Google 工程师推断,这些错误的出现是因为我们已经将半导体制造推到了一个故障越来
越频繁的地步,而我们缺乏提前识别它们的工具。
在一篇题为“不算数的内核”(Cores that don’t count)的论文中,Hochschild 及其
同事列举了电脑内核不可靠的几个看似合理的原因,包括使罕见问题更加明显的大型伺服
器群、对整体可靠性的关注增加,以及减少软件错误率的软件开发改进。
“但我们认为有一个更根本的原因:越来越小的特征尺寸使其更接近 CMOS 的扩展极限,
再加上架构设计的复杂性不断增加。”研究人员指出,现有的验证方法不适合发现零星出
现的缺陷或部署后物理恶化的结果。
Facebook 也发现 CPU 的运算错误
今年 2 月,Facebook 发表了一篇相关的论文“规模化的无声数据破坏”(Silent Data
Corruption at Scale),其中指出:‘无声数据破坏正在成为数据中心中比以前观察到
的更常见的现象。”
该论文提出了缓解策略,但没有解决根本原因。
在 Google 的研究人员看来,Facebook 发现了一个不可靠核心的症状——无声的数据损
坏。但确定问题的原因,并提出修复方法,将需要进一步的工作。
行为不端的内核所带来的风险不仅包括崩溃(现有的错误处理的故障停止模型可以适应)
,还包括不正确的运算和数据丢失,这可能会被忽视,并在规模上构成特殊的风险。
“我们的一个易变的内核破坏了加密,”他解释说,“它是以这样一种方式做到的,即只
有它能解密它错误加密的内容。”
Google 的研究人员以“商业原因”为由拒绝透露其数据中心检测到的 CEE 率,尽管他们
提供了一个大致的数字,“每几千台机器有几个易变的内核– 与 Facebook 报告的比率
相似。”
理想情况下,Google 希望看到自动化的方法来识别易变的内核,并建议在整个芯片的生
命周期内进行 CPU 测试,而不是只在部署前依赖烧机测试。
这家公司目前依靠的是人类驱动的内核完整性审讯,这不是特别准确,因为识别可疑内核
的工具和技术仍在进行中。
作者: SkyShih (天行者)   2021-06-19 13:12:00
做不赢就放消息,学绿营?
作者: wcre (锜)   2021-06-19 13:15:00
觉得硬件不可靠就自己做啊,GoogleFB领多少,相信强者自己拿纸笔算一样很强
作者: abyssa1 (abyssa1)   2021-06-19 13:26:00
那就装三组来投票吧容错运算老题目了 很多解法啦
作者: blackonefour (台南吴孟达)   2021-06-19 13:36:00
量子
作者: k258610 (k258610)   2021-06-19 13:40:00
林纳斯好像也讲过类似的话
作者: iFann (好饿饿饿.....)   2021-06-19 13:43:00
量子力学了
作者: ssccg (23)   2021-06-19 13:43:00
硬件本来就一直都会错,就是错误修正要再加强啦
作者: dave123 (宅男就是传奇)   2021-06-19 13:46:00
要越做越大了?
作者: dragonrose (远离颠倒梦想)   2021-06-19 14:02:00
HW bug?
作者: b777787 (冬瓜)   2021-06-19 14:07:00
你干脆说 逻辑闸越多越难预测好了
作者: klo578 (科科理性勿战)   2021-06-19 14:10:00
stadia:
作者: labbat (labbat)   2021-06-19 14:32:00
赶快跑个prime95 v298b6压压惊
作者: aowen (...)   2021-06-19 14:49:00
硬件当然会错 不过google自己软件bug一大堆…
作者: jim543000 (玄黄无极)   2021-06-19 14:58:00
这里怎么好像没人知道铜原子扩散早就是大问题了?
作者: seal46825 (Vanish)   2021-06-19 15:53:00
这是不是google翻译的文章啊
作者: weinine32 (随意)   2021-06-19 16:22:00
你们的手机也不能维修只能换新阿。未来硬件就是这样了
作者: chiataan   2021-06-19 16:33:00
这家公司出嘴的比做事的多,做出来再说吧
作者: Neistpoint (Neistpoint)   2021-06-19 17:13:00
它在说 silicon 不可靠,其实CPU 也有可能有很多 bug, 软件不容易发现,你看CPU 厂商发一堆 errata 就只到有人踩到有感觉,有人没踩到或没感觉。复杂的电路本来就无法保证没问题。
作者: twicm (WhyMe)   2021-06-19 17:26:00
Error, fault, failure, 自行google 一下
作者: Chilloutt (Robust)   2021-06-19 18:27:00
快来个量子容错算法
作者: JustinCy (Step by step)   2021-06-19 18:28:00
垃圾google. 干 做不赢开始放消息带风向尤其google是一家以软件为主的公司。硬件不是本行也可以讲得煞有其事
作者: eric210 (老狗)   2021-06-19 18:33:00
chipping
作者: psychicaler (MOCVD)   2021-06-19 18:57:00
整篇都没提到跟芯片缩小关联性...
作者: Homedoni   2021-06-19 19:21:00
有论文吗 没有就先观望
作者: bmpss95156 (光复路战车)   2021-06-19 20:30:00
三小翻译文章
作者: NSYSUEE (Monkey)   2021-06-19 21:43:00
要嘛是IC设计的时候出问题,要嘛是你软件写的有问题,去怪芯片太小而出错..是不是搞错什么
作者: hsujerry (NHK å®…å®…)   2021-06-19 21:46:00
作者: kkking   2021-06-19 21:47:00
所以跟缩小有什么关系~
作者: jupei (沛)   2021-06-19 21:50:00
做不赢
作者: hsujerry (NHK å®…å®…)   2021-06-19 21:56:00
做越小 device的charge越少 约容易被外部干扰flip
作者: GGing (小轩轩)   2021-06-19 22:19:00
英国研究指出:电晶体越多越复杂
作者: darky897 (达奇仔)   2021-06-20 00:08:00
reliability跟radiation的问题比较难分析 而且目前还没有一个评量的标准
作者: Shepherd1987 (夜之彼方)   2021-06-20 00:37:00
一颗有疑虑可以买两颗, 选我正解
作者: will12345610 (Mr.Positive)   2021-06-20 03:17:00
东西坏了就要换,搞不好岁修的时间来个 ATPG 检测
作者: guanole (())   2021-06-20 09:44:00
Emc
作者: InvincibleK (我是无敌的K)   2021-06-20 11:02:00
英特尔表示:
作者: moboo (我是陈米布)   2021-06-20 11:09:00
做赢的cpu就没bug吗?人家的网站呑吐是全世界前三的当然可以出来说
作者: ian41360 (荣)   2021-06-20 11:19:00
tunneling effect?
作者: yudofu (豆腐)   2021-06-20 13:08:00
IC里面的资料一直都有极小的机率性的读写错误问题,但是在极大量的吞吐量级下,变成不能忽视的存在
作者: nbook (书)   2021-06-20 13:13:00
跟越来越小有关系的就量子穿隧效应阿?
作者: jasonkey123 (jasonkey123)   2021-06-20 14:17:00
这篇文章能看出google翻译还有很大的改善空间
作者: evdict (飞月逐梦)   2021-06-20 14:39:00
干,一楼吃大便是不是。
作者: dslite (呼呼)   2021-06-20 15:19:00
lockstep不会?
作者: canallchen (agentx)   2021-06-20 20:26:00
量子纠结,老高有讲过。
作者: Jiraya   2021-06-20 21:55:00
他这个意思是要说 牙膏或其他厂的CPU有问题 然后又没办法找出证据? 用大数据debug感觉很猛
作者: skevin (NG)   2021-06-21 12:25:00
raid cpu ,选我正解
作者: linecross (EJEJ)   2021-06-21 22:31:00
智子开始科技锁定了啦

Links booklink

Contact Us: admin [ a t ] ucptt.com