[新闻] Google:芯片愈小,反让CPU运算错误难预测 ljsnonocat2 PTT批踢踢实业坊

[新闻] Google:芯片愈小,反让CPU运算错误难预测

楼主: ljsnonocat2 (平凡是幸福) 2021-06-19 13:10:01

CPU 不可靠了？Google：芯片愈做愈小，反而让 CPU 运算错误难以预测
https://buzzorange.com/techorange/2021/06/18/small-chip-cause-cpu-error/
作者：新智元
Google 正在警惕一件事情，那就是：电脑芯片已经发展到不再可靠的地步，并且可能无
法以可预测的方式执行运算。
但并不是说它们曾经完全可靠。
实际上，CPU 错误的存在时间与 CPU 本身一样长。错误不仅产生于设计上的疏忽，也产
生于环境条件和产生故障的物理系统故障。
但是这些错误已经趋于罕见，只有最敏感的运算才会受到广泛的核查。如果系统看起来像
预期的那样运行。大多数情况下，电脑芯片被视为值得信赖的。
Google：芯片缩小可能是 CPU 错误无法预测的根本原因
Google 工程师 Peter Hochschild 在本周作为操作系统热点话题（HotOS）2021 会议的
一部分发布的影片中说：“我们的冒险，开始于生产团队越来越多地抱怨惯犯机器破坏数
据。”
“这些机器被可靠地指控破坏了多个不同的、稳定的、经过调试的大规模应用程式。每台
机器都被独立的团队反复指控，但传统的诊断方法没有发现它们有任何问题。”
在更深入地研究相关程式码和来自他们机器的操作遥测数据后，Google 工程师开始怀疑
他们的硬件有问题。他们的调查发现，硬件错误的发生率比预期的要高，而且这些问题在
安装后很久才零星出现，而且是在特定的、单独的 CPU 核心上，而不是在整个芯片或部
件家族上。
Google 的研究人员在研究这些无声的破坏性执行错误（CEEs）后得出结论：“易变的内
核（mercurial core）”是罪魁祸首——CPU 在不同情况下偶尔会计算错误，其方式无法
预测。
这些错误不是芯片架构设计失误的结果，也不是在制造测试中检测出来的。相反，
Google 工程师推断，这些错误的出现是因为我们已经将半导体制造推到了一个故障越来
越频繁的地步，而我们缺乏提前识别它们的工具。
在一篇题为“不算数的内核”（Cores that don’t count）的论文中，Hochschild 及其
同事列举了电脑内核不可靠的几个看似合理的原因，包括使罕见问题更加明显的大型伺服
器群、对整体可靠性的关注增加，以及减少软件错误率的软件开发改进。
“但我们认为有一个更根本的原因：越来越小的特征尺寸使其更接近 CMOS 的扩展极限，
再加上架构设计的复杂性不断增加。”研究人员指出，现有的验证方法不适合发现零星出
现的缺陷或部署后物理恶化的结果。
Facebook 也发现 CPU 的运算错误
今年 2 月，Facebook 发表了一篇相关的论文“规模化的无声数据破坏”（Silent Data
Corruption at Scale），其中指出：‘无声数据破坏正在成为数据中心中比以前观察到
的更常见的现象。”
该论文提出了缓解策略，但没有解决根本原因。
在 Google 的研究人员看来，Facebook 发现了一个不可靠核心的症状——无声的数据损
坏。但确定问题的原因，并提出修复方法，将需要进一步的工作。
行为不端的内核所带来的风险不仅包括崩溃（现有的错误处理的故障停止模型可以适应）
，还包括不正确的运算和数据丢失，这可能会被忽视，并在规模上构成特殊的风险。
“我们的一个易变的内核破坏了加密，”他解释说，“它是以这样一种方式做到的，即只
有它能解密它错误加密的内容。”
Google 的研究人员以“商业原因”为由拒绝透露其数据中心检测到的 CEE 率，尽管他们
提供了一个大致的数字，“每几千台机器有几个易变的内核– 与 Facebook 报告的比率
相似。”
理想情况下，Google 希望看到自动化的方法来识别易变的内核，并建议在整个芯片的生
命周期内进行 CPU 测试，而不是只在部署前依赖烧机测试。
这家公司目前依靠的是人类驱动的内核完整性审讯，这不是特别准确，因为识别可疑内核
的工具和技术仍在进行中。

作者: SkyShih (天行者) 2021-06-19 13:12:00

做不赢就放消息，学绿营？

作者: wcre (锜) 2021-06-19 13:15:00

觉得硬件不可靠就自己做啊，GoogleFB领多少，相信强者自己拿纸笔算一样很强

作者: abyssa1 (abyssa1) 2021-06-19 13:26:00

那就装三组来投票吧容错运算老题目了很多解法啦

作者: blackonefour (台南吴孟达) 2021-06-19 13:36:00

量子

作者: k258610 (k258610) 2021-06-19 13:40:00

林纳斯好像也讲过类似的话

作者: iFann (好饿饿饿.....) 2021-06-19 13:43:00

量子力学了

作者: ssccg (23) 2021-06-19 13:43:00

硬件本来就一直都会错，就是错误修正要再加强啦

作者: dave123 (宅男就是传奇) 2021-06-19 13:46:00

要越做越大了?

作者: dragonrose (远离颠倒梦想) 2021-06-19 14:02:00

HW bug?

作者: b777787 (冬瓜) 2021-06-19 14:07:00

你干脆说逻辑闸越多越难预测好了

作者: klo578 (科科理性勿战) 2021-06-19 14:10:00

stadia：

作者: labbat (labbat) 2021-06-19 14:32:00

赶快跑个prime95 v298b6压压惊

作者: aowen (...) 2021-06-19 14:49:00

硬件当然会错不过google自己软件bug一大堆…

作者: jim543000 (玄黄无极) 2021-06-19 14:58:00

这里怎么好像没人知道铜原子扩散早就是大问题了？

作者: seal46825 (Vanish) 2021-06-19 15:53:00

这是不是google翻译的文章啊

作者: weinine32 (随意) 2021-06-19 16:22:00

你们的手机也不能维修只能换新阿。未来硬件就是这样了

作者: chiataan 2021-06-19 16:33:00

这家公司出嘴的比做事的多，做出来再说吧

作者: Neistpoint (Neistpoint) 2021-06-19 17:13:00

它在说 silicon 不可靠，其实CPU 也有可能有很多 bug, 软件不容易发现，你看CPU 厂商发一堆 errata 就只到有人踩到有感觉，有人没踩到或没感觉。复杂的电路本来就无法保证没问题。

作者: twicm (WhyMe) 2021-06-19 17:26:00

Error, fault, failure, 自行google 一下

作者: Chilloutt (Robust) 2021-06-19 18:27:00

快来个量子容错算法

作者: JustinCy (Step by step) 2021-06-19 18:28:00

垃圾google. 干做不赢开始放消息带风向尤其google是一家以软件为主的公司。硬件不是本行也可以讲得煞有其事

作者: eric210 (老狗) 2021-06-19 18:33:00

chipping

作者: psychicaler (MOCVD) 2021-06-19 18:57:00

整篇都没提到跟芯片缩小关联性...

作者: Homedoni 2021-06-19 19:21:00

有论文吗没有就先观望

作者: bmpss95156 (光复路战车) 2021-06-19 20:30:00

三小翻译文章

作者: NSYSUEE (Monkey) 2021-06-19 21:43:00

要嘛是IC设计的时候出问题，要嘛是你软件写的有问题，去怪芯片太小而出错..是不是搞错什么

作者: hsujerry (NHK å®…å®…) 2021-06-19 21:46:00

https://en.wikipedia.org/wiki/Soft_error

作者: kkking 2021-06-19 21:47:00

所以跟缩小有什么关系~

作者: jupei (沛) 2021-06-19 21:50:00

做不赢

作者: hsujerry (NHK å®…å®…) 2021-06-19 21:56:00

做越小 device的charge越少约容易被外部干扰flip

作者: GGing (小轩轩) 2021-06-19 22:19:00

英国研究指出：电晶体越多越复杂

作者: darky897 (达奇仔) 2021-06-20 00:08:00

reliability跟radiation的问题比较难分析而且目前还没有一个评量的标准

作者: Shepherd1987 (夜之彼方) 2021-06-20 00:37:00

一颗有疑虑可以买两颗, 选我正解

作者: will12345610 (Mr.Positive) 2021-06-20 03:17:00

东西坏了就要换,搞不好岁修的时间来个 ATPG 检测

作者: guanole (()) 2021-06-20 09:44:00

Emc

作者: InvincibleK (我是无敌的K) 2021-06-20 11:02:00

英特尔表示:

作者: moboo (我是陈米布) 2021-06-20 11:09:00

做赢的cpu就没bug吗？人家的网站呑吐是全世界前三的当然可以出来说

作者: ian41360 (荣) 2021-06-20 11:19:00

tunneling effect？

作者: yudofu (豆腐) 2021-06-20 13:08:00

IC里面的资料一直都有极小的机率性的读写错误问题，但是在极大量的吞吐量级下，变成不能忽视的存在

作者: nbook (书) 2021-06-20 13:13:00

跟越来越小有关系的就量子穿隧效应阿?

作者: jasonkey123 (jasonkey123) 2021-06-20 14:17:00

这篇文章能看出google翻译还有很大的改善空间

作者: evdict (飞月逐梦) 2021-06-20 14:39:00

干，一楼吃大便是不是。

作者: dslite (呼呼) 2021-06-20 15:19:00

lockstep不会?

作者: canallchen (agentx) 2021-06-20 20:26:00

量子纠结，老高有讲过。

作者: Jiraya 2021-06-20 21:55:00

他这个意思是要说牙膏或其他厂的CPU有问题然后又没办法找出证据？用大数据debug感觉很猛

作者: skevin (NG) 2021-06-21 12:25:00

raid cpu ,选我正解

作者: linecross (EJEJ) 2021-06-21 22:31:00

智子开始科技锁定了啦

继续阅读

[新闻] 郭台铭：任重道远、尽力而为hvariables [讨论] 放弃系统厂直上国营的多吗？wwwson1256 [面试] 工研院面试请益sonyes103 Re: [讨论] 为什么台积电不做DRAM?sendtony6 [请益] 想请教在台美商谈薪以及competing offersgnitcue [讨论] 请问大家转职后后悔的原因是...？fly10847 [请益] offer请益blackhard Re: [新闻] 台积电获授权捐500万剂疫苗董座刘德音亲villagermess Re: [请益] 群联 SSD 职缺的未来性trink Re: [请益] 群联 SSD 职缺的未来性Onnnnnnnnnnn