Re: [问题] 监视器网芳传档案，CPU会突然爆高 LIAR PTT批踢踢实业坊

Re: [问题] 监视器网芳传档案，CPU会突然爆高

楼主: LIAR (玻璃做的大叔) 2020-08-08 00:26:28

: → LIAR: 如果硬盘没问题，还会有什么因素会卡在I/O呢？ 08/07 08:26
: → LIAR: 我报告一下实际的状况，整台电脑运作真的都会顿顿的，SMB 08/07 08:27
: → LIAR: 关掉就会恢复正常。 08/07 08:27
: → bitlife: 你说5月前正常,是否5月前才开始用smb? 存盘影片是只有即 08/07 09:04
: → bitlife: 时影像还是包含(你文中提到的)历史录影档案转移?单个摄影 08/07 09:06
: → bitlife: 机每秒流量? 网络是100M还是1G? 硬盘是HDD还是SDD? 要各 08/07 09:07
: → bitlife: 种因素一起看才比较好推测. 忘了还有同时多少摄影机(总秒 08/07 09:07
: → bitlife: 流量) 08/07 09:07
: 推 bitlife: 5月之后才开始用smb 08/07 09:09
: 推 bitlife: SSD 08/07 09:13
我整理一下这几个月的纪录，有点长，不好意思。
服务器接收9台监视器资料，监视器档案先录到自己的记忆卡，再上传到服务器，
所以应该不算即时的，但是每分钟每台都会有一个4~8MB大的新档案被上传。
硬盘是传统硬盘，服务器是笔电装CentOS，服务器和另外两台监视器连接的AP一起
接在P880下面，网络是100Mbit的。
平均一天会有75GB档案产生，也就是理论上每分钟平均会接收53.3MB大小的档案。
按照时间轴，服务器有几个重大事件：
4月samba启用接收档案 + rclone自动上传到Gsuite，自动运作正常。
5月都正常。
6月18日换硬盘500GB→2T，用clonezilla转移后xfs_growfs放大，没发现异常。
6月21日中发现有error log，当时无法解读也忘记纪录，用yum update后，grub
多出一个CentOS Linux 7 Rescue f8b625c751034e15b45eb19be9e13e06的开机选项
6月22日开始有CPU过载的问题。
硬盘买来前有先整个scan过，因为时间点接近，我一开始有看smart或hdparm稍微
判断一下，没有明显异状。
7月之后才安装mcelog，/var/log/message里面抓到一段
log:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 5
MISC 138a0000086 ADDR fef873c0
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
Hardware event. This is not a software error.
MCE 1
CPU 0 BANK 6
MISC 238a0000086 ADDR fef87380
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
印象中每次开机都有，但之后运作除了监视器传输出问题，其他都正常。
虽然log表示有硬件问题，但无法交叉测试，加上我用其他电脑直接网芳传大档案进去，
每秒也都有正常的几MB，只有监视器上传档案会延迟，所以这个error只能先搁置。
不过怀疑过CPU有问题，想说双核心，尝试用下面方式分别停掉一个核心
/sys/devices/system/cpu/cpu0/online
/sys/devices/system/cpu/cpu1/online
结果只会让CPU负载情况恶化。
因为公司因素，我没法说直接要一台新电脑取代，只能先尝试修过或是分析出
确定因素才能报修，所以目前我就卡在这边了。请问这个问题和硬件有关吗？

作者: mirc (阿谷) 2020-08-08 04:01:00

尝试先把硬盘换掉

作者: bitlife (BIT一生) 2020-08-08 06:17:00

先确定硬盘是PMR(CMR),如果是SMR会变慢是很有可能的.现今硬盘SMR鱼目混珠,连NAS碟都有厂商用了SMR.前几个月各硬盘厂在民意压力下公布硬盘的PMR,SMR型号.去Storage_Zone和PC_Shopping查一下型号. 我去年买一个外接硬盘用来复制整个home目录,9年前买的500GB 2.5吋大约100MB/s,新买的硬盘常常掉到10~30MB/s,查了才知道近年硬盘有SMR问题立刻退货换硬盘也要注意别再买到SMR,不知道怎么选就买那嘶狼,目前已知那嘶狼没有SMR的(未来不知)#1UemJtmt (PC_Shopping)ubuntu有内建[磁盘]工具程式可以做简单的测速,CentOS应该也有,用测速就可以发现PMR的曲线相对很稳定维持定速月高速,SMR忽快忽慢,一旦开始掉速后的忽快也不会很快且

楼主: LIAR (玻璃做的大叔) 2020-08-08 07:43:00

确定是SMR无误，囧

作者: bitlife (BIT一生) 2020-08-08 08:08:00

帮你写个惨字...

楼主: LIAR (玻璃做的大叔) 2020-08-08 22:18:00

惨！不过先撇开公司的事情，其实我也好奇CPU的那个error到底有没有关联就是了，解读不出来XD

作者: asdfghjklasd (好累的大一生活) 2020-08-08 22:55:00

HDD 因为速度慢写不下去,会变成Q在系统里RAM CPU 都可能会愈来愈高的使用率

楼主: LIAR (玻璃做的大叔) 2020-08-09 00:12:00

不过我用自己电脑传档案进去，还是有几个MB/S耶？所以SMR我也是有怀疑是否为主因。我是有遇过硬盘坏轨让电脑龟在那边，但是SMR会这么严重吗？

作者: bitlife (BIT一生) 2020-08-09 10:32:00

建议可以从仅1台摄影机流量开始测试,逐步增加连线的摄影机数量,看看在数量几台的时候出现问题.如果wa是随数量增加而恶化,很可能真的是SMR造成的问题.我home的资料用前面提的500GB 2.5吋,我记得第一次备份只花了大概4小时.同样时期的另两台2.5吋 500GB,放在我目前的a300中,一台当home不定期用dd将整颗500GB硬件进行全部磁区的完整备份,也不到2个小时(整颗硬盘dd比home的rsync快是正常).用上面提的SMR,我晚上11点左右丢给它去rsync,早上起来至少经过7小时还才备份到1x%,看了就晕倒,估计要1~2天才完成500GB的初次rsync.查了资料就连络厂商退货了500GB硬盘除非我刚好买到碟王,不然SMR就是如此的可怕 XD上面的资料凭印象,时间和%数可能有问题,但初次rsync要超过24小时是绝对没记错的光是快速格式化就要闪灯超级超级久的硬盘(我用几种格式试过),我也是第1次遇到快速格式化真的久到我都以为当了 XD

继续阅读

CentOS架设SSH server connection time outlocouce [问题] 监视器网芳传档案，CPU会突然爆高LIAR [问题] genymotion装ARM Translation不成功ededws1 Re: [心得] Arch Linux with Ryzen Laptopjohnjohnlin Re: [问题] ssh关掉后重开保持同一画面的工具bfbf510a [心得] Arch Linux with Ryzen LaptopArbin [分享] Debian 安装笔记yuanfarn [问题] FTP设定帐号到期时间ak77now [问题] ssh关掉后重开保持同一画面的工具bfbf510a Re: [闲聊] 有前辈听过 linuxFab 吗?allyourshit