Re: [问题] 监视器网芳传档案,CPU会突然爆高

楼主: LIAR (玻璃做的大叔)   2020-08-08 00:26:28
: → LIAR: 如果硬盘没问题,还会有什么因素会卡在I/O呢? 08/07 08:26
: → LIAR: 我报告一下实际的状况,整台电脑运作真的都会顿顿的,SMB 08/07 08:27
: → LIAR: 关掉就会恢复正常。 08/07 08:27
: → bitlife: 你说5月前正常,是否5月前才开始用smb? 存盘影片是只有即 08/07 09:04
: → bitlife: 时影像还是包含(你文中提到的)历史录影档案转移?单个摄影 08/07 09:06
: → bitlife: 机每秒流量? 网络是100M还是1G? 硬盘是HDD还是SDD? 要各 08/07 09:07
: → bitlife: 种因素一起看才比较好推测. 忘了还有同时多少摄影机(总秒 08/07 09:07
: → bitlife: 流量) 08/07 09:07
: 推 bitlife: 5月之后才开始用smb 08/07 09:09
: 推 bitlife: SSD 08/07 09:13
我整理一下这几个月的纪录,有点长,不好意思。
服务器接收9台监视器资料,监视器档案先录到自己的记忆卡,再上传到服务器,
所以应该不算即时的,但是每分钟每台都会有一个4~8MB大的新档案被上传。
硬盘是传统硬盘,服务器是笔电装CentOS,服务器和另外两台监视器连接的AP一起
接在P880下面,网络是100Mbit的。
平均一天会有75GB档案产生,也就是理论上每分钟平均会接收53.3MB大小的档案。
按照时间轴,服务器有几个重大事件:
4月samba启用接收档案 + rclone自动上传到Gsuite,自动运作正常。
5月都正常。
6月18日换硬盘500GB→2T,用clonezilla转移后xfs_growfs放大,没发现异常。
6月21日中发现有error log,当时无法解读也忘记纪录,用yum update后,grub
多出一个CentOS Linux 7 Rescue f8b625c751034e15b45eb19be9e13e06的开机选项
6月22日开始有CPU过载的问题。
硬盘买来前有先整个scan过,因为时间点接近,我一开始有看smart或hdparm稍微
判断一下,没有明显异状。
7月之后才安装mcelog,/var/log/message里面抓到一段
log:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 5
MISC 138a0000086 ADDR fef873c0
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
Hardware event. This is not a software error.
MCE 1
CPU 0 BANK 6
MISC 238a0000086 ADDR fef87380
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
印象中每次开机都有,但之后运作除了监视器传输出问题,其他都正常。
虽然log表示有硬件问题,但无法交叉测试,加上我用其他电脑直接网芳传大档案进去,
每秒也都有正常的几MB,只有监视器上传档案会延迟,所以这个error只能先搁置。
不过怀疑过CPU有问题,想说双核心,尝试用下面方式分别停掉一个核心
/sys/devices/system/cpu/cpu0/online
/sys/devices/system/cpu/cpu1/online
结果只会让CPU负载情况恶化。
因为公司因素,我没法说直接要一台新电脑取代,只能先尝试修过或是分析出
确定因素才能报修,所以目前我就卡在这边了。请问这个问题和硬件有关吗?
作者: mirc (阿谷)   2020-08-08 04:01:00
尝试先把硬盘换掉
作者: bitlife (BIT一生)   2020-08-08 06:17:00
先确定硬盘是PMR(CMR),如果是SMR会变慢是很有可能的.现今硬盘SMR鱼目混珠,连NAS碟都有厂商用了SMR.前几个月各硬盘厂在民意压力下公布硬盘的PMR,SMR型号.去Storage_Zone和PC_Shopping查一下型号. 我去年买一个外接硬盘用来复制整个home目录,9年前买的500GB 2.5吋大约100MB/s,新买的硬盘常常掉到10~30MB/s,查了才知道近年硬盘有SMR问题立刻退货换硬盘也要注意别再买到SMR,不知道怎么选就买那嘶狼,目前已知那嘶狼没有SMR的(未来不知)#1UemJtmt (PC_Shopping)ubuntu有内建[磁盘]工具程式可以做简单的测速,CentOS应该也有,用测速就可以发现PMR的曲线相对很稳定维持定速月高速,SMR忽快忽慢,一旦开始掉速后的忽快也不会很快且
楼主: LIAR (玻璃做的大叔)   2020-08-08 07:43:00
确定是SMR无误,囧
作者: bitlife (BIT一生)   2020-08-08 08:08:00
帮你写个惨字...
楼主: LIAR (玻璃做的大叔)   2020-08-08 22:18:00
惨!不过先撇开公司的事情,其实我也好奇CPU的那个error到底有没有关联就是了,解读不出来XD
作者: asdfghjklasd (好累的大一生活)   2020-08-08 22:55:00
HDD 因为速度慢写不下去,会变成Q在系统里RAM CPU 都可能会愈来愈高的使用率
楼主: LIAR (玻璃做的大叔)   2020-08-09 00:12:00
不过我用自己电脑传档案进去,还是有几个MB/S耶?所以SMR我也是有怀疑是否为主因。我是有遇过硬盘坏轨让电脑龟在那边,但是SMR会这么严重吗?
作者: bitlife (BIT一生)   2020-08-09 10:32:00
建议可以从仅1台摄影机流量开始测试,逐步增加连线的摄影机数量,看看在数量几台的时候出现问题.如果wa是随数量增加而恶化,很可能真的是SMR造成的问题.我home的资料用前面提的500GB 2.5吋,我记得第一次备份只花了大概4小时.同样时期的另两台2.5吋 500GB,放在我目前的a300中,一台当home不定期用dd将整颗500GB硬件进行全部磁区的完整备份,也不到2个小时(整颗硬盘dd比home的rsync快是正常).用上面提的SMR,我晚上11点左右丢给它去rsync,早上起来至少经过7小时还才备份到1x%,看了就晕倒,估计要1~2天才完成500GB的初次rsync.查了资料就连络厂商退货了500GB硬盘除非我刚好买到碟王,不然SMR就是如此的可怕 XD上面的资料凭印象,时间和%数可能有问题,但初次rsync要超过24小时是绝对没记错的光是快速格式化就要闪灯超级超级久的硬盘(我用几种格式试过),我也是第1次遇到快速格式化真的久到我都以为当了 XD

Links booklink

Contact Us: admin [ a t ] ucptt.com