: → LIAR: 如果硬盘没问题,还会有什么因素会卡在I/O呢? 08/07 08:26
: → LIAR: 我报告一下实际的状况,整台电脑运作真的都会顿顿的,SMB 08/07 08:27
: → LIAR: 关掉就会恢复正常。 08/07 08:27
: → bitlife: 你说5月前正常,是否5月前才开始用smb? 存盘影片是只有即 08/07 09:04
: → bitlife: 时影像还是包含(你文中提到的)历史录影档案转移?单个摄影 08/07 09:06
: → bitlife: 机每秒流量? 网络是100M还是1G? 硬盘是HDD还是SDD? 要各 08/07 09:07
: → bitlife: 种因素一起看才比较好推测. 忘了还有同时多少摄影机(总秒 08/07 09:07
: → bitlife: 流量) 08/07 09:07
: 推 bitlife: 5月之后才开始用smb 08/07 09:09
: 推 bitlife: SSD 08/07 09:13
我整理一下这几个月的纪录,有点长,不好意思。
服务器接收9台监视器资料,监视器档案先录到自己的记忆卡,再上传到服务器,
所以应该不算即时的,但是每分钟每台都会有一个4~8MB大的新档案被上传。
硬盘是传统硬盘,服务器是笔电装CentOS,服务器和另外两台监视器连接的AP一起
接在P880下面,网络是100Mbit的。
平均一天会有75GB档案产生,也就是理论上每分钟平均会接收53.3MB大小的档案。
按照时间轴,服务器有几个重大事件:
4月samba启用接收档案 + rclone自动上传到Gsuite,自动运作正常。
5月都正常。
6月18日换硬盘500GB→2T,用clonezilla转移后xfs_growfs放大,没发现异常。
6月21日中发现有error log,当时无法解读也忘记纪录,用yum update后,grub
多出一个CentOS Linux 7 Rescue f8b625c751034e15b45eb19be9e13e06的开机选项
6月22日开始有CPU过载的问题。
硬盘买来前有先整个scan过,因为时间点接近,我一开始有看smart或hdparm稍微
判断一下,没有明显异状。
7月之后才安装mcelog,/var/log/message里面抓到一段
log:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 5
MISC 138a0000086 ADDR fef873c0
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
Hardware event. This is not a software error.
MCE 1
CPU 0 BANK 6
MISC 238a0000086 ADDR fef87380
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
印象中每次开机都有,但之后运作除了监视器传输出问题,其他都正常。
虽然log表示有硬件问题,但无法交叉测试,加上我用其他电脑直接网芳传大档案进去,
每秒也都有正常的几MB,只有监视器上传档案会延迟,所以这个error只能先搁置。
不过怀疑过CPU有问题,想说双核心,尝试用下面方式分别停掉一个核心
/sys/devices/system/cpu/cpu0/online
/sys/devices/system/cpu/cpu1/online
结果只会让CPU负载情况恶化。
因为公司因素,我没法说直接要一台新电脑取代,只能先尝试修过或是分析出
确定因素才能报修,所以目前我就卡在这边了。请问这个问题和硬件有关吗?