Re: [讨论] 如果这样子呢?

楼主: morris64 (morris)   2004-12-01 21:43:46
- 帐号删除机制由 3 个月减为 2 个月
- 30 分钟挂站踢人
- 检讨 VIP 政策
- 帐号注册改为总量管制: 总硬盘容量, 或总注册量管制
- BBS 上线总量管制
最重要的是, 未来一个月, 应该暂停注册, 并增加挂站踢人设计, 以进行大修!
(这些 constraint 在大修过后, 视状况可再重新开启)
我们持的理由如下:
前面站长提到, 每天申请帐号 1700, 删除帐号 700, 每个帐号平均使用 20 MB
若一个月停止注册, 约可减少 700 * 30 = 21000 个帐号
每天减少 700 * 20MB 约莫 10 GB 硬盘使用空间
现在这么不稳, 八成是某种内伤
如 帐号, 版面, 相簿, blog 等数据库有问题,
甚至是更底层的如 filesystem 的 inode 问题
暂停一个月的注册, 有两个好处:
一是, 确定不稳定是由 "上线人数太多" 造成, 还是其他原因造成的!
若一个月的停止注册加上挂站踢人, 还会造成系统不稳,
就代表是内伤, 而不是人数问题!
若从此系统稳定, 才代表跟上线人数有关
二是, 可以利用每天空出的 10 GB 空间,
针对 1/30 的数据库(帐号/版面/blog/图片)进行测试工作
测试方法可写一个程式, 每次取一个帐号, 到他的目录/数据库
测试 profile 各项属性的完整性, 相片档案格式的正确性,
档案权限的正确性等
30 天后 (假设每天能检查 1/30 的数据库), 整个档案系统应该都被检查完毕
也就是剩下的 (没有处理过的) 档案 是垃圾, 可以删除
这个测试目的在于:
a. 我们高度怀疑是否有些帐号 profile 该有的属性在某次内伤中 lost!
当这些帐号的主人上线时, 或有人查询他们时, 造成系统不稳
b. 可以删除不必要的档案 (例如某些帐号删除时, 正好遇到当机,
该删除的没删除掉)
若测试结果发现所有帐号相关资料都很完整. 但系统还是天天不稳定
代表着可能存在着更底层的内伤, 像是 inode 有问题, 或是 OS 不适合
此时 30 天过去, 已经能清出 10 * 30 GB 空间, 也好作档案系统调整动作
最后, 如果既不是资料层内伤, 也不是档案系统层内伤, 而 30 天内还是当机连连
就意味着是程式层的问题
- 是不是加太多新功能了? 一个一个取消试试看!
- 是不是 db connection 数量过多? 或其他程式上, 如 threads 或 processes 问题?
限制一下测试看看吧!
站长大人也不用太操心交接问题
若系统能调到够稳的状态, 交接给谁应该都不是问题!

Links booklink

Contact Us: admin [ a t ] ucptt.com