Re: [请益] 如何有效管理大量的刀锋服务器..?

楼主: Shanye (Shanye)   2014-01-03 10:28:08
※ 引述《JoGYa (旧机歪a)》之铭言:
: 请教版上各位高手,
: 小弟在某家游戏公司工作,
: 有上千台HP及IBM的blade server,
: HP http://goo.gl/ZjfGGU
: IBM http://goo.gl/VOJnA4
: 公司主要以这两类为主,常见的rack server倒是不多,
: 像这类设备的资产都是由IT在负责的,
: 在这么多的设备,每年资产盘点都是一件很麻烦的事情,
: 服务器的位置经常在移动,
: 已经连续两年是在会计盘点前跑机房好几趟做清点纪录位置,
: 这个方法真的是很累人,所以想请教版上各位高手们,
: 不晓得有没有高手是管理过上千台blade server
: 另外想请问是否有较推荐的服务器监控程式,
: 目前公司是使用Zabbix,但有意思想汰换掉改用其他的软件,
: 系统主要以Centos及Windows为大宗
: 希望可以有高手推荐 谢谢
嗯 我协助管理过IBM的刀疯 客户是银行
上面跑的有prodution, S2, DR主机 全部走SAN boot
原则上就是用Direct作整合还有发alarm
再加上客制化AP捞资产报表收集刀片对映管理者资讯
先来归类你会遇到的问题
1. 实体主机位置
你说刀片常常会搬来搬去 这很常见
管理员要将硬件资源release出来
或者有部分刀片硬件故障 须作紧急调整等都会移动刀
刀疯管理员也遇到盘点困难 这无解
windows还可以考虑用system center 前提是都得加网域
用SC我觉得是自找麻烦
无论如何 请用原厂的管理工具是第一步
要收费 废话 最赚钱就在这块 你老板以为光卖硬件有钱赚吗
连微软 VM都这一两年都在疯狂推SC&VCOPS了
监控是有knowhow的
2. IP WWN等资讯
这部分看贵公司有没有给网管组分工了
不然光是记录每刀的IP MAC
若有走FIBER还要记录WWN & zoning config
(刀疯有独立SAN module, 有时候网管会推回来给你作)
3. 硬件 韧体版本资讯
有时候遇到windows update开不了机怎么办?
原厂会教你先提供firmware版本资讯 从刀片parts到module都有
几百几千刀怎么作? 一箱一箱从MM看吧 这部分请一定要记录
并请原厂提供firmware support list
4. 管理窗口
你管理刀疯 不过每台主机都会有专属管理者
硬件或者服务有问题告警要发给谁?
这人离职了吗? 分机有没有变? 业物(免磨刀)有没有交接?
这只能客制化作了 手工记录也是很累的
5. 系统资讯
系统版本 service pack版本 license
尤其是大量授权的 这也要记录
时间不多暂时想到这些 还是建议请原厂或者专业SI协助吧
不然你负担越来越大 业务又交不出去 只是恶性循环
每年请工读生作一个月盘点也是种方法喔
在下曾经帮某外商银行作盘点 当年省了70万美金的license费用
财务长CFO亲自过来跟我握手
有心要作的话 你会是公司内不可撼动的人员
楼主: Shanye (Shanye)   2014-01-03 10:28:00
看了一下打好多 这篇就不收费了(爆)还有各机柜的电源回路 机柜图也要记录
作者: liskenny (Why so serious?)   2014-01-03 11:09:00
推!
作者: jashking (拉拉拉)   2014-01-06 01:42:00
推机柜图 接手机房经验尚浅 我以为这是每家公司都有的..

Links booklink

Contact Us: admin [ a t ] ucptt.com