用户名 密 码 验证码






协会 会刊 检测验收 新闻动态     人物 展会信息 数据中心     产品 技术前沿 专题 绿色节能 标准规范
论坛 专家 认证培训 业界资讯     企业 热点推荐 解决方案     厂商 项目信息 视频 优秀机房 图书推荐
    您的位置: 中国计算机用户协会机房设备应用分会 > 数据中心 > 机房改造及运维管理经验分享
  产品中心 >>更多  
 
能源管理:远不止一
在设计精妙的数据中心基础设施中,智能PD
 
介绍一种数据机房即
某银行测试中心系统机房,为保障在线运行设
 
让IT系统自由呼吸
随着信息技术在企业中的普及、应用和深化
  技术前沿 >>更多  
· 阿尔法特何以在数据中心领域做到独领风
· 阿尔法特闪耀2016年中国
· 阿尔法特:整合产品优势,打造核心竞争
· 让IT系统自由呼吸
· 空调保护,UPS可有所作为
· 如何通过闪存存储提升数据库服务器性能
· “天河一号”超越“美洲豹” 成世界最
· 微软打造简单、机动、环保的未来数据中
· 无需制冷剂的数据中心降温系统诞生
· 艾默生推出新型数据中心能源节约方案
· 惠普新数据中心利用冷热空气混合保持恒
 
  机房改造及运维管理经验分享  
机房改造及运维管理经验分享
作者: 来源:《机房技术与管理》 日期:2015-12-21 16:57:10

机房改造及运维管理经验分享
文 / 国家质检总局信息中心 兰文科

     国家质检总局成立于 2002年,成立前部分核心的信息化应用系统已在全国范围使用,同期建设了质检总局信息化机房。随着信息化逐步在工作中深入发展,机房规模也在逐步扩大,目前面积达到1000㎡,整个机房承载着全国检验检疫、质量监督、视频会议、综合行政管理平台、邮件、网站、人事、财务等许多重要的应用系统,在工作中发挥巨大的作用,机房的运维管理工作日益重要。
     原来的机房 UPS、精密空调、网络、服务器、存储以及安全等设备主要是在质检总局三次重大项目中购置,机房内供配电系统、空调制冷系统等许多设备均为2002年购置,已使用10余年,且由于供电系统和空调制冷系统均已达到饱和容量,设备长年处于满负荷运行状态,加剧设备老化速度,每年所产生的维修及维护费用也随之增高,配件更换已比较困难,部分设备早已达到报废标准,因此发生故障的频率逐年递增,空调压缩机偶尔停机,造成机房温度升高,甚至出现过机房严重漏水事件 ;供配电系统也时常会出现问题。这些因机房基础设施出现的故障往往会使网络及服务器设备因非正常停机而无法再起,使一些核心应用系统中断。这些问题给机房运行安全带来很大隐患,也给日常运维带来极大的困难和压力,机房改造也因难度大、技术要求高及应用系统不能长时间中断等因素而一直未启动。这种情况对信息化发展较早的单位,是非常典型和有代表性的。



     为解决机房在运行维护中存在的问题,在机房改造中制定了顶层设计方案,积极争取改造资金,我们的运维管理范围不仅包括机房基础设施,也包括机房网络服务器设备,在实际工作中,我们也深刻认识到前者出现问题影响的是面,后者影响的是点,因此通过对设备出现故障影响机房运转的程度,对改造进行合理分类。改造从2012年开始实施,截止目前逐步对机房制冷系统、电池、主要机房强弱电布线、视频监控及供配电系统进行了改造,目前已基本解决了改造前存在的风险。
     制冷系统的改造是通过积极向国务院机关事务管理局申请绿色机房空调节能改造项目并获得 260万元资金支持,同时国管局也将质检总局作为部委节能改造试点单位 ,用7台精密加热管技术空调更换了 9台旧精密空调。在空调的配电柜改造中,采取了临时电源的方式,保证了机房不断制冷。在更换空调安放空间不够的情况下,通过对机房换风、补冷不断进行试验,制定切合实际的改造方案,保证了改造期间机房应用系统连续运转。制冷系统系统改造不仅解决了原有制冷方面存在的问题,同时能耗也降低20%,达到了节能改造的目的。
     更换电池到 UPS间的老旧线缆,降低了线缆起火的隐患。更换了运行不稳定的UPS,降低了供配电系统风险,对供配电线路进行梳理,降低了运维管理难度,在UPS及相应配电柜更换中采取合理手段,保障机房供电的连续性。
     机房改造过程未出现任何安全事故,取得了非常好的成效,不仅大大减低了机房运行的故障率,同时也大大降低了机房运行风险,并且改善了运维工作的压力。
     在运维管理中也取得了一定经验,首先是建立了一支稳定的运维队伍,稳定的运维队伍是高效及持续不断解决运维中存在的问题的保障,同时在运维工作中不断进行运维管理建设,提升数据中心的运维管理能力,在管理中引入了ITIL管理思想和方法,ITIL为信息技术服务管理实践提供了一个客观、严谨、可量化的标准和规范,参考ITIL来规划和制定其技术基础架构及服务管理,确保服务管理能提供更好的支持。通过这些方式,运维管理取得良好的成效,运维目标越来越明确,运维效率不断提高,运维工作中出现问题逐步减少。
     通过不断积累运维管理经验,现根据实际工作情况,已完成了《通用基础设施监控系统》和《设备运维及资产管理信息系统》两个机房运维管理应用系统开发工作,并投入使用,取得良好的成效。



     《通用基础设施监控系统》监控对象包括机房基础设施UPS、电池、空调、及配电等,这些各类规模大小不等、设备种类繁多、数量不同的设备广泛分布于机房和其它区域,在《通用基础设施监控系统》正式使用之前,数量众多的无人值守机房的物理运行环境状况、动力配电状况、设备运行状况的变化以及可能出现的危急状况,均无法得到及时的发现和处理,这些状况也就很难被有效预见、防范和避免,甚至出现严重的事故,为保证机房安全、稳定、高效运行,提高设备使用寿命与安全,实现最大投资效益,《通用基础设施监控系统》现已成为是我们机房运维管理的最重要的工具和手段,系统可以使设备出现故障时,在第一时间予以通知,故障可在第一时间得到处理和控制,实现对影响机房运维设备技术指标进行搜集、分类和导入,如机房运行环境的电力供应、温度、湿度、漏水、空气含尘量等诸多环境变量,UPS、空调、新风、除尘、除湿,进行24小时实时监测与智能化调节控制。《通用基础设施监控系统》系统对于机房状况和故障,能做到“监”即通过系统或图形化展示,通过 Email或短信及时告知,也能“控”,即通过短信回复方式进行控制。系统的应用是一个渐进式和积累的过程,通过积累形成状态或故障处理的知识库,同时对监控指标进行变更和重新分类,指标、故障、知识库联动,最终做到故障定位准和处理更及时,将分散的机房维护工作变为主动提醒模式。运维中很多问题都是逐步变大的,通过对环境状况和故障结合知识库进行分析和统计,可以对故障出现进行预防;定时邮件发送统计报表,准确反映机房运行状态、故障率、分布及特点等情况,方便机房维护工作,巡检人数和巡检工作都大大减少,实现无人职守或少数人职守,大大减少维护工作量和降低维护人员数量 ;知识库真正成为我们运维管理的有力工具。
     《设备运维及资产管理信息系统》也是我们通过在运维工作的积累,开发出的实用的运维管理工具,系统使用后能够清楚掌握运维设备归属、资产、维护历史记录及运维资金缺口等实时信息,实现了运维管理部门、财务部门及具体运维部门之间信息共享,也做到了实时反应运维管理工作的成效,是对运维工作进行正面宣传的重要工具。
     目前很多机房因机房建设或改造要求快、设备数量种类多、及环境要求及业务应用要求高等原因,造成运维管理工作难度和压力大,机房建设和管理标准化和规范化不仅能够提高机房发展潜力,因此我们也计划建立实用有效的机房运维评测长效机制,通过评测提高机房的服务信誉和声誉,也可避免不该出现的问题和故障,减少机房运维管理风险,运维管理评测分为内部评测和引入外部评测两种方式,内部评测主要是组织单位内部相关人员对机房整个环境和设备统一按照标准进行评测、评估和检查,做到能够全面和清楚的掌握机房环境的运行状况,对高风险或故障点有的放矢,避免高风险或故障的爆发。外部评测即是引入第三方有资质、专业和有经验的机构,利用机构的专业设备对环境评测,从规范性上做评测,从深层次发现风险点,从而保证机房可靠、稳定和高效运行。


  友情链接  
    中华人民共和国工业和信息化部 中国计算机用户协会 机房360 比特网
中国计算机用户协会数据中心分会 版权所 © 2010
北京国信天元机房环境评测技术中心 Powered by SoarTec 京ICP备07502620号
您是第 位访客