孔令军:海量数据 保障先行
国家气象信息中心成立于2004年7月,是中国气象局直属事业单位,内设运行监控室、通信台、高性能计算室、资料服务室(中国气象局气象档案馆)、气象数据研究室、系统工程室、业务与园区电讯保障室等7个业务机构。
随着信息技术的发展,气象数据的观测和传输方式也在不断更新。从最开始的人工记录,手动发报,到现在的全天候、多方位自动站建立以及系统定时发报的实现,离不开强大的IT基础设施的支持。国家气象信息中心承担了所有气象数据传输业务,保证了气象预测预报工作的顺利开展,IT基础设施建设显得尤为重要。为使广大读者对国家气象行业信息化建设有更近一步的了解,本刊特别采访了国家气象信息中心业务与园区电讯保障室副主任孔令军,请他介绍一下国家气象信息中心的机房建设和运维管理情况。
《机房技术与管理》:首先请您介绍一下国家气象信息中心的主要职能。 孔令军:国家气象信息中心承担着国家级气象基础信息、计算机、骨干网络和通信资源的运行、管理、维护、建设及服务等重要任务,与北京高性能计算机应用中心一个机构、两块牌子。同时还承担着世界气象组织(WMO)亚洲区域通信枢纽、世界数据中心中国气象学科中心[WDC-D(M)]和国家气象科学数据共享中心的职能。
在主要的工作职责上,国家气象信息中心主要发挥全国气象行业核心通信枢纽的作用,包括通信、存储、高性能计算、资料归档四大核心业务。2010年开始,中国气象局赋予了国家气象信息中心更多、更高的职责,例如,负责拟定气象信息网络系统发展规划,对全国气象信息网络系统进行总体设计,制定气象信息网络业务技术标准、规范,负责全国气象信息网络及资料业务的技术指导等。
我们基础设施部门也逐渐承担起向各个省、地级气象部门提供技术支持的作用。这主要体现在两个方面:一方面,对于他们在建设过程中的可行性研究报告、初步设计等进行评审、论证或咨询等;另一方面,对他们在具体业务实施过程中出现的问题进行指导。目前已经审核过的前期方案包括辽宁、湖北、新疆、内蒙古等地的新建机房项目。
同时,中国气象局也对国家气象信息中心提出了更高的要求,不只要关注现有的业务系统,更要放眼全国系统。中国气象局主要有8个区域气象中心,除北京外,国家气象信息中心正在对其他7个区域中心的机房基础设施情况进行调研,以评估各地方能够支撑的高性能计算机的规模、数量等情况,给国家气象信息中心做决策时提供依据。
《机房技术与管理》:针对国家气象信息中心的这些职能,您能否介绍一下目前机房的数量、规模,以及建设情况呢?
孔令军:现在的信息中心业务楼的机柜总量为250余台,配套的场地设备包括6套UPS和40余台精密空调。2层和3层共6个机房区,其中包括2个高性能计算机房、1个存储机房、1个通信机房、1个网络机房、1个综合机房。其中1个高性能计算机房已经在2004年正式投入运行,另外1个高性能计算机房(峰值计算能力达到1PFlops以上)的第一套系统将在2013年中旬建成。这套HPC系统将安装于信息中心现有业务楼内,该楼于1991年建成,现有机房承重、室内外可用空间、供电能力等条件已无法满足设备的需求。为确保HPC系统的顺利引进,信息中心全部基础设施相关技术人员正在夜以继日地对现有基础设施现状进行分析、评估,对可能的解决方案进行对比、论证,以寻找最佳的改造和实施方案,在有限的条件下满足HPC系统的基础设施需求。
建筑面积约29500m2的新综合大楼预计在2014年底建成,规划中,一、二层是机房区,地下一、二层是辅助机房区,三层以上是办公区和资料档案馆。
以现有的高性能计算 (HPC)系统为例,1个410m2的机房内有40个机柜,其中24个机柜的额定发热功率为30kW,单位面积热负荷为1.5kW/m2,总热负荷达到630kW,受原有建筑条件限制,目前采用风冷制冷方式。
《机房技术与管理》:国家气象信息中心的数据中心与其他行业相比有哪些特点和不同之处呢?
孔令军:在职能定位上,国家气象信息中心的数据中心与全国其他数据中心没有太大差别,但气象行业也有其自身特点。第一,通信系统有多套备份,如互联网、卫星通信等,使所有气象基本业务资料在任何情况下都能够实时接收和存储,确保全国气象资料完整和准确。第二,气象行业是在高性能计算领域需求最大的行业之一,对于高性能计算能力的需求是无止境的。第三,高可靠性和高实时性。全国气象雷达每6min扫描一次,6min之内数据要全部传输过来,如果数据中断,则需要补发,会占用其他时间信息。一旦数据资料收集不起来,高性能计算机没有及时把预报数值计算出来,会对天气预报时效性和准确度产生极大影响,会给国民经济带来严重损失。第四,气象部门数据传输系统庞大,比较复杂。全国共有3000多个气象站,100多部探空雷达,每时每刻都要收集数据,否则无法组成全国组网系统。例如,一个云团或气流从入境、产生、发展到离境的全过程,都可实时监测,一旦某点数据出现问题,都会使资料信息缺失,对天气预报造成影响。
《机房技术与管理》:国家气象信息中心的数据中心是高密度、高容量、高可靠性机房,在前期建设和后期运维管理中应重点注意哪些问题呢?
孔令军:第一,应严格按照行业标准和规范进行规划和建设。自1991年信息中心业务楼建成以来,国家气象信息中心经历了二十多年的发展过程,现有的机房基础设施已很难支撑信息系统的发展,在实际运维过程中出现了很多困难和问题。例如,在2004年建成的高性能计算机房单位面积热负荷为1.5kW/m2,单机柜额定发热量30kW,实际发热量24kW,采用风冷方式进行制冷。我们通过合理设计空调容量和布局等方式保证8年来没有因为温度过高而对设备造成影响,但后期维护付出了很大代价,同时也存在很多隐患和风险,1点空调发生故障可能会导致整个系统崩溃。所以单机柜热负荷10kW以上建议采用水冷而不建议采用风冷方式降温。
第二,前期规划设计要更合理、更科学。做好前期规划设计,后期运维管理才会事半功倍。运维管理的可靠性是在前期规划设计的可靠性基础上实现的。国家气象信息中心在建设空间、基础条件上存在局限,因此前期规划设计就显得更为重要。首先,应该保证足够的设备备份,确保某点出现故障时不会影响整个系统运行。其次,对未来发展要有合理预估,给扩展留有余量,如果基础设施前期考虑不周全,就会制约整个信息系统的发展,造成瓶颈。
第三,运维管理中应该建立良好的制度。例如,国家气象信息中心的运营值班人员支持 7×24小时服务。发生故障时,30min内必须到达现场及时采取处理措施,把故障的影响降到最低或消除,保证实时业务系统正常运行,等到故障屏蔽掉后,再进行分析,能自己解决的问题自己解决,解决不了的问题依靠厂家解决。运维制度严格按照流程进行实施,保证整个系统出现故障时得到及时解决。
第四,注重提高技术人员的实际操作能力。目前,国家气象信息中心正在建立一套三维的模拟培训系统。每个开关按钮都与实际机器完全对应,可定期在电脑上模拟故障进行操作演练。通过这套系统可对全国气象行业基础设施的相关技术人员进行培训和考核。
《机房技术与管理》:前面您提到国家气象信息中心其中一个新的职责是对全国气象信息网络系统进行总体设计,那么以前全国各省市的气象信息网络建设都采用何种模式呢?
孔令军:过去的气象行业属于垂直领导,气象信息网络建设采用两种模式。第一种模式是,国家气象信息中心设计全国气象信息网络系统,集中采购并直接划拨设备,派相关技术人员到当地进行安装调试,当实际运行中遇到问题或出现故障时进行电话指导或直接到现场解决。例如,20世纪90年代建设的9210工程(全称为气象卫星综合应用业务系统)就是采用这种模式,目前仍然由国家气象信息中心的技术人员直接到各省去解决故障问题。第二种模式是,各地方气象局接受中国气象局和当地政府的双重领导。特别是东部发达地区,当地政府投资建立自己的气象信息网络系统,具有自主权,不由中国气象局负责。但由于当地完全按照自己的标准、要求、气象模式进行建设,与全国气象信息网络系统会出现衔接上的问题。
《机房技术与管理》:目前由国家气象信息中心牵头编写的《全国气象信息网络系统总体设计》进行到了什么阶段?
孔令军: 2012年3月,为进一步落实《气象信息网络系统发展规划(2011—2015年)》,推动气象信息网络系统整体设计、集约发展,由预报与网络司组织,国家气象信息中心牵头,国家级各业务单位以及省级气象信息中心共同参与,成立了总体设计编写组,开展全国气象信息网络系统总体设计工作。11月,在前期工作的基础上,总体设计编写组完成了《全国气象信息网络系统总体设计》的编写工作。整体设计体现了气象信息网络系统以数据为核心,整体设计、集约发展,加强数据管理与应用,突出支撑与服务能力的发展理念。等到总体设计修改完善下发后,会与中国气象局重点工程建设项目有机结合,切实推进总体设计的具体实施。在具体实施过程中,以后可能更加强调在各地方气象局采购设备上不作具体要求,但在数据格式、传输协议等方面要作出统一要求,而不是独立的小系统,保证与现有业务系统更好地共享、兼容,共同运转。
《机房技术与管理》:随着卫星、雷达、自动站等气象综合观测系统的迅速发展,中国气象局每年获取数据的增长量都高达100TB以上量级。之前我们了解到中国气象局建设了“新一代天气雷达信息共享平台”。随着这个平台的建设完成和《全国气象信息网络系统总体设计》的编写完成,国家气象信息中心是否肩负了更多、更大的责任?
孔令军: “十二五”期间,随着气象现代化水平的不断提高,尤其是“新一代天气雷达信息共享平台”以及新一代HPC系统正式投入业务运行之后,国家气象信息中心在通信、网络、存储、高性能计算等领域将承担更多的职责和更大的任务,系统规模也越来越大,设备种类越来越多,但基础设施条件却难以得到大幅度的提升,更多是通过内部挖潜、优化设计来实现,必将对基础设施系统提出更高的要求。通过科学合理的规划设计和精益求精的运行维护,在全体员工的群策群力和辛勤付出下,国家气象信息中心基础设施系统已连续保障业务系统可靠运行十余年。依据《全国气象信息网络系统总体设计》的要求,国家气象信息中心基础设施部分将进一步适应角色定位和工作任务的转变,通过机房协会等专业机构,加强与各数据中心的学习、交流,加强与设备厂商的沟通、联系,加强员工的技术培训,提升自身的保障能力和保障水平,以更高的工作热情、更大的责任心、更严谨的工作态度,全力以赴支撑国家气象信息中心实时业务系统的安全、可靠运行。
依托“气候变化应对决策支撑系统工程”项目,国家气象信息中心正规划新建一个建筑面积为29500m2的业务楼。目前,正在对大楼的总体结构、建筑布局等进行设计和论证。响应“气候变化应对”的号召,大楼建成后,机房基础设施系统将更加强调绿色环保、重视节能减排,优先采用新技术、新产品,在大楼设计之初即已充分引入机房模块化、发展预留、机房轮作等理念,并已全面开展供电、制冷等方面新技术的调研和考察工作,以期在保持高可用性的前提下,实现机房基础设施系统的绿色环保、节能减排。
采访后记
由于近期国家气象信息中心正在实施一套峰值计算能力超过1PFlops的高性能计算机系统的引进工作,业务与园区电讯保障室工作繁忙,我们在预约采访时得知,孔主任已经连续十多天在单位加班到很晚,最后是抽出会议间隙时间接受了我们的采访。在短短一个多小时的访谈中,我们的对话多次被办公室的工作电话打断,但孔主任总是迅速处理完事情,然后继续认真回答之前的问题。在采访稿件最后核实确认阶段,我几次联系孔主任,发现他仍在连续加班中……我们相信孔主任和他的团队凭借一丝不苟、严谨务实的工作风格,以及丰富的工作经验和无限的智慧与创造力,一定能够成为国家气象行业信息化建设的有力保障。