数字标牌行业门户网站 服务热线:400-6789-360 [会员登录][免费注册][数字标牌通下载]投稿|设为首页|收藏|RSS
数字标牌也称数字告示或多媒体信息发布系统
数字告示
当前位置:数字标牌网 > 行业新闻 > > 数据中心监控系统基础构件与技术
数据中心监控系统基础构件与技术
编辑:诗玉 [ 2017-11-10 11:19:17 ] 文章来源:数字标牌网
数字告示

数据中心监控系统是一个软件和硬件结合的复杂性系统,本文将对监控管理系统的核心软件模块的组成、技术、应用场景等进行详细介绍,为系统设计提供必要的参考。

监控管理系统由四大系统组成:监控系统,运行管理系统,总控中心系统和基础服务系统组成。以下分别对四大系统中的核心模块进行详细介绍。

一、监控系统

监控系统由两大子系统组成:信息采集子系统和信息处理子系统。

1、信息采集子系统

为实现模块化设计,分布式部署,提高监控管理系统稳定性,信息采集子系统基本已经硬件化,即由一个硬件设备或者硬件模块,代替了传统的用纯软件方式来实现信息采集功能。

采集模块主要功能一是提供各种形式的接口,以便接入各种不同的监控管理对象;二是实现各种采集信息的协议解析;三是将解析后的信息按统一格式上传至处理单元。

2、信息处理子系统

信息处理子系统是监控管理系统中完成监控功能的核心子系统,要实时、灵活、准确地加工、运算、存储大规模数据,需要设计好几个关键模块:复杂事件分析处理模块、调节控制模块。

(1)复杂事件分析处理模块

复杂事件分析处理模块(CEP,Complex Event Processing)先捕获各种基础事件,然后分析整理,找出更有意义的事件(复合事件)。其中事件的分析整理,找出复合事件,正是CEP的核心,也是最困难的地方。复杂事件分析处理模块工作原理如图1,实时数据作为事件源接入事件处理总线,CEP引擎通过指定的规则,处理这些实时数据和缓存的历史数据,并通过事件处理总线将有意义的事件提供给事件消费方。

图1复杂事件分析处理模块工作原理图

一个典型的应用实例是,在数据中心停电时,会引发大量的设备报警,通过复杂事件分析处理模块进行分析后,则可从事件潮中分析出真正的告警原因,将所有设备报警合并成一条停电报警。

复杂事件分析处理模块需要处理海里事件,处理压力大。复杂事件分析处理技术不同于传统的数据库数据处理,由实时产生的数据流驱动事件处理逻辑,在内存中完成所有计算,性能有数量级提升,能满足实时处理要求。复杂事件分析处理模块的事件匹配规则是提高处理的有效性的关键,使用中,当监控对象的逻辑关系发生改变时,必须维护事件匹配规则,以保证处理的正确性。

(2)调节与控制模块

调节与控制模块工作方式有两种:一种是手动调节与控制,一种是自动调节与控制。

手动调节与控制相对比较简单,由人来进行判断、决策,形成控制指令,通过监控系统下发到对应的设备,达到调节和控制的目的。此时,系统的调节和控制完全依赖个人经验,随机性比较强。常见的手动调节与控制方式有远程开门,根据机房温度,手动调节每个空调的设定温度等。手动调节和控制不仅通过监控系统来完成,也可以通过电话、短信等方式进行操作,如可以通过电话开门、短信查询关键设备状态等。

自动调节与控制区别于手动的地方在于,将人的经验数据内置到了监控系统中。监控系统根据这些经验数据,形成调节与控制逻辑。当监控系统采集到的数据流入该调节与控制逻辑单元时,该单元形成预期的调节与控制指令,下发到对应的设备,从而实现了无人值守的自我调节。该技术最常见的一种应用是联动控制,如消防火灾联动门禁开门、门禁开门联动视频录像、消防火灾联动实时视频播放等。随着绿色数据中心的发展,该技术也逐渐应用到数据中心的节能领域,如空调群控技术就是这种思想应用的一种实例。

二、运行管理系统

1、资产管理模块资产

管理是资产与配置管理的一部分。在实际工作中,通常把数据中心物理形态的资产包括IT资产的新增、入库、领用、上线(进机房)、下线(维修)、减少(报废、丢失)等的管理定义为基础设施监控管理系统的资产管理,即对数据中心物理资产的生命周期管理,当然此时的相关资产附带了一些与基础设施管理相关的基本属性信息。

2、IT资产管理范围与分类

(1)IT资产分类

IT资产按形态主要分为两大类,即软件与硬件。软件主要包括系统软件、工具软件、应用软件;硬件主要包括服务器、网络、存储、IT办公、场地设施相关设备。如图2.

(2)资产管理的范围

资产管理范围除包括数据中心的服务器、网络、存储、IT办公、场地设施相关设备,系统软件、工具软件、应用软件(如图2所列)等资产外,还包括资产的与基础设施运维管理相关的属性信息如下:

硬件配置信息,此属性用于记录设备硬件配置相关的信息,包括配置的硬盘、网卡、光纤卡等配件;

维保信息,此属性用于记录设备的维保信息,包括服务提供商、服务范围、服务级别、服务考核等信息,用于服务合同管理相关的活动和功能模块。

(3)主要功能模块

基于资产管理所涵盖的范围,资产管理需要实现如下的功能:

机房资产管理模块,用于记录、查询、更新运维服务相关的软硬件资产信息,包括各类服务器、网络设备、存储设备、光交换设备等,借助射频技术还可以实现对资产设备的进出机房控制、快速定位、定期盘点等功能;

库存资产管理模块,用于记录和管理库存资产、设备、耗材等方面,包括出入库管理、查询、盘点等活动;

介质管理模块,用于记录和管理服务相关的介质信息,包括光盘、磁带等介质的标签、存放位置、存储内容、物理介质快速定位等;

耗材管理模块,用于记录和管理服务相关的耗材信息和相关的活动,如网线、光纤等,控制耗材的申领、使用、储备等活动,还可以实现储备预测、消耗分析等功能,以便增强对有关内容的管控;

系统管理模块,包括用户管理、权限控制、部门管理、安全控制等功能,用于控制资产数据库的授权、维护、引用等活动,便利用户的使用并控制风险;资产的入库、领用、上线、报废等申请、审批流程管理。

(4)基于电子标识码的资产管理

常规的资产管理方式存在诸多的问题:

资产管理人工操作方式记录(有的采用一维条码,易污损,识读困难),人工整理汇总,时间长、效率低,差错率高;实物信息与管理信息系统信息无法同步,无法实时了解资产当前实际所处地点、状态(闲置、正常使用、维修、报废);

采用电子标识将资产实时监测与资产管理有效的整合在一起,从而达到实物信息与系统信息的实时同步一致。从而实现“资产全生命周期自动追踪管理”,为企业投资决策、资产合理调配等提供准确科学的参考依据。达到资产管理中“人、地、时、物同步管理”,有效降低和控制日常管理和生产成本,节约了每年投入大量人力物力进行资产盘点和无谓调拨的成本,避免了因各种因素造成的资产流失,提高了企业管理效益。

2、容量管理模块

容量是数据中心所能提供的能力。容量管理旨在将各类基础架构的处理能力或系统容量进行细分和量化,根据业务需求进行调整和配置,从而在满足主要业务需求的前提下实现资源利用合理化、负荷均衡、确保业务目标的达成。

基础设施监控管理系统的容量管理主要针对数据中心的电力、制冷、空间等基础设施的支持能力,即SPC容量管理。

(1)容量管理的构成

SPC容量管理主要包括如下几部分:

性能管理(Performance Management),此活动旨在测量、监控和调整基础架构或组件的性能以期达到最佳性能;

应用适配(Application Sizing),此活动旨在给应用、设备分配合适的资源以适应当前及未来规划的业务需求;

容量建模(Modeling),此活动旨在识别容量管理所涉及的各因素及对应的权重等信息,并借助信息技术建立对应的容量模型;

负荷管理(Workload Management),此活动旨在监控、测量负荷的变化以便获取实时的容量使用情况,以便指导容量规划和扩展;

容量规划(Capacity Planning),此活动用于创建和规划容量计划,以便适应业务发展的需要;

需求管理(Demand Management),此活动旨在通过调整不同系统的负荷或分流高峰时的业务负荷以期更合理地利用系统支持能力和有关资源。

(2)主要功能模块

基于SPC容量管理所定义的范围,SPC容量管理需要实现如下的功能模块:

资源预分配管理,包括可用资源的搜索、预占、取消预占等功能,在进行资源搜索和预占时需要综合考虑SPC容量模型所定义的各要素,出于管理的需要,还需要提供预占审核、设备上线、项目信息管理等功能;

报表与统计,包括报表的定制、使用状况统计、趋势分析、优化建议等功能,主要用于容量状况分析及容量规划;

系统管理功能,包括权限管理、用户管理、历史数据管理等,用于支撑容量管理有关功能的运行。

3、运维管理模块

运维管理是数据中心稳定运行的保障,也是数据中心日常管理的主要内容,它支撑着数据中心的故障处理、日常检修、定期巡检及人员值班管理等活动。运维管理模块是运维管理的支撑平台,为运维管理活动的展开提供了电子化支撑平台。下面是运维管理模块的简单描述和说明。

(1)运维管理的范围

一般来说,运维管理的范围涵盖如下的内容:

故障响应与处理,包括各类设备故障的监测、响应、派单及工单管理等内容;

预防性维护管理,包括定期巡检管理、移动巡检管理、日常巡检等内容;

统计分析,包括服务团队的运作效率、工单处理情况、工作量等指标,运行情况的统计分析等;

知识共享和积累,包括故障处理经验沉淀、归档、共享,系统基础资料,应急预案等。

(2)主要功能模块

根据运维管理的范围和主要活动,需要包括如下功能模块以匹配和支撑对应的运维活动:

事件管理(IncidentManagement),用于故障的响应、分析、派单及后续的工单管理等活动,支撑和控制服务管理中所定义的各级处理团队的协作和故障单流转,是运维管理所依赖的基本功能;

预防性维护管理,主要是定期巡检和移动巡检,用于设备的预防性维护,通过周期性的检查和维护在设备出现异常之初就进行修复和维护,从而防止重大故障的发生;

知识库管理(KnowledgeManagement),对于日常故障管理需要提供信息共享平台以便保存和共享有关的处理经验,提高协作的效率;

统计分析,用于日常工单的统计、分析,以便分析处理效率、响应能力、工作量等指标,便于运维服务的优化和考核。

(3)能耗管理模块

随着能源价格上升,数据中心能耗成本在运营成本的比重随之上升,数据中心的能耗管理成为热点话题,“低碳”理念开始为数据中心管理者所接受与重视。为了推动数据中心节能减排,工信部《工业节能“十二五”规划》提出“到2015年,数据中心PUE值需下降8%”;发改委组织的“云计算示范工程”要求数据中心PUE降到1.5以下。这都需要做好能耗管理。

1)能效测评

数据中心能源使用效率PUE是目前国际国内比较一致认可的能效参数,定义为数据中心总能耗与IT设备能耗的比。云计算发展与政策论坛在2012年3月16日发布的《数据中心能效测评指南》中指出,能效测评除了考虑PUE,还需要考虑CLF(制冷负荷系数)、PLF(供电负荷系数)和RER(可再生能源利用率)等参数,这样能更为精细的反映了数据中心的能耗状况。

目前,可以参照《数据中心能效测评指南》的要求进行能效测评。

2)能耗指标的监测和计算

为了实现能耗监测与分析,监控管理系统还应包含能耗监测与分析系统。该系统通过分布在数据中心供配电系统各重要节点的采集设备监测电量、电流、电压等参数,对采集的参数进行分析和统计,以报表的形式展示数据中心各能效评估域的能耗评估结果,供能耗优化和调整时参考。使用该系统不但可以了解数据中心能耗状况,还可以对能耗管理的结果进行横向、纵向比较。

上图为数据中心典型的供配电系统示意图,以此为基础,描述一下进行能耗监测时的一些方案。

在正常情况下,数据中心的电能由市电提供,因此数据中心总耗电的测量点应放在市电输入变压器之前。当市电故障情况下,柴油发电机产生的电力作为数据中心总耗电的测量点。如果是多用途机房楼,数据中心总耗电计算中,需要减去办公等其它耗电的测量值。

严格来说,IT设备能耗指标应该在各IT设备输入电源处测量耗电量并进行加总,但鉴于IT设备数量较多,这一方法将大大增加测量工作量和成本。因此,在实际操作中,我们一般在UPS输出或者列头柜配电输入处进行测量,将测量值之和作为IT设备耗电指标。即:

PUE=(PM1+PM2-PM4)/PM3

对制冷设备能耗来说,采用水冷空调的数据中心通常与所在建筑的办公场所等共用冷水机组,为测量数据中心制冷所消耗的电能,可测量或估计数据中心和其它负载之间的热负荷比例(根据水流量、水温的设置等),然后根据比例将冷水机组消耗电能的一部分分配给数据中心。计算pPUE(局部PUE,见名词解释)的区域与其它区域有共享制冷系统时,也可采用这种方法进行间接测量和估算。

能耗指标的数值受各种因素的影响,会随季节、节假日和每天忙闲时段的改变发生变化,为全面、准确了解数据中心的能效,需对数据中心能耗(用电量)进行了持续、长期的测量和记录,用于按月、季、年计算PUE.

三、总控中心系统

总控中心系统中包含告警模块和大屏控制模块两个重要模块。

1、告警模块

告警模块在系统或者是监控对象出现告警时,能以短信、电话、邮件、声光等形式,及时通知用户,使故障得到快速解决。一般监控管理系统中会统一集中告警,因此告警模块一般提供开放式的访问接口,如SOCKET、Webservice等,以供监控管理系统中其它子模块调用其告警服务。告警模块的告警信息输出方式,往往提供(包含且不仅限于)短信、电话、邮件、声光等方式,还可以和企业的短信网关进行对接,通过统一信息平台发布告警信息。

告警模块作为告警有效信息的重要输出载体,保证信息的目标可达性也至关重要。在告警模块运行过程中,程序的崩溃、网络故障、机器宕机等都随时导致告警信息的丢失,贻误故障处理的有效时机。因此,告警模块应具备容错机制,包括重发、断点恢复续传等。根据数据中心等级建设的要求,告警模块也需要进行对应的冗余设计。同时,由于告警方式的不可靠性,如电话有可能无法接通,邮箱服务器可能发生故障等,为保证信息的送达,一般还需要在告警模块中设计告警升级功能,如根据服务等级,对于高等级的事件,超时未处理的事件应进行各种条件的告警升级处理。升级处理,包括告警对象的升级处理,如值班人员A未拨通电话,重试失败后升级到值班人员A的主管;还包括告警方式的升级,从总控中心现场的声光告警,升级到短信、电话报警。复杂情况,还包括两种升级方式的组合。

2、大屏控制模块

总控中心是中大型数据中心运维团队进行运行监控值守的场所,运行维护值守人员主要依托监控管理系统的总控中心大屏展示的信息来了解、获知、分析庞大、复杂的系统和设备的运行情况。由于监控管理对象的复杂性,很多情况下,值守人员需要从不同维度同时了解、分析数据中心运行情况,这就需要从不同维度展示运行情况的多个显示屏幕。显然在一套大屏上从多个维度集中展示的监控、故障相关信息越丰富、越清晰明了,越有助于运维人员及时发现和快速解决问题。因此,在数据中心监控管理中心(或ECC)都配备有多个屏幕拼接组成的大屏显示系统。

大屏幕展示模块在数据中心的应用一般有两种方式:

一种是采用专业的智能屏控系统,一种是采用简单的液晶屏组合系统。

(1)智能屏控系统

智能屏控系统也称多屏拼接处理器,是大屏显示系统的核心功能单元。大屏幕拼接墙系统一般包含屏幕控制软件和拼接墙处理器,来完成大屏幕的分屏、合屏等屏显功能。

智能屏控系统支持即插即配、海量信号管理、支持DVI、VGA、HDMI、Video等信号源接入,支持多显示墙、多屏信号共享、多屏联动,支持自由拼接、单独开窗拼接、信号任意拖拽,支持图像任意缩放,跨屏,漫游,叠加,超大分辨率底图、超高分辨率动态图像的大屏显示,大屏回显录播、数字标牌上屏,支持多组显示方案预设,支持多用户,操控灵活等。

智能屏控系统一般使用在中大型数据中心的总控中心。

(2)简易多屏拼接系统

对于中小型的数据中心的监控室,以经济实用为原则,不一定需要智能屏控系统。此时可通过多屏输出显卡和几个显示器完成一个小型的拼接墙系统。由于多屏显卡的输出端子有限,因此该方案一般支持的视窗是有限的。使用Windows管理液晶屏组合展示时,可以将多个液晶显示器映射成一个虚拟大液晶显示器,通过分屏展示模块完成业务视图的显示分割、布局;也可以将多个液晶显示器映射成独立显示单元,每个液晶显示器显示独立的业务视图,此时和大屏幕拼接墙系统一样,仅要求分屏展示软件模块能提供对应的多个业务视图窗口。

(3)大屏控制模块的应用

图4大屏显示系统应用示意图

大屏展示模块根据业务需要,可以配置出多种不同应用场景的展示组合。

监控信息展示

如对于全局的监控视图,如全国联网的数据中心网点监控状态监控视图,可以设计成主画面,使用4个显示单元组合显示;其他的监控管理子业务系统使用1个显示单元显示,设计成从画面。这样对整个监控管理系统的全局到局部都能进行实时监控。每个监控管理子业务系统还可以设计页面轮询策略,轮流显示每个关键监控指标。一旦某个监控画面发生报警,则停留在该画面,并提示当前的报警信息。

同时,监控管理系统的主画面与从画面之间,从画面和从画面之间还可以设置联动,如对主画面中的某个业务子系统进行操作时,该业务子系统显示单元便切换到该业务子系统指标监控画面。也可以利用屏控模块的预设功能,设定多种监控显示模版,供使用者根据使用场景灵活调用。

告警信息展示与分析

当某个故障发生需要进行分析、会诊时,可用一个屏幕3D展示该设备的物理位置信息(有必要时再用一个屏幕展示其视频信息,实现虚拟与现实结合展示),一个屏幕用2D展示其逻辑关系信息(如拓扑关系),一个屏幕展示其故障详细信息,一个屏幕展示相关知识库信息或应急预案信息等。通过这种故障信息的关联展示,有助于快速分析定位故障根源,有助于组织运维力量准确处理,提高数据中心可用性。

四、基础服务模块

1、数据库模块

数据库模块根据存储的业务数据及实现技术的不同,主要分为三类数据库模块:实时数据库模块、历史数据库模块和配置管理数据库模块。

(1)实时数据库模块

监控管理系统根据对数据实时性业务要求的不同,会将业务数据分离到两类不同的数据库中,一个是实时数据库,一个是历史数据库。

实时数据库(RTDB,Realtime Database)是数据库系统发展的一个分支,是数据库技术结合实时处理技术产生的。实时数据库专用于处理带有时间戳的数据,其特点是产生频率快,并发量大,数据和时间有紧密关联关系。实时数据采集产生大并发和持续的数据流,传统数据库并不适合流式数据处理,需要精心考虑数据存储策略。实时数据库在监控系统中作为高速数据访问的缓存设施,提供实时测点访问、实时事件访问等服务。

实时数据库最大的特点就是及时性。实时数据库要保证采样的数据能及时的更新到实时数据库中,因此实时数据库的访问延迟时间不应大于采样频率。同时,实时数据库也通过一些特定机制保证实时数据库中新鲜的数据能及时被数据使用者及时获取。

(2)历史数据库模块

实时数据库模块为实时数据计算提供数据来源,历史数据库模块则为后期的数据分析、统计、挖掘提供数据来源。

历史数据库是一种支持在线事务处理和数据挖掘的中间数据库,它负责将实时数据库中的实时数据流转储到中间数据库中,供日后分析处理。历史数据库应具备较好的数据容错性,便于数据备份和恢复;还应具备良好的数据访问接口,便于在此之上进行数据分析。

由于业务的发展和多变,历史数据库模块首先需要解决业务的变化的适应性。因此,历史数据库一般支持业务规则描述,通过预先定义的业务规则,抽取、转换原始数据,得到期望的业务数据。业务的变化,只需要调整对应的业务规则描述即可迅速的适应新业务。

2、双机热备模块

根据GB 50174-2008对机房可用性等级的要求,对应高等级的数据中心监控管理系统应匹配冗余设计。双机热备模块则是监控管理系统的基础服务系统中实现监控管理系统冗余设计的重要公共模块。

(1)双机热备的分类及定义

双机热备使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。

从工作方式上来划分,双机热备有两种:active/standby和active/active.active/standby也叫主备方式,当主机产生故障后,备机及时接管主机的服务。active/standby方式永远只有一台服务器处于激活工作状态,另一台服务处于等待非工作状态。

active/active工作模式,主、备机都同时工作,提供相同的对外服务。客户端访问其中的任意一台机器都可完成需要的业务,既可以实现简单的负载均衡,也可以将故障的切换时间降到最低。

(2)双机热备的选择

选择双机热备模块的工作方式,主要取决于运行在双机热备模块之上的应用服务的工作特性。如果应用服务允许同时运行工作,则active/active是个不错的选择。如果应用服务在同一时刻,只允许一个实例运行工作,则只能选择active/standby模式了。

 

 


更多相关:

数字告示
编辑推荐
图片新闻
  • 科鑫光电户外民用led全息屏首发面市!预定进行中......
  • 利亚德ESV系列 | 共阴节能,全新定义显示屏!
  • 2019视听行业万里行——走进武汉企业
  • AV生态 智慧生活—2019万里行武汉站
  • 【新品速递】触沃人脸识别设备全新上市
新闻搜索

  • 2009年资讯
  • 2010年资讯
  • 2011年资讯
  • 2012年资讯
  • 2013年资讯
  • 2014年资讯
  • 2015年资讯
  • 2016年资讯
  • 2017年资讯
  • 2018年资讯
数字告示
推荐品牌
    热点关注
    数字告示
    数字告示
    数字告示
    数字告示
    户外广告机 | 落地式广告机 | 高清广告机 | 分屏广告机 | 蓝牙广告机 | 网络广告机 | 数字标牌播放器 | 广告机方案 | 多媒体信息发布系统 | 触控一体机 | 高清机顶盒
    镜面广告机 | 多媒体广告机 | 触摸广告机 | 液晶广告机 | 车载广告机 | 互动式广告载体 | 楼宇广告机 | 流媒体实时发布系统 | 广告机外壳 | 户外大屏幕 | 广告机报价
    数字标牌软件 | 电子看板  | 商业显示  | 嵌入式主板 | 触控一体机 | 数字标牌显示器 | 嵌入式流媒体服务器 | 立式广告机 | 3D广告机 |
    设为首页网站建设欢迎投稿数字标牌杂志资讯中心本站动态关于数字标牌网网站RSS网站地图友情链接
    热点:数字标牌数字告示多媒体信息发布系统广告机户外广告机液晶广告机网络广告机互动广告机触摸屏数字标牌网
    本站实名:数字标牌网 国际域名:www.DS-360.com 版权所有© 2009-2019 深圳市中投传媒有限公司  
    粤ICP备05041759号 在线客服: 点击这里给我发消息 点击这里给我发消息 视听学院-商家论坛群: 视听学院-商家论坛
    电话:0755-26526633(十二线) 传真:0755-86024577 邮箱:ds-360@3v.cn
    打开微信扫一扫,成为数字标牌网微信好友
    分享