课题的发现与讨论
- 课题的提出
电源、机房环境集中监控系统的出现,将原来相对分散的各个机房的电源、空调设备的运行状态和环境数据进行了集中,方便了监控。然而随着我国通信事业的发展,通信布局从原来的大型母局式转变到接入设备更靠近用户的模块局方式,模块局的数量逐年递增,监控中心通信服务器及数据库服务器的负载能力基本上已经达到了满负荷。另外,随着电源技术的发展,智能化的设备也要求接入到系统中,这就带来了系统响应缓慢,查询历史数据时间太长以及频繁告警等问题。因而,对电源、机房环境集中监控系统进行系统优化和升级势在必行。
- 现有系统分析
通信电源、机房环境集中监控系统主要存在以下问题:
首先,系统运行以数据库为,要求中心数据库实时更新,这就造成了对中心数据库的访问过于频繁,压力过大。
其次,数据库服务器是下端前置设备和上端管理节点的连接通道,如果它出现问题,会引起系统的瘫痪。
,现有的通信服务器数量虽多,但它们之间不能进行灵活的切换。这样造成了两方面问题,一是系统的中心通信服务器主备用功能不强;二是可能出现中心通信服务器的负载不均衡现象,当大多数端局都连在一个通信服务器上时,就会出现问题。
系统优化和升级的具体操作
- 改造系统结构
目前的集中监控系统(以下简称:监控系统)多采用两级结构,数据监控量越来越大。
图1 目前监控系统结构图
因此,我们采用三层结构(见图2),即市中心(SC)层、区域中心(SS)层和监控单元(SU)层,各层的软件通过数据交换协同工作,共同实现电源、机房环境集中监控的要求。区域中心(SS)设在集中监控中心(SC)下,它所监控的范围是所在工作区域系统内的动力设备及环境。在此层,设置主备两台服务器,提高系统可靠性和稳定性,并能任意增加区域监控终端和统计管理终端。同时,它还负责处理各通信局(站)监控单元(SU)采集来的数据,并将处理过的数据上传到监控中心,以缓解监控中心的压力,提高了系统查询、下发数据的运行速度。
图2 改造后的结构图
这种结构的优点是:
- 组网方便、灵活,大大减轻了中心的负荷压力,解决了系统瓶颈问题。
- 物理区域分布,使一个区域节点故障不会影响其他区域节点,提高了系统的可用性和可靠性。
- 系统接入能力强,理论上可以无限接入,并可组成多级结构,可在监控网内任意地点安装监控终端。
- 优化数据库,修改表结构
数据库开销中的90%以上都是重复信息。系统升级后,对这些信息进行了过滤,减轻了系统的负荷。
另外,由于监控规模不断扩大,形成了数量庞大的数据库表,不易于管理。针对这个问题,我们采用了更先进的数据库结构。具体操作是:取消端局分表结构,将端局表合并为一个表,包括主机表、机房表、设备表、设备状态表等。修改后的数据库表增加了表的检索能力和检索速度。
- 修改告警数据传输方式
目前监控系统告警查询采取查告警表的方式,导致告警表的任务异常繁忙,严重时会影响监控系统正常运行。
升级后,通过软件与监控模块建立的通信协议机制,不断的轮询,判断接收数据的合理性或将接到的控制数据转换为监控模块能识别的控制命令。通信服务器到监控中心主机的告警采用通知方式,告警反应时间比原来更快。具体操作是:
监控工作站增加服务端口(3388),负责接收告警、门禁及操作记录等信息。告警信息由通信服务程序直接传送到监控工作站,不再通过报警表传递。
通信服务器程序服务端口(8300)增加功能,提供告警、门禁及操作记录等信息。监控工作站的更具情况可直接向通信服务程序查询。
- 历史数据传输
目前的历史数据传输时间太过集中,造成整点时刻网络及数据库繁忙,并存在历史数据丢失现象。
升级后,每个局的历史数据在不同时刻传输,传送时刻由系统采用随机数方法产生。此外,在监控前置机中给每一个历史数据块增加上传标志,标明该历史数据块是否已经成功上传;如上传失败,则继续将历史数据上传到通信服务器。
同样,电池曲线也增加上传标志,以保证电池曲线在上传失败后能继续上传到通信服务器。
- 配置表同步
现运行的监控系统各个监控部分之间缺乏配置同步机制,维持系统配置一致比较麻烦。
针对这一问题,我们建立了配置表同步机制。配置同步的逻辑采用自顶向下的方式,首先由监控工作站或管理工作站开始,先将配置更改信息写入数据库操作记录表,然后由通信服务器读入配置更改信息,再由通信服务器将此信息发送给监控前置机。监控工作站采取查操作记录表方式更新本机配置。
自动配置更新可按如下层次更新,包括:端局层、机房层、监控器层、设备层、变量层。
- 远程控制
本系统采用TCP/IP作为基本的通信协议,但现有远程控制都通过通信服务器和数据库中转,过于依赖中心服务器,导致系统出现以下问题:
1、控制信息回馈不及时,不能准确提示控制成败标志。
2、延长了控制操作的时间,存在控制不及时的隐患。
3、数据库或通信服务器出现问题时,不能执行远程控制操作。
升级后,改变远程控制逻辑,由监控工作站直接控制监控前置机。这样带来了以下好处:
1、控制操作执行速度快,不存在延时问题。
2、信息回馈准确及时。
3、在通信服务器或数据库出现问题时,不影响远程控制操作。
- 系统时间
监控前置机对时系统存在问题,有时会出现错误时间。针对这一问题,我们修改了系统对时逻辑。当连续对时三次以上,不出现较大间隔时间误差时,视为正确时间,否则视为错误时间。误差间隔时间可调,一般设为对时周期的2~5倍。
- 告警过滤
产生误告警的几种主要原因见表1。
表1 产生误告警原因列表
系统某些误告警不能屏蔽,会产生频繁告警。通过以下操作,可减少系统误告警数量。
告警次数过滤:以超过告警线的次数来判断是否产生告警/解除,当连续n次以上超过告警线才产生告警/解除,否则视为误告警处理。次数n可以设定为0~10;次数设为0时,视为告警次数过滤无效。
告警延时过滤:以超过告警线的时间来判断是否产生告警/解除,超过告警延时时间才产生告警/解除,否则视为误告警处理。延时时间有效数据为0.5~60秒,超出此范围视为告警延时无效;当不使用告警延时功能时,应设为0。
告警死区过滤:当监控量超过告警线产生告警后,如果监控量在告警线上下波动,没有超过死区上下线,不产生重复告警及告警解除。告警死区设为0时,视为告警死区过滤无效。告警死区值根据具体情况指定,一般设为量程的2%左右。
同时,系统只将对用户有用的报警和事件记录放入信息栏。
- 复位控制
针对目前监控前置机在系统通信中断时复位频繁,造成硬盘等故障发生率提高的问题,我们在监控前置机增加系统通信断复位次数限制,避免系统频繁重启。次数可指定,默认为3。
- 智能化设备的接入
升级后的监控系统可实现对任意智能设备的接入,但相对于通信接口间的硬件转换,通信协议的转换相对要复杂一些。其实现方式一是局方智能设备智能接口直接连接到监控系统嵌入式监控设备上,由其将转换过的标准协议传送到上位机;二是直接将局方智能设备智能接口接到上位机上,通过软件实现协议转换。无论是嵌入式监控设备还是上位机,都可以根据智能设备及智能协议不同插入不同的协议模块。
监控系统使用的软件协议转化器是在局站中心的计算机中运行的,只占有很少的资源。它是一个小的转换程序,在编写时就能根据智能设备厂家提供的通信协议,将厂家提供的所有设备数据接入到监控系统,可以方便我们详细全面地了解智能设备的运行状况。
但是,监控系统不建议使用硬件协议转换器,因为这样增加了成本,并且在通信链路上增加了一个环节,影响了系统的安全性。此外,由于这种硬件协议转换器是各个监控厂家自己生产的,当局端有新增设备时,会产生一系列问题。
- 增加图像监控
国家相关部门已下达机房改造的规定,一些大型的机房已慢慢成为无人职守型。为了保证上述机房的安全运行要求,升级后的系统增加了图像监控功能,能够随时观察到机房的运行情况,并能得到相关的录像资料。升级后的系统状况如下。
系统结构:采用三级系统结构,包括远程现场、监控区域和监控中心三级。
传输方式:PCM-2M通信线路连接或采用E1抽时隙复用数据方式。
监控现场:每个现场可接若干台摄像机,摄像机的镜头和云台可控。
告警联动:可以任意监视各个现场,并接收各现场的报警信息,及时切换至告警现场,并可将现场情况录像。
- 改进图形界面
改进后的监控系统图形监控界面具有组态功能,并提供了多种图形控件,包括所需的组件和画面制作向导等。界面中每一简单的控件(线条、文本、按钮等)均有影响其外观的属性。其中静态属性在系统投入运行后保持不变;动态属性则随系统运行过程中I/O设备数据的变化而变化。动态属性的组态过程即完成动画连接,如果用户对自动生成的监控系统的图形界面不满意,还可以进行任意修改和编辑。在图形界面上还根据用户需要安置这些组件,如报警信息显示,报表组态及打印,查询和显示等组件模块。
- 无线的人机界面
针对当前移动领域的发展及应用情况,监控系统具备了手机短信息模块,可将各类型的报警信息即时传送到相关维护人员,并可进行简单的交互控制。
- 增加基于B/S结构的远程WEB实时监控
B/S结构,即Browser/Server(浏览器/服务器)结构,在传统的C/S结构中间加上一层WEB服务层,把原来客户机所的功能交给WEB服务层来实现。它有三层结构:表示层(用户界面),功能层(WEB服务器)和数据层(数据库服务器)。与C/S结构相比,B/S结构有以下优点:
(1) 用户端只需安装单一的浏览器软件(如IE),界面统一,使用简单。
(2) 由于客户端无须安装专用软件,系统升级时只需更新WEB服务端的软件,使系统易于维护。
(3) 采用标准的TCP/IP协议,HTTP协议,有良好的广域网支持,扩展性好,易于实现多用户监控,信息共享程度高。
采用B/S结构开发的实时远程WEB监控系统提供了完整清晰的动态监控过程。页面以秒为单位自动刷新。刷新时,整个文件重新执行到数据库的连接、查询和显示,能将数据的变化及时反映给用户。通过屏幕流程图数据和数据表格的配合使用,完成了对设备从整体到细节的监控。
优化和升级后系统的性能
- 响应速度
升级后,监控中心对监控数据的响应速度有了明显的提高,报警数据从现场发生到监控中心的反应时间在10秒以内。
- 通信的主备路由功能
系统升级后,增加了系统通信的主备路由功能,主服务器运行主通信服务程序,备用服务器运行备用通信服务程序。当主服务器失效时,系统自动切换到备用服务器上,使用备用数据库和备用通信服务程序。端局可以动态的接入任意一个中心通信服务器,由此在中心实现动态的负载均衡和通信备份功能,再不会因为某一台通信服务器的故障而使中心和端局的通信中断。
当前通过97网接入的局向,可以配置一个拨号解调器,当97网出现故障时,自动启用拨号备用路由进行通信。
- 系统的扩容能力
当前使用的系统,监控中心的承载能力是有限的。系统升级后,系统构架是专网,通过以太网络设备组成三级网络系统,提供可扩展光端口,而且是点对点树状结构,有极强扩展能力,不会产生传输瓶颈。
区域中心可以随时接入新的通信服务器分担通信及数据处理的任务。这样,整个系统的实际扩容能力将不再受网络结构的限制。
- 监控中心的兼容性
系统升级后的通信服务器支持Unix、Redhat Linux平台,因此不必再选用昂贵的Alpha服务器;甚至在规模较小时,可采用性能良好的PC做同心服务器。在规模较大的监控系统中,可采用多通信服务器协同处理数据,这样并不需要配置太高的服务器也能达到很高的处理能力和接入能力。
- 数据库的压力减小
系统升级后,监控站和通信服务器对数据库的连接数量和访问次数减少,从而减轻数据库的压力,使系统接入能力大大增强。同时,数据表的数量的减少,方便了数据库表的维护。
结论
通过对监控系统的优化和升级,监控软硬件更加趋于模块化、组态化,使监控系统在运行速度、系统的容错能力和可扩容能力都有很大提高,人机界面更加好友。实现了无人值守,节省运行费用,保证被监控设备运行正常,达到提高效率、减员增效的目的。
参考文献
1、邮电部电信总局 《通信电源、机房空调集中监控管理系统技术要求》邮电部电信总局 ydn023-1996
2、计算机软件质量保证计划规范. GB/T12504-90
3、电网综《1997》472号文. 通信电源、机房空调集中监控管理系统暂行规定
: