DCS系统通讯故障

一、事件经过
10月20日20时40分,#4机在运行中DCS的五台操作员站大部分数据显示紫色,约2分钟后又自动恢复到正常(此种现象以前曾多次发生)。21时31分,#3炉在吹灰过程中,突然发现#4机DCS的五台操作员站所有的数据均为紫色,不能自动恢复。运行人员立即通知检修人员速进厂处理。因DCS全部死机,无法在远方监视机组情况,运行值班人员在就地监视水位,压力,温度等关键参数,并作好随时打闸停机的事故准备。经热工同意,运行人员对服务器主机重启,仍然无法恢复。
检修人员在现场检查发现所有PCU柜上的通讯接口主模件,包括NPM和ICT的状态灯均为红色,故障代码为均为LED2&5灯亮(为LOOPBACK故障或NIS故障)。但是所有MFP12主模件以及对应的子模件均工作正常(机组仍能维持运行)。对ICT模件进行复位和拔插操作,故障依旧,不能消除。经运行、检修人员商讨决定进行停机检查。机组停机后,对NPM模件进行复位和拔插操作,故障依旧不能消除。
待#2机、4机和#11机均已停机后,将中心环的PCU电源停掉,再将#4机的#2、#5、#7和#9PCU的电源停掉,并将所有的NIS模件拔出后,将中心环甩开,单独检查#4机的环路电缆:
#2PCU→#5PCU,环路电缆的同轴芯与外壳间的电阻为∞;
#5PCU→#7PCU,环路电缆的同轴芯与外壳间的电阻为∞;
#7PCU→#9PCU,环路电缆的同轴芯与外壳间的电阻为∞;
#9PCU→#2PCU,环路电缆的同轴芯与外壳间的电阻为∞;
将中心环连接#4机环路侧的两块NIS模件拔出后,单独检查#4机到中心环的环路电缆:
#2PCU→#18PCU,环路电缆的同轴芯与外壳间的电阻为∞;
#18PCU→#2PCU,环路电缆的同轴芯与外壳间的电阻为∞;
检查环路电缆没有短路现象。
仍然将中心环甩开,将#4机环路电缆接好,并将所有的NIS模件插入后,将#4机的#2、5、7和#9PCU重新上电,自检完成后,所有的ICI和NPM模件状态均显示正常(包括SOE的接点,EWS的ICI需要在EWS上人为连接),五台操作员站的所有数据均显示正常,通讯系统恢复正常,初步怀疑故障起因源自中心环的IIL模件。
为验证上述的怀疑,再次将中心环接入#4机环路,将包括中心环在内的所有PCU重新上电,自检完成后,#4机环路上所有的ICI和NPM模件状态均显示正常(包括SOE的接点),五台操作员站的所有数据均显示正常,但位于中心环PCU柜上18-6-1、18-6-2、18-6-3位置的IIL模件仍处于故障状态,而另一IIL模件则正常。之后进行如下试验:
NPM、MFP各自的冗余切换。
正常的启机操作。
旁路快开/快关保护。
汽机保护传动。
SERVER和CLIENT的切换。
以上试验均正常,机组具备开机条件(如果要开机,当时设想将挂在#4机的中心环甩开,解环运行)。
21日7时15分,完成上述的检查与处理。22日下午,制造厂工程师到达后开始进行如下检查、处理:
检查通讯接口子模件以及对应的端子板NTCL01,当检查到位于中央环的IIL模件时,发现与#2环相联的一个NIS11模件,无论其对应的IIT主模件处于主还是备用时,与其相联的TCL端子板上的状态灯均激活(不正常)。
当复位对应的IIT主模件时,该IIT主模件也进入故障模式,故障代码为2&5红灯。此时如果对其他的PCU柜内的NIS/NPM模件做冗余切换,则该PCU柜内的NPM模件将显示故障,故障代码为1、3、5红灯。
如果拔出上述有问题的NIS11模件,再复位任一NPM模件,则该NPM模件故障消失。
接着将上述有问题的NIS11模件重新插回原来的位置,再将#2环内的所有四个PCU柜均断电后再上电,发现所有四个PCU柜内的NPM主模件均进入故障模式,错误代码为2、5红灯,并且#2PCU柜内的一块NIS11模件上的所有十六个LED均红闪,表明输入到该NIS11子模件的两个控制环均断路。此时如果拔出上述有问题的NIS子模件,再复位任一个NPM模件,则该NPM模件工作正常,如果不拔出上述有问题的NIS模件,复位任一个故障的NPM模件,则该NPM模件依旧进入故障模式,故障代码依旧。
将上述有问题的NIS11模件和PCU7内一个NIS11模件交换,故障依旧。用一个新的NIS11模件替代上述有问题的NIS11模件,则故障消失。上述故障是由于该NIS11子模件损坏所致,即更换了该模件。
二、原因分析
1.本次故障为NIS11模件损坏造成。按SYMPHONY DCS控制系统的设计,如果一个NIS11子模件故障,则该NIS11子模件以及对应的NPM模件均进入故障模式,与该NIS11子模件相联的TCL端子板将两个控制环自动旁路,同时处于后备模式的NIS/NPM模件将接替上述故障的NIS/NPM的工作。但本次事件中NIS11子模件故障后,未能将对应端子板上连接的两个控制环旁路,显然不正常。这种故障属于极罕见现象。至于NIS11模件上的哪个部件损坏会导致上述现象,有待于进一步分析。
2.关于SERVER25有时也出现显示数据为紫色、大约2-3分钟后自动恢复的现象。20日检查时初步怀疑为,#7PCU上有一段Control Way与该SERVER的ICI通信模件相连所致,为了验证上述怀疑,当时拔掉该段Control Way观察。11月3日,#4机DCS的SERVER#25三台电脑参数再次出现坏质量,约一分钟后自动恢复(从此可以否定当初的怀疑)。故障原因尚待分析查找,目前初步怀疑SERVER的ICI通信模件有问题,11月5日,将SERVER25与工程师站的ICI(ICT+NIS)模件进行了对调,待继续观察。
三、防范措施
1.在每台机组的SERVER上增加中心环节点的标签,与其他节点的标签一样,将他们的报警级别设置为带音响的最高级。
2.加强对PCU模件柜的巡检工作,每天巡检机组时必须观察PCU模件柜中主要模件的状态。
3.在近期利用停机间隙,对所有机组的DCS机柜和操作员站进行一次彻底的清灰工作。
4.制订出Symphony系统的定期工作和日常维护导则,并对运行人员进行相关培训,重点进行DCS系统本身故障(软件、硬件)报警的判别及处理,即出现哪些(级别)报警时需立即停机处理;哪些(级别)可待检修到场处理等。
5.对于NIS模件的故障原因,要求制造厂尽快找出故障原因并提出改进措施。
6.DCS通信系统故障后,机组的操作采用应急方案。