DCS公用交换机故障,机组被迫全部停运

某年3月16日,某厂因DCS公用交换机故障,全部监测参数、设备运行状态无法显示监控,两台机组被迫相继停运,造成全厂对外停电。
【事故经过】
3月16日07:16:24,某厂#1、#2机组及辅机公用系统DCS系统通讯失灵,全部监测参数、设备运行状态无法显示监控。
故障发生后热控专业人员立即进入现场查找原因,检查发现冗余控制器中的一块CP故障,在线复位CP后故障依然存在,通讯未连接,全部监测参数、设备运行状态无法显示监控。所有交换机本体状态指示灯无异常,工程师站计算机也已离线,无法从DCS系统管理软件查看交换机工作状态。
热控人员首先切除#2机组A、B网络交换机电源后故障未消除。
8:24分#1机组手动打闸安全停机,辅控设备就地检查无异常。
8:40左右断开#1、2机组(#2机与公用系统一根光纤接口牢固未彻底断开)与公用系统、数字化电厂网络连接光纤,故障并未消除,随后恢复#1、2机组与公用系统的网络连接。
故障检查期间,就地检查主辅设备未异常。10:10分#2机手动打闸安全停机。
10:15分切除公用系统A网络交换机电源,切除公用系统B网络交换机电源,恢复公用系统A网络交换机电源后,#1、2机组及公用系统DCS通讯恢复正常。恢复公用系统B网络交换机电源后故障再次出现,再次断开公用系统B网络交换机电源后,DCS通讯恢复正常。判断确认网络通讯异常由公用系统B网络交换机引起。
13:20分就近厂家技术人员到达现场,对更换后的公用系统B网络交换机程序安装,DCS网络系统运行正常。#1机16:57分、#2 机16:53顺利并网。

【原因分析】
1、经技术人员现场检查和发回厂家的数据分析,由于运行中的公用DCS网络交换机SW001B异常故障,直接导致该交换机上RSTP协议(快速生成树协议)正常关闭的端口被非正常的启用。正常运行中RSTP协议在CP及工作站与交换机的连接是打开的,但在交换机与交换机之间的连接是关闭的。由于该交换机工作,RSTP协议关闭的端口被非正常开启,在网络中产生了数据回路,大量的数据包通过这个回路被不断地转发。
2、由于DCS厂家在出厂组态时没有对该交换机的端口进行正确的配置,缺少了应该在交换机端口上配置Broadcast的数据流量限制功能,该功能在数据包大流量转发时能及时限制。由于设置错误,致使大量的数据包被发至整个控制网络中,数据包积累,最终导致整个网络的瘫痪。
【防范措施】
1、进行#1、#2机组、公用系统网络交换机组态配置信息数据收集、备份工作。
2、做好DCS系统设备日常巡检、维护,并认真做好记录和备份存档工作,对DPU控制柜交换机板件、风扇、滤网积灰彻底清理。
3、已经与DCS厂家签订DCS年检维护合同,在机组检修期间,由厂家专业技术人员对DCS系统进行软、硬件,网络通讯、交换机测试检测、升级工作。
4、建立健全DCS系统软件和应用软件的管理制度(特别是要加强系统升级、组态修改等重要工作中的软件管理),注意主控制器与冗余控制器控制组态软件的一致性、应用软件和数据的备份、系统防病毒工作。
5、加强交换机及网络通讯知识的学习,熟知DCS系统通讯方式和控制理论,提高缺陷判断方向感和处理故障的能力。
6、核对通讯网络设备、光纤的图纸、名称标识牌。
7、DCS监控画面发生系统报警时,查看报警信息及时检查处理,并做好记录。
8、加强对独立于DCS系统的后备紧急停机停炉按钮硬操作回路的检查维护工作,确保后备保护回路的可靠。
9、加强汽轮机紧急跳闸系统(ETS)、汽轮机安全监视保护系统(TS1)、汽轮机控制系统(DEH、MEH)定期巡视检查工作。
10、完善DCS系统保护。机组大、小修或机组停备7天以上必须进行逻辑保护传动试验,确保DCS系统保护投入、可靠、正确无拒动。对传动试验卡和备份逻辑专人妥善保管。做好重要备品备件的配置管理。
11、将#2机组与公用系统网络连接断开隔离,分散网络系统故障范围。
12、制定方案将#1、2机组、公用系统网络完全隔离单独监控,减少网络故障影响范围。
13、完善网络交换机系统在线监测报警功能软件,发现问题及时处理,防止事故扩大。
14、尽快会同厂家技术人员查找出此次交换机出现故障的根本原因,杜绝此类事故再次发生。