火电厂热控技术规范要求:机组DCS控制器必须冗余配置;主控制器接收输入信号,经过逻辑运算后,输出控制指令至现场执行机构;而从控制器处于热备用状态,它同时接收输入信号,其CPU逻辑运算后,输出指令跟踪主控制器的输出,一旦主控制器故障,主控制器的所有逻辑功能立即无扰切换到从控制器上,以确保该控制器的控制对象正常运行。
一、非典型故障
8月24日,某电厂3号机组稳定在250MW负荷上以协调方式运行,23:13运行突然发现:报警窗上出现“AP计算机总线故障”等众多报警,机组协调随即退出。电厂DCS值班人员检查发现AP34计算机原主机(上层机)故障灯亮,AP34负责主机功频控制器SIMADYN及ETS主机保护SIEMENS S5-95F控制器与其它控制器的通讯,主机抗燃油泵的控制逻辑也在此AP中。AP34计算机原主机(上层机)故障后,自动切为原备用机(下层机)为主机运行,SIEMENS S5-95F控制器控制的所有主机主汽门及调门电磁阀双线圈的一个线圈失电;原为主的左侧IM614链路的IM614模块的F绿灯(Function)灭、GLE红灯(Group Level Error)亮;原为从的右侧IM614链路切为主,即:F绿灯亮。DCS值班人员于次日凌晨00:11手动复位上层AP,但故障无法消除,00:25停电拔插CPU模块后,CPU恢复运行3秒左右自动停止,同时作为主且起作用的右侧IM614模件的GLE红灯全亮,主机控制油画面元件变红,所有I/O模块红灯闪亮。电厂检修在电气开关侧的二次控制回路做好模拟措施(主要针对抗燃油泵)后,拔出所有的I/O模件,然后再停运更换上层控制器的CPU、IM614等模块,故障仍无法消除。至此,只有下层控制器AP仍在运行,其余I/O模块、IM614均退出运行,机组保持在故障发生时的250MW运行。
二、故障原因分析
由于AP34控制器的下层机(原备用机、现为主机)处于主运行状态,且运行正常,所以在ES680工程师站上利用pgmaster 指令对其进行连接,执行 21 和 22 选项(分别是Diagnostic H-Error block及Diagnostic DX 4),生成诊断文件 hdberror.txt 和 dx4.txt。
查看诊断文件 hdberror.txt,有以下记录:
464:Err 35 Reserve-Master-Umschaltung wegen Masterausfall Zeitstempel= 09.08.24 23:13:57(这条信息表明AP34在23:13发生了主从切换)
472:Err 33 Parallelkopplungsfehler Zeitstempel= 09.08.25 00:11:36(这条信息表明AP34在00:11发生主从切换之后,出现了并口连接错误)
488:Err 32 SynchroNIsationsfehler 32 im
Anwenderprogramm
Zeitstempel= 09.08.25 00:25:32
(这条信息表明 AP34 在00:25发生并口连接错误之后,接着又出现了 CPU 的同步连接故障)
查看诊断文件 dx4.txt,有以下记录:
129 2009.08.24 23:13:57 Err 1037 040dh: OB37 - Aufruf ->Eintrag in H-Fehler DB
(此条信息表明AP34的故障CPU在23:13发生故障时调用OB37组织块)
132 2009.08.24 23:13:57 Err 2189 088dh: Redundanz-Umschaltung im614.2
135 2009.08.24 23:13:57 Err 2190 088eh: Redundanz-Umschaltung im614.3
(这两条信息表明AP34的IM614在23:13发生主从切换)
189 2009.08.24 0:25:24 Err 2400 0960h: Fehler beiZeit-Synchronisation
(此条信息表明在0:25时间同步发生错误)
204 2009.08.25 0:25:32 Err 37129 9109h: OB026 Ueberschreiten der OB1 Zykluszeit
(此条信息表明在0:25系统对组织块OB26进行调用)
210 2009.08.25 0:25:32 Err 2177 0881h: Total Ausfahl im614.2
216 2009.08.25 0:25:32 Err 2178 0882h: Total Ausfahl im614.3
(此两条信息表明在0:25AP34的两路IM614均发生故障,所有I/O模件与AP34控制器的通讯中断)
根据上述信息得知,AP34控制器发生主从切换是因为软件对组织块OB37调用所致。OB37属于系统程序,它在软件运行过程中,检查到有错误发生时被调用。其结果是向CPU本身发出一条STOP指令,使其停止运行,同时将发生的第一个错误作为错误记录被CPU记录下来。之后,下层主控制器又进行了OB26的组织块调用。在上层从控制器进行启动的时候与下层主控制器进行同步连接,当这一同步连接超出系统所设定的循环周期时,系统认为同步连接故障,发生ZYK错误,此时调用OB26组织块。因此,总结如下:上层主控制器在运行过程中检测到发生错误,从而调用OB37程序使其停止运行,切换到下层控制器运行。在切换之后,IM614也发生了相应的切换(右侧IM614链路为主且在正常运行状态),且切换正常。之后,在维护人员试图重启上层原主控制器的时候,由于并口连接错误的存在,导致主从控制器发生了同步连接错误,从而系统调用OB26组织块,发生了右侧IM614与下层的主AP控制器通讯中断的故障。
西门子专家在收集全球Teleperm XP使用故障汇总经验认为:Teleperm XP控制系统的主从AP控制器在使用硬件版本<9的IM324-3UR11主从控制器通讯模件时,或者在使用版本为1的IM304-3UB11的主从控制器通讯模件时可能会发生此类故障。
三、故障处理
此类故障由软件故障引起,只有通过离线下载完全代码才能解决问题。由于机组处于运行状态AP34负责主机功频控制器SIMADYN及主机保护S5-95F控制器与其它控制器的通讯、以及主机抗燃油泵的控制,为降低消除缺陷带来的机组运行风险,电厂方面计划利用深夜电网低负荷时,向省电网调度申请低谷停机消缺。
电厂方面以停机不停炉为宗旨进行消缺。在代码传送过程中,为保证主机控制油泵的正常运行,故保持了先前在电气开关侧的二次控制回路做的针对抗燃油泵的模拟措施;为防止锅炉灭火,将高低旁逻辑进行适当修改和信号强制,以避免在代码传送过程中,由于信号的丢失造成高低旁的关闭。
做好上述安全措施后,电厂DCS在ES680上生成AP34的硬件、软件和LAN代码;
发电机解列、汽机打闸后,更换AP34上层控制器的CPU模件;
将AP34 下层主控制器停止运行,之后再将其重启,它及其链路上的IM614通讯恢复正常;
将AP34控制器的上层故障控制器重新启动,在等待约3分钟之后,它及其链路上的IM614通讯恢复正常;
将AP34所管辖的所有FUM模件插入并送电,均正常启动;
下载AP34的LAN代码;
离线下载AP34的完全代码。
代码下载完成之后,控制器正常启动。利用pgmaster指令连接主从控制器,连接正常。在通讯服务器PU2A/2B上,利用rdb指令,检查PU与AP34的通讯状态正常。对AP34主从控制器进行冗余切换试验,均切换正常,最后维持下层机为主控制器,检查逻辑图动态工作正常,运行人员检查OM画面,各通讯点显示和操作恢复到正常状态。
恢复DCS、电气专业相关模拟措施,运行人员重新启动机组。
四、消缺总结
西门子专家认为此次故障原因是由于IM324和IM304版本较低所致,建议在以后的维护过程中,将这些主从控制器通讯模件和CPU模件进行重启,它及其链路上的IM614通讯恢复正常;
将AP34控制器的上层故障控制器重新启动,在等待约3分钟之后,它及其链路上的IM614通讯恢复正常;
将AP34所管辖的所有FUM模件插入并送电,均正常启动;
下载AP34的LAN代码;
离线下载AP34的完全代码。
代码下载完成之后,控制器正常启动。利用pgmaster指令连接主从控制器,连接正常。在通讯服务器PU2A/2B上,利用rdb指令,检查PU与AP34的通讯状态正常。AP34主从控制器进行冗余切换试验,均切换正常,最后维持下层机为主控制器,检查逻辑图动态工作正常,运行人员检查OM画面,各通讯点显示和操作恢复到正常状态。
恢复DCS、电气专业相关模拟措施,运行人员重新启动机组。




