工控网首页
>

应用设计

>

某厂DCS网络故障事件分析

某厂DCS网络故障事件分析

2018/11/13 10:41:55

一、事件经过

某月19日某厂#2燃机调停。16时08分运行人员发现#2机组DCS操作员站操作无响应、西门子T3000系统控制画面自动关闭,无法重新开启。

二、检查与分析

仪控人员立即到现场检查发现以下故障现象:

a)#2机组操作员站无画面显示;

b)#2机主服务器A面板上“放大镜”信号灯亮, “SAFE TO PULL”指示灯灭;

c)#2机组DCS容错服务器A工作,服务器B备用且指示灯显示不正常,两台服务器硬盘指示灯均不亮(正常工作状态应为闪烁)。

咨询西门子技术人员后告知“放大镜”灯亮信号说明服务器内部存在故障,服务器在自检,需登陆服务器查看问题。但因#2机服务器始终无法登陆,检修人员无法进行任何检查。针对以上故障情况联系南西工程服务人员来现场服务。

20日8时30分,南京西门子人员抵达现场对服务器A、B分别进行软重启和断电重启,服务器A均能正常工作,B一直无法恢复正常,经更换硬盘后服务器B恢复正常工作。服务器进行主辅切换两台服务器均能正常工作。在重启服务器完成后,检查画面发现控制器AP235下所有所有监视点异常且无法正常操作,通过工程师站检查发现服务器同AP235通讯中断。由于AP235控制组主要控制电气设备,#1机组正带负荷运行,为不影响机组正常运行,将AP235控制器组的重启放到#1机停机后进行。

 21日9时30分按预案对 AP235进行重启后系统恢复正常。

经现场排查分析认为#2机组操作员站未设置服务器工作状态的监视画面,运行人员未能及时发现DCS系统各类状态报警。由于服务器B硬盘故障,导致主服务器A始终通过网络查找服务器B,从而引起系统响应缓慢,最终引起DCS系统瘫痪。事件过程需要南京西门子公司进一步分析。

三、防范措施

1)对硬盘失效后引起DCS响应缓慢的事件进一步跟踪,根据南西最终分析报告制定防范措施;

2)加强设备巡检,尽早对失效设备进行更换,按设备寿命周期进行设备定期更换;

3)完善系统报警监视功能,在操作员站增加服务器故障报警;

4)总结故障处理经验,完善故障处理预案;对DCS系统卡件运行状态监视画面进行完善,增加重要部件故障异常的报警功能。

审核编辑(
王静
)
投诉建议

提交

查看更多评论
其他资讯

查看更多

标杆!工博士入选《2023年度上海市智能机器人标杆企业与应用场景推荐目录》

力为科技-致力于工业自动化和工业物联网技术研发和应用

“2023中国智造基石”揭榜,中科曙光两产品入选

思特威发布工业机器视觉面阵CMOS图像传感器SC038HGS

斯凯孚与振华重工深入合作,助力港航产业可持续、高质量发展