导航栏 ×
66职场网 > 工作总结 > 导航 >

工作总结

工作总结

发布时间:2026-04-26

国泰航空一线运维工作反思(2026免费)。

在国泰航空做一线设备运维,说白了就是给航班运行系统擦屁股。这几年我守着浦东航站楼的离港控制、行李分拣、登机口闸机这些要命的东西,半夜被叫起来修机器是家常便饭。下面说两个真事儿,一个主备脑裂,一个施工埋雷。你懂的,干我们这行,写的不是总结,是血泪史。

先说离港控制系统那个雷雨夜。凌晨两点,香港监控弹窗:浦东交易成功率掉到70%。离港系统要是瘫了,值机柜台全灭,旅客出不了牌,行李走不了。我当时在休息室刚躺下,看到消息直接套上裤子冲进机房——说实话,那一路心都悬着。

这套系统是主备双机热备,主节点跑核心交易,备节点同步数据。按标准,备节点检测主节点心跳超时后自动升主。可当晚备节点的存储链路间歇性丢包,它反复误判主节点“已死”,连续三次广播“我已升主”。主节点被抢注后竟然自动退让了。结果两个节点都觉得自己不是主——脑裂,服务完全停摆。

我第一反应是重启主节点服务,但备节点还在捣乱,主节点刚起来又被踹下去。试了两次,不行。这时候我注意到备节点的抢主广播间隔不到一秒,完全没防抖。骂了一句娘,直接冲到机柜前,拔了备节点的网线。物理隔绝后,手工把主节点的仲裁文件从slave改成active,重启服务。十七分钟后交易恢复——但这十七分钟里,值机柜台已经炸了锅,两百多人排队,地勤被骂得狗血淋头。

事后我翻日志,发现这套主备切换的设计竟然没有“持续确认”窗口。备节点只要丢一个心跳包就抢主,跟神经病一样。我跟香港的架构师打电话,对方也承认这是早期供应商的固有问题,但一直没触发过。这简直令人难以置信——一个核心生产系统,居然靠这么脆弱的逻辑跑了三年。

整改措施不复杂,但得落地。我们加了第三个监控节点做仲裁,主备切换前必须多数投票同意。另外给心跳增加了三次连续确认,丢包超过十五秒才动作。说白了,让系统别那么一惊一乍。我还写了一页快速手册,把拔网线、改仲裁文件的步骤固化下来,新同事培训第一课就讲这个。后来有人问我,万一备节点拔错了怎么办?我说那就认栽,但总比两个一起死强。

再说第二个案例,跟施工验收有关。T2航站楼改造,新增六个远机位的桥载电源和空调插口。施工方提交了验收报告,我们按流程抽检了几个配电箱的绝缘和接地,电阻值都在标准内。我承认,当时也没多想,觉得这种工程不应该出问题。

结果投运第三天,328号登机口的两个自助值机终端冒烟,接着同一个回路上的闸机、航班显示屏全灭。赶到现场,一股焦糊味。拆开终端电源模块,压敏电阻炸了,保险管却完好——说明零线对地电位异常升高,过压保护动作了。我立刻掐掉该回路总闸,拿万用表一测零地电压,58伏。正常应该小于2伏。说实话,我当时真想骂街。

排查了一整天,最终在中间一个接线盒里发现:施工方把桥载电源的零线接到了工程接地排上,而不是回到配电室的总零排。这样一来,当桥载电源给飞机供电时,大电流在地线上产生压降,整个回路的零地电位被抬高。单相供电的终端,相电压直接从220伏飙到270伏以上。这简直令人难以置信——他们居然敢这么接,而且我们的验收清单竟然没有“零线连续性测试”这一项。

我拿着热成像仪和万用表的数据,把施工方项目经理叫到现场。对方一开始还狡辩说“图纸没标清楚”,我直接把配电规范翻出来,指着“零线必须独立回总排”那条给他看。最后他认了,赔了烧掉的六台终端,外加重新放线。但我自己心里清楚,责任不完全在他们——我们的验收流程太糙了,抽检几个电阻就敢签字。

那次之后,我重新写了《现场设备验收作业指导书》,加了三条死规矩:第一,全回路零线对地电压实测,带负载和不带负载分别测,数据拍照存档;第二,所有接线盒必须开盖拍照,关键节点留底;第三,用热成像仪扫一遍配电箱内部端子,温升超过环境温度十度的,一律拆开重拧。另外,所有新接入的航显、闸机等终端,前端必须加装过压保护模块。现在谁要在验收单上打勾,我得让他把照片和数据拍在桌上,少一样都不签字。

回顾这两件事,最让我憋屈的不是故障本身,而是有些缺陷明明可以提前发现,却因为流程上的偷懒或者设计上的想当然,硬生生拖成了事故。我现在养成了一个习惯:每次处理完故障,除了写技术报告,还会问自己一句——如果是明天重新设计这套东西,我会在哪里加一道保险?把这个答案记下来,下次评审别人的方案时,直接拿出来拍桌子。

    66职场网小编为您推荐工作总结专题,欢迎访问:工作总结

文章来源://www.dm566.com/gongzuozongjie/191552.html