工作总结

发布时间：2026-04-24

服务行业年终工作总结（精辟）。

这一年下来，手头的活儿说白了就是两样：一是每天按部就班的巡检和维护，二是不知道什么时候会冒出来的突发故障。跟你讲个真事儿。

七月份那阵子，中心机房一台华为CE12800交换机的端口频繁闪断。一周出现三次，每次断个二三十秒自动恢复，但刚好赶上下午业务高峰期，影响了下游两百多台终端的访问。第一次报障时我按标准流程走：查物理链路、换光模块、测光纤衰耗。光功率-18.5dBm，正常范围内；模块收发光也都在阈值内。折腾两小时没找到原因，只能复位端口暂时恢复。说实话，当时觉得挺丢人的——干了六年还搞不定一个闪断。

第二次又出现，我学乖了。把设备三个月的历史日志全导出来，用Python写了个小脚本，过滤出所有端口状态变更的记录。脚本跑下来发现一个规律：每次闪断前，端口Gi0/0/3的入方向广播报文数量会在十秒内从平均83个/秒飙到超过4700个/秒。顺着这个端口往下游查，是接入层一台S5720下挂的一个监控摄像头网卡损坏了。那破玩意儿不断往外发畸形的ARP请求，把交换机的CPU利用率顶到98%，触发了协议栈的保护性重启。

处理过程其实简单——拔掉那个摄像头，换一台备用，问题就消了。但我后来复盘时给自己记了一笔：第一次排查花了两个半小时，其中两小时在错误的方向上。如果一开始就做流量趋势对比而不是先动物理层，这个时间能压缩到四十分钟。

这事之后，我给我们组的故障排查流程加了一个硬性动作——任何闪断类问题，必须先拉出故障点前后五分钟的广播包和CPU曲线对比图，有了数据再动手。这不算什么创新，但至少让我们少走了弯路。

再说说设备维护这块。我们组负责全市十六个节点、四百多台网络设备。以前的季度巡检就是对着清单打勾：清灰尘、看日志、测电源、查风扇。今年我搞了个性能趋势预判表。每台核心设备的CPU、内存、端口流量按月做曲线，用Excel的线性趋势线算斜率。如果你发现CPU曲线连续三个月斜率都是正的，哪怕当前才40%，也得提前看。

举个例子。九月份做数据时，一台汇聚交换机的内存使用率曲线斜率达到每月2.3%，当时实际占用63%，远没到80%的告警线。但我翻了去年同期的数据，发现这个斜率不正常——正常应该在0.5%以下。拆机一看，是内部一个进程日志写爆了，把内存分成碎片块。重启清空日志后，曲线斜率降回0.3%。如果等到80%告警再处理，那个节点下的四十多个监控摄像头会全部掉线。

当然也犯过二逼的错误。八月份有个链路聚合的故障，当天晚上我抢修完就简单记了几个操作步骤，画了个粗糙的网络拓扑。三个月后，另一个同事遇到几乎一样的问题，翻我的文档发现端口状态交替顺序没写清楚，聚合组的主备切换条件也漏了。他打电话问我，我当时自己也记不太准了。后来我俩一起重新搭环境复现了一次才算搞清楚。这事给我的教训是：复盘文档如果不画好时间轴、不标清楚每一步的预期结果，那就是废纸。

66职场网精选典藏:

服务行业思想总结 | 服务行业工作总结心得 | 景区服务行业转正总结 | 服务行业个人工作总结 | 服务行业年终工作总结 | 服务行业年终工作总结

说到自己的开发工作，今年我写了一个小工具，算不上多高级，但很管用。以前排查环路或者异常广播，得手动登录每一台交换机敲命令看MAC地址表。我写了个基于Netmiko的批量采集脚本，输入一个IP范围，自动登录、抓取mac-address-table和arp信息，输出成CSV。原来查一个区域的广播源需要四十分钟，现在三分钟出结果。脚本还在持续改，加了异常日志自动标记功能——如果某个MAC地址在五秒内在两个不同端口出现，标红报警。这事让我觉得，技术骨干不能光会修故障，还得会造工具，把重复劳动干掉。

不足的地方也挺明显。一是预维护做得还不够细，目前只覆盖了核心层设备，接入层的四百多台交换机还没纳入趋势监控。那些老设备才是真正的雷区。二是故障复盘的标准化不够。虽然我现在要求组里每个人都写，但不同人写的颗粒度差距很大。有人会贴配置对比和抓包截图，有人就写两行“重启解决”。明年一季度之前，我准备把之前总结的复盘模板固化下来，至少包含故障现象、时间线、根因链、修复步骤、预防措施这五个模块，然后用Git管理版本。

说到底，干技术服务这行，经验不是干得久了就自然有的，而是每解决一个问题之后，能不能把它拆透了、写明白了、以后还能用得上的过程。明年我给自己定的目标就一个：把接入手上的四台老旧汇聚设备全部做过一遍预检，把那个批量脚本的功能再扩展一版，加上自动告警推送。别的虚的，不说了。

推荐阅读:

为了您方便浏览更多的工作总结网内容，请访问工作总结

热门标签:

服务行业实习心得

服务行业工作计划

老年服务行业的早安文案