网络运维故障处理手册:实战经验分享
做网络运维这行,最怕的不是通宵加班,而是凌晨三点被电话吵醒——“公司上不了网了!”这时候,光靠手忙脚乱地重启设备可不行,得有一套清晰的故障处理思路。这份《网络运维故障处理手册》就是从一线实战中总结出来的,不讲虚的,专治各种“连不上、访问慢、突然断”。
第一步:先别急着动手,搞清楚问题范围
接到报障,第一反应不是冲去机房,而是问清楚:是整个公司都上不了?还是某个部门?某台电脑?
有一次同事接到“全公司断网”的电话,立马跑去机房重启核心交换机。结果发现只有财务部上不了,其他人都正常。最后查出来是财务那台电脑的网线被椅子压断了。白忙一场。
所以先做个简单分类:
- 单点故障:个别终端无法上网
- 局部故障:某个VLAN或楼层出问题
- 全局故障:整个网络瘫痪
区分清楚,能少走80%弯路。
第二步:分层排查,像剥洋葱一样
网络结构就像搭积木,一层一层来的。我们按“终端→接入层→汇聚层→出口→外网”这个顺序查。
比如用户说打不开网页:
- 先让他ping网关,通不通?
- 通的话,再ping DNS(比如8.8.8.8),通不通?
- IP地址有没有?是不是自动获取失败?
这些基础命令别嫌土,关键时刻比监控系统还准。
常见故障场景和应对方法
1. 终端获取不到IP
先看是不是DHCP服务器挂了,或者地址池耗尽。可以登录交换机查一下DHCP分配记录。
如果只是个别机器有问题,大概率是本地设置错误,比如手动填了错误的IP,或者网卡驱动抽风。
快速检查命令(Windows):
ipconfig /all
ipconfig /release
ipconfig /renew2. 能上网但特别慢
这种问题最烦人。先排除是不是带宽跑满了。登录防火墙或出口路由器,看看实时流量。
曾经有次发现内网有人用迅雷下电影,占了90%带宽。后来在策略里限了P2P,问题就没了。
也可以用抓包工具看有没有异常广播包泛滥,比如ARP攻击或者环路。
3. 外网能上,但打不开公司OA
这时候别盯着网络设备猛查,可能是服务器或DNS解析的问题。
用nslookup查一下OA域名能不能正确解析:
nslookup oa.company.com 192.168.10.1如果解析不出来,看看DNS服务器配置对不对。也可能是防火墙策略把80/443端口拦了。
4. 突然断网,过几分钟又恢复
这种间歇性故障最难搞。建议开启日志记录,重点查这几个地方:
- 核心交换机有没有生成树震荡(STP Re-convergence)
- 电源是否稳定,UPS有没有告警
- 运营商线路是否频繁闪断
我们之前遇到一次,每天下午4点准时断网3分钟。最后查出来是空调启动电流太大,导致弱电间电压不稳,交换机重启。
建立自己的故障处理清单
别指望每次都靠脑子记。建议整理一份属于你们公司的《故障处理速查表》,打印贴在工位上。
比如:
| 现象 | 可能原因 | 检查步骤 |
|---|---|---|
| 无法上网 | 网线松动、交换机端口故障 | 换线、换端口测试 |
| DNS解析失败 | DNS配置错误、防火墙拦截 | nslookup、检查ACL策略 |
| 延迟高 | 内网广播风暴、链路拥塞 | 抓包分析、查流量监控 |
每次处理完新问题,就把解决方案补进去。时间久了,这就是团队的宝贵资产。
预防永远比抢修重要
定期做这几件事,能避免大部分突发故障:
- 每月检查一次设备日志,看有没有反复出现的警告
- 备份关键设备的配置文件,最好自动定时备份
- 标记所有网线,别等到出事了对着一捆线发呆
- 和运营商保持联系,保存好专线合同和报修电话
网络运维不像开发那样炫酷,但它像水电一样,一旦出问题,整个公司都得停摆。手里有手册,心里才不慌。