知用网
白蓝主题五 · 清爽阅读
首页  > 网络运维

网络运维故障处理手册:实战经验分享

网络运维故障处理手册:实战经验分享

网络运维这行,最怕的不是通宵加班,而是凌晨三点被电话吵醒——“公司上不了网了!”这时候,光靠手忙脚乱地重启设备可不行,得有一套清晰的故障处理思路。这份《网络运维故障处理手册》就是从一线实战中总结出来的,不讲虚的,专治各种“连不上、访问慢、突然断”。

第一步:先别急着动手,搞清楚问题范围

接到报障,第一反应不是冲去机房,而是问清楚:是整个公司都上不了?还是某个部门?某台电脑?

有一次同事接到“全公司断网”的电话,立马跑去机房重启核心交换机。结果发现只有财务部上不了,其他人都正常。最后查出来是财务那台电脑的网线被椅子压断了。白忙一场。

所以先做个简单分类:

  • 单点故障:个别终端无法上网
  • 局部故障:某个VLAN或楼层出问题
  • 全局故障:整个网络瘫痪

区分清楚,能少走80%弯路。

第二步:分层排查,像剥洋葱一样

网络结构就像搭积木,一层一层来的。我们按“终端→接入层→汇聚层→出口→外网”这个顺序查。

比如用户说打不开网页:

  1. 先让他ping网关,通不通?
  2. 通的话,再ping DNS(比如8.8.8.8),通不通?
  3. IP地址有没有?是不是自动获取失败?

这些基础命令别嫌土,关键时刻比监控系统还准。

常见故障场景和应对方法

1. 终端获取不到IP

先看是不是DHCP服务器挂了,或者地址池耗尽。可以登录交换机查一下DHCP分配记录。

如果只是个别机器有问题,大概率是本地设置错误,比如手动填了错误的IP,或者网卡驱动抽风。

快速检查命令(Windows):

ipconfig /all
ipconfig /release
ipconfig /renew

2. 能上网但特别慢

这种问题最烦人。先排除是不是带宽跑满了。登录防火墙或出口路由器,看看实时流量。

曾经有次发现内网有人用迅雷下电影,占了90%带宽。后来在策略里限了P2P,问题就没了。

也可以用抓包工具看有没有异常广播包泛滥,比如ARP攻击或者环路。

3. 外网能上,但打不开公司OA

这时候别盯着网络设备猛查,可能是服务器或DNS解析的问题。

用nslookup查一下OA域名能不能正确解析:

nslookup oa.company.com 192.168.10.1

如果解析不出来,看看DNS服务器配置对不对。也可能是防火墙策略把80/443端口拦了。

4. 突然断网,过几分钟又恢复

这种间歇性故障最难搞。建议开启日志记录,重点查这几个地方:

  • 核心交换机有没有生成树震荡(STP Re-convergence)
  • 电源是否稳定,UPS有没有告警
  • 运营商线路是否频繁闪断

我们之前遇到一次,每天下午4点准时断网3分钟。最后查出来是空调启动电流太大,导致弱电间电压不稳,交换机重启。

建立自己的故障处理清单

别指望每次都靠脑子记。建议整理一份属于你们公司的《故障处理速查表》,打印贴在工位上。

比如:

现象可能原因检查步骤
无法上网网线松动、交换机端口故障换线、换端口测试
DNS解析失败DNS配置错误、防火墙拦截nslookup、检查ACL策略
延迟高内网广播风暴、链路拥塞抓包分析、查流量监控

每次处理完新问题,就把解决方案补进去。时间久了,这就是团队的宝贵资产。

预防永远比抢修重要

定期做这几件事,能避免大部分突发故障:

  • 每月检查一次设备日志,看有没有反复出现的警告
  • 备份关键设备的配置文件,最好自动定时备份
  • 标记所有网线,别等到出事了对着一捆线发呆
  • 和运营商保持联系,保存好专线合同和报修电话

网络运维不像开发那样炫酷,但它像水电一样,一旦出问题,整个公司都得停摆。手里有手册,心里才不慌。