每天早上第一件事:Ping 通网关
机房刚开门,咖啡还没泡好,第一件事就是打开笔记本,连上内网,ping 一下核心交换机。不是信不过设备,是怕前一天晚上谁动了配置,或者线路被人不小心碰松了。一般我习惯用命令行跑个 10 次 ping:
ping -c 10 192.168.1.1
丢包率要是超过 1%,就得查链路状态,看交换机端口有没有报错。有次就是因为一条光纤老化,早高峰前就出现间歇性丢包,提前发现避免了一次全楼断网。
查看核心设备 CPU 和内存占用
登录核心交换机和防火墙,执行 show system resources 或类似命令,看 CPU 使用率是不是持续高于 70%。有回问题出在防火墙上,一个策略规则写得太宽泛,导致每秒处理上万条匹配,CPU 一直飙到 95%,差点引发会话表溢出。现在每天都会记下关键数值,做成趋势图贴在工位旁边。
日志里藏着大问题
巡检不只是跑命令,还得翻日志。尤其是凌晨 2 点到 5 点之间的系统告警。上周就在日志里发现某台接入层交换机频繁重启,查物理环境才发现是 UPS 插座接触不良。日志得看三个地方:系统日志、安全日志、DHCP 分配记录。异常 IP 频繁申请地址?可能是内网中毒了。
无线 AP 巡检不能走过场
拿着手机走一圈办公区,连上公司 Wi-Fi,测速、打测试电话、开视频会议模拟。信号强度低于 -75dBm 的区域要标记,回头调整天线角度或加点位。后台还要看 AP 在线状态和负载情况,单个 AP 连接设备超过 30 台就得考虑分流。有次会议室总卡顿,一查发现投影仪、手机、笔记本全挤在一个 AP 上,拆成双频后才缓解。
备份配置别等出事才想起来
每周一早上固定任务:批量拉取所有网络设备的运行配置,保存到本地服务器和云端。用脚本自动完成,基于 SSH + Expect 实现:
<script type="text/bash">
#!/bin/bash
for ip in $(cat device_list.txt); do
ssh admin@$ip "show running-config" > config_$ip.txt
done
</script>
去年路由器配置被误删,靠的就是三天前的备份快速恢复,省了至少两小时排错时间。
用户反馈也是巡检的一部分
别只盯着命令行。前台小妹说打印机连不上?顺手查下 VLAN 划分和端口绑定。财务部抱怨系统慢?抓包看看是不是内部 P2P 占带宽。巡检表上加一栏“当日用户问题汇总”,问题多了自然能看出规律。比如连续三天都有人反映外网访问延迟高,查 DNS 记录果然发现主备服务器切换没生效。
纸质巡检表还是得留一份
电子系统再方便,也得留张 A4 纸打印的巡检清单,勾勾画画更踏实。停电、系统崩了的时候,这张纸能救命。我们现在的表头写着:日期、巡检人、网关连通性、核心设备状态、无线覆盖率、异常日志、备份确认、备注。每人轮班签字,责任到人。
网络这活儿,不怕大事,就怕小事积累。每天花半小时走一遍流程,比出事后通宵强太多。