网络维护日常巡检手册 - 知用网网络运维指南

每天早上第一件事：Ping 通网关

机房刚开门，咖啡还没泡好，第一件事就是打开笔记本，连上内网，ping 一下核心交换机。不是信不过设备，是怕前一天晚上谁动了配置，或者线路被人不小心碰松了。一般我习惯用命令行跑个 10 次 ping：

ping -c 10 192.168.1.1

丢包率要是超过 1%，就得查链路状态，看交换机端口有没有报错。有次就是因为一条光纤老化，早高峰前就出现间歇性丢包，提前发现避免了一次全楼断网。

查看核心设备 CPU 和内存占用

登录核心交换机和防火墙，执行 show system resources 或类似命令，看 CPU 使用率是不是持续高于 70%。有回问题出在防火墙上，一个策略规则写得太宽泛，导致每秒处理上万条匹配，CPU 一直飙到 95%，差点引发会话表溢出。现在每天都会记下关键数值，做成趋势图贴在工位旁边。

日志里藏着大问题

巡检不只是跑命令，还得翻日志。尤其是凌晨 2 点到 5 点之间的系统告警。上周就在日志里发现某台接入层交换机频繁重启，查物理环境才发现是 UPS 插座接触不良。日志得看三个地方：系统日志、安全日志、DHCP 分配记录。异常 IP 频繁申请地址？可能是内网中毒了。

无线 AP 巡检不能走过场

拿着手机走一圈办公区，连上公司 Wi-Fi，测速、打测试电话、开视频会议模拟。信号强度低于 -75dBm 的区域要标记，回头调整天线角度或加点位。后台还要看 AP 在线状态和负载情况，单个 AP 连接设备超过 30 台就得考虑分流。有次会议室总卡顿，一查发现投影仪、手机、笔记本全挤在一个 AP 上，拆成双频后才缓解。

备份配置别等出事才想起来

每周一早上固定任务：批量拉取所有网络设备的运行配置，保存到本地服务器和云端。用脚本自动完成，基于 SSH + Expect 实现：

<script type="text/bash">
#!/bin/bash
for ip in $(cat device_list.txt); do
    ssh admin@$ip "show running-config" > config_$ip.txt
done
</script>

去年路由器配置被误删，靠的就是三天前的备份快速恢复，省了至少两小时排错时间。

用户反馈也是巡检的一部分

别只盯着命令行。前台小妹说打印机连不上？顺手查下 VLAN 划分和端口绑定。财务部抱怨系统慢？抓包看看是不是内部 P2P 占带宽。巡检表上加一栏“当日用户问题汇总”，问题多了自然能看出规律。比如连续三天都有人反映外网访问延迟高，查 DNS 记录果然发现主备服务器切换没生效。

纸质巡检表还是得留一份

电子系统再方便，也得留张 A4 纸打印的巡检清单，勾勾画画更踏实。停电、系统崩了的时候，这张纸能救命。我们现在的表头写着：日期、巡检人、网关连通性、核心设备状态、无线覆盖率、异常日志、备份确认、备注。每人轮班签字，责任到人。

网络这活儿，不怕大事，就怕小事积累。每天花半小时走一遍流程，比出事后通宵强太多。