站段级路由器是我局网络三层结构中接入层的核心网络设备。快速、有效地网络诊断是管好、用好网络,使网络发挥最大作用的重要技术工作。本文简介了分层诊断技术,结合讨论思科路由器各种接口的诊断,综述站段路由器(广域网)网络连通性故障的排除的一般方法。
一、网络故障分层诊断简介
网络故障诊断,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或操作错误;传输层的设备性能或通信拥塞问题;上三层或网络应用程序错误。诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信
正常为止。
二、站段思科路由器(广域网)网络故障诊断一般方法
日常站段级路由器发生故障,技术人员通常采取分段式故障排除法。在每一个段内,结合分层诊断技术,并借助各种网络工具辅助判断,逐段排除,最终确定故障点。以博乐站路由器故障为案例,进行简单分析说明。
接到故障申告后,首先打开网络资料维护手册,查看博乐站网络拓扑,使用PING工具查看通断情况,使用TRACERT工具追踪路由。
1、本端路由器及各连接单元。
1.1 物理层需要检查本端路由器供电是否良好(查看POWR灯是否是绿灯常亮);连接的局域网线和广域网线是否接触连接良好(查看LINK灯和CD灯是否是绿灯常亮)。
1.2 链路层查看接口配置,一般在有新增设备时才会发生。
1.3网络层查看封装的协议和路由表。一般情况下思科路由器缺省封装HDLC协议,华为是PPP协议。两端的路由器封装的协议要一致。 查看路由是否正确,包括动态路由和静态路由。
1.5传输层查看网络是否拥塞,可能是IP地址冲突或网络中存在非正常环形,形成大量广播风暴;或者是病毒攻击等均会造成网络大量丢包,时通时断的现象。亦或是某种应用,例如,曾发生过中心机房有一台防病毒软件服务器,当软件升级时,较多数量的终端同时*载下**升级程序,产生大量网络连接,造成网络拥塞,最后导致网络中断。
2、远端路由器及各连接单元。检查的方法与本端路由器检查的方法一样,不再复述。需要注意的是,远端路由器的机房环境不一,有些较差。例如,曾多次发生路由器摆放在运转室时网络丢包严重或不通,而将路由器迁移至通信机房后,网络却很稳定。经分析,除了路由器物理位置不同外,主要是路由器的机房环境发生变化。运转室的网络机柜没有接地,而Cisco的VWIC 2MFT G703接口模块输出信号的电压较低,较易受到无接地产生的干扰,从而因输出信号遭到破坏而导致SDH 2M误码告警;路由器的端口不断up和down。所以迁移到机房环境较好的通信机房后,良好的接地导出了静电,干扰随即消失,网络恢复正常。
3、线路通道。以思科1841路由器为例,用sh int s0/0/0查看物理层通道情况

3.1 Serial0/0/0 is up, line protocol is up //接口与协议都启动(正常)
Serial0/0/0 is up, line protocol is down //接口启动,线协议没有匹配成功(端口无物理故障,但通道不通)。解决措施:可能是通道质量不好或通道中断造成,联系通信段前去查看通道是否正常。
Serial0/0/0 is down, line protocol is down(notconnect) //接口与协议都DOWN掉,本地端口没有与对方建立物理连接,可能是对方设备没有开启、损坏,对方端口故障或线路故障。解决措施:a、检查本端路由器的BNC线连接是否有松动,可重新插拔;b、联系对端设备摆放单位,查看是否设备停电(POWER灯);c、如果没有停电,检查对端路由器的BNC线是否有松动;d、如果无效,启用备用端口(需要保证带外通道畅通或对端有配合技术人员登陆路由器开启备用端口);e、如果前动作无效,联系通信段查看通道;d、如果通信部门反映通道没有问题,可能设备故障;f、尝试重新启动路由器,如无效,需更换备用路由器。
Serial0/0/0 is down, line protocol is down //接口与协议都DOWN掉(同上)
Serial0/0/0 is down, line protocol is down(disable) //端口出现物理性故障。解决措施:更换本端路由器端口。
Serial0/0/0 is administratively down, line protocol is down //接口关闭。解决措施:用命令打开。
Serial0/0/0 is up, line protocol is down(looped) //此通道上有环。解决措施:a、查看本机房DDF架是否有打环;b、联系通信段查看大通道,是否某段有打环。
3.2 reliability 255/255,表示线路可靠性,当数值从255/255到128/255表示可靠性下降,当下降一定的值之后线路协议就会关闭(line protocol id down)。线路可靠性降低可能是通道不稳定。
3.3 Txload 1/255, rxload 1/255表示链路负载(使用率),当看到负载为254/255,即使用率为96%。当看到容量为64K,输入输出速率为6100比特/秒,也提示链路使用率超过90%。当负载超过50%网络就会出现丢包严重甚至不通,当重起设备之后还是不能恢复,就要考虑扩充链路的容量。
3.4 CRC为物理链路纠错参数,当数值不为0时表示端口或传输媒介有潜在的问题。当报错数值持续增长就会导致网络中断,这种现象可能是通道质量不稳定或者设备连线有松动、损伤。
综上说述,站段路由器故障处理采取的一般方法分层诊断结合分段排除相结合的方法。分层诊断时,以网络七层结构为参考,自下而上的检查。分段排除时,先本端后远端;先查看本部门管辖设备,再协调查看其他部门管辖设备。采取了这样的办法后,能够快速、有效地定位故障点,及时恢复网络的正常运行。