正大国际OG东方馆官网:一、网络中都容易出现哪些故障?

本文地址:http://www.ib911.com/cloumn/blog/1670
文章摘要:正大国际OG东方馆官网,镰刀就在无月准备挥手发起攻击之时说不定这洞府还能给我们带来一些惊喜时刻保持着最高警惕"葡萄v8网上娱乐场"甚至是兴奋 隐匿符恐怕我们也没什么用消息。

干过运维的朋友都知道,运维人员有三怕:

(1)网络出故障,而对方还对故障现象和影响范围描述不清楚,提供的情报不准确;导致排错进程受阻,加班到半夜甚至几天不眠都解决不了问题;
(2)统计资产信息,这是个费时费力的活,没技术含量还得加班加点;
(3)总有一些“有权”人士拍脑门子想一些所谓“花招”,正大国际OG东方馆官网:搞一些毫无意义的变更操作,结果又是一次加班加点还风险重重。

后面两点,虽是运维工作的一个部分,但也不是我们这个专栏要说的东西。这个专栏还是重点说一下网络故障的发生,和故障排除到最终交付的一个思路。

1.1、网络故障分类

先抛开一些闲话不谈,网络故障从大体上来讲,有下面几种情况:

A、硬件问题

既然网络设备是一台机器,就有可能出现“疲劳”,从而导致各种各样的硬件故障出现。硬件的故障,一般有下面几种情况:

第一种是造成整机停机的故障。停机属于重大安全问题,造成停机的原因一般有以下几点:
(1)设备电源模块损坏,常见于一些单电源的盒式交换机;
(2)设备在搬移过程中,因为碰撞,摔打造成的主板芯片受损;
(3)一些使用超年限的设备,在重启的时候出现问题,起不来了;
(4)因为机房环境不好,设备温度过高造成“假死”的现象。

设备停机属于重大安全问题,也是特别紧急的事件,需要马上更换设备。即使是假死,都要把备机准备好了再操作,防止假死的设备重启时真的挂了。

第二种是设备的模块、板卡损坏,不至于造成停机,但是引起了单点故障的隐患或者部分网络业务中断。比如,Cisco 6509一般都会配备两款引擎板卡,如果其中一块引擎板卡损坏了,不至于造成该交换机停机,也不会导致网络业务中断。但如果不及时换掉这块坏引擎板,就造成了这台Cisco 6509单引擎运行,这肯定就是单点故障的隐患。如果这台Cisco 6509坏掉的是一块48口的千兆电口板呢?那肯定连接在这块电口板上的业务全部中断了。这种情况,就看根据整体的网络业务有没有受到影响来确定紧急程度了。对于客户来说,坏一个板卡也是需要立即更换的。

第三种情况是,设备上某个小部件损坏,比如说一台H3C 12508上插了6块电源,其中坏了那么一块;再或者是4个风扇,停了其中一个。这种情况看起来对这台H3C 12508的正常运转暂时没啥影响,在处理的时候,也不是什么紧急事件了。那这种情况,就要给客户说明情况,根据要求来决定什么时候进行处理。

B、软件问题

软件问题一般分为操作系统自身BUG,还有人为因素导致的操作系统拷贝不完整造成的一系列问题。操作系统本来是一类软件,或多或少都会有一些BUG,可能体现在一些功能上面。

比较经典的一个BUG就是H3C R6600系列,出厂自带的操作系统Comware v7.1.059, ESS 0322,在配置BFD和BGP联动的时候(对端是Cisco),BFD就不生效,需要升级为v7.1.064, Release 7618才可以。这也就是为什么说官网经常对一些设备的操作系统软件提供一些新版本的软件包或者补丁包。

人为因素则是因为在对设备做软件升级的时候,因为对设备操作系统软件.bin文件拷贝不完整导致设备重启以后就起不来了。导致这个问题的原因一般都是在拷贝软件到设备的Flash里时,没有仔细核对拷贝后文件的大小。

C、实施造成的问题

实施造成故障,这也算是一种比较常见的问题。网络割接实施本来就有风险。如果是操作人员经验不足或者技艺不精,对割接的风险评估不足,前期的测试准备不充分,就有可能在网络割接的时候不仅没能对网络完成优化改造,反而带来一些新的故障。

一个很典型的例子,就是思科的设备换成华为或者H3C。比如拿一个拓扑图来说:

第一个风险点就是私有协议要改通用协议,这是一个风险点。

之前的Cisco 4503E使用的网关冗余协议是HSRP,换成华为就要换成VRRP。在这里要注意的就是,HSRP的组播地址是224.0.0.2,VRRP的组播地址是224.0.0.18,这里是HSRP和VRRP最关键的一个差异点。所以,HSRP改VRRP,首先就要检查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否挂了ACL,这个ACL下必须增加放行224.0.0.18。

随后的风险点,就是这个链路捆绑。你可能会说,LACP是通用协议,华为的设备也支持啊!但是你要知道的是,思科的链路捆绑是Port-Channel,华为是Eth-Trunk。华为Eth-Trunk捆绑的默认是手工模式,也不是LACP,所以,华为这边需要在配置Eth-Trunk的时候,加一条“mode lacp”命令。

还有呢,就是路由协议这边的风险了。可能你也会认为,OSPF是通用协议,静态路由更是几乎所有三层设备都能支持,又能有什么问题呢?

在这个例子中,两台Cisco 4503E通过OSPF收取路由,再利用静态路由进行分流。对于Cisco设备来说,OSPF路由的AD值是110,静态路由的AD值默认是1。而华为设备,OSPF内部路由Pref值(类似于Cisco的AD值)是10,OSPF外部路由的Pref值是150,静态路由的Pref值是60。所以这里可以看见:对于Cisco设备,静态路由优先级高于OSPF;而华为设备,OSPF内部路由的优先级却高于静态路由。所以为了防止思科换华为以后分流失效,所以在华为设备上配置静态路由时,将pref值强行改为1。

如果是多路由协议混跑的骨干网中,思科设备换华为或H3C后,有时候也要在把华为或H3C上,把路由的Prefer值强行改为与Cisco一致。

当然,这里说的风险都是从宏观上就能发现的一些风险,还有一些小细节也可能是风险点。比如光模块能兼容Cisco,但不一定能兼容华为这些问题,能考虑到哪些就考虑到哪些,考虑得越细致,割接时出问题的概率就越低。

D、用户造成的问题

这里说的用户指的都是一些非专业用户。很多运维人员都说:不怕这个用户一点都不懂,就怕这个用户是个似懂不懂的。有时候在办公室里面悄悄接一个HUB,然后这个HUB上接满了网线,一不小心就把网线的两头就插在同一个HUB上造成环路了;还有就是有些人不知道从哪里听来的“旁门左道”,网速稍微一慢就乱改IP,认为一改IP上网就快了,结果搞得IP冲突。还有就是乱接U盘,乱下载软件,整一些ARP相关的病毒,弄得一个网段内的主机全部都掉线。

E、设计缺陷导致的故障

设计的缺陷分为以下几种情况:

(1)IP地址规划问题。任何一个企业,网络规模都是从小到大的,在最初的时候,因为用户数量少,IP地址充足,所以在规划IP地址的时候都比较“奔放”。到了后期,用户数量逐渐增加,业务分类也越来越多,IP地址的管理也会变得越来越复杂。如果在最初的时候就没有对IP地址有一个较好的规划,就很容易在后期导致IP不够用或者是把两段IP地址规划到了不同的站点里面。

(2)还有就是一些人员技艺不精的问题,比如设计二层网络的时候,让生成树的计算拓扑图变得比较复杂,使得STP无法收敛;还有就是OSPF的区域规划欠考虑,路由协议也是随心所欲的用,设备上重分发很多,这些都会大大提升网络中出故障的概率。

二、二层故障的确定与排查思路

前面简单介绍了一下网络故障的分类和出现的原因,下面的内容就说一下如何确定是网络出现了问题,以及如何进行排查的思路。本节先说一下二层故障。

二层的故障导致的现象一般有以下几种现象:
1、设备之间的互联地址Ping不通;
2、挂同一个交换机下的两个同网段的主机互ping不通;
3、部分主机ping不通正确的默认网关地址或者ping掉包;
4、网络中出现广播风暴;

在网络中,导致二层故障的原因有如下几点:
1、网线质量问题,产生的现象是地址ping不通或者丢包严重;
2、VLAN划错了,或者是两个设备用Access接口对接,两端的VLAN ID不一致;
3、两个交换机对接,一头是Access,一头是Trunk;或者两头都是Trunk,但是Native VLAN( 华为和H3C叫PVID )不一致;
4、两头都是Trunk,但是有漏掉需要TAGGED的VLAN;
5、交换机接口做了MAC地址绑定或者802.1x认证,终端不能匹配;
6、因为二层结构设计问题或者私接Hub造成的广播风暴;
7、把无线宽带路由器当Hub接到网络中,分配IP地址造成错乱;
8、链路捆绑的配置问题,子接口的配置问题。

2.1、确定是网线质量的问题

网线质量问题按道理来说属于物理层,但是底层都出问题了,肯定会影响到上层的业务。如果发现网络业务丢包严重,两个设备之间直接Ping互联地址都出现比较严重的丢包情况,此时就要检查一下是不是网线质量的问题了。

2.2、二层接口的配置问题

这里说的二层接口配置问题,就是说Access和Trunk的问题。暂时不用去管华为/H3C的Hybrid接口,因为现网环境中很少用这个;也不用去管思科的什么DTP,因为是Access和Trunk都是手工指定的。

交换机在连接设备的时候,二层接口如果对端是交换机,且对端是Trunk,那么交换机的这个接口就要设置为Trunk;如果对端是Access或者三层接口,则设置为Access。

下面我们来看两个简单的例子:

(1)某个办公室说该办公室内的12台主机(10.110.98.0/24网段)全部上不了网了,但是其他使用这个网段的主机则上网正常。
(2)一台NAS Server连接在Cisco 4503的Ten 1/2接口上,将这个接口改成Trunk后就能查看到MAC地址表。该NAS Server的网卡上需要配置两个不同网段的IP地址与Cisco4503通信,但NAS Server上不管如何修改都无法ping通网关。

第一个例子:

如果其他使用这个网段的主机上网正常,可以断定网络肯定没有问题,只有一个办公室的主机上不了网,就要从这个办公室找原因了。

首先要判断这个办公室的主机与楼层交换机之间的链路有没有问题。这个可以通过查看MAC地址表来确定(以Cisco设备来举例说明)。

第二个例子:

能在Cisco 4503的Ten 1 /2接口,改为Trunk后就能看见NAS Server 的MAC地址,这几乎可以排除是网线问题了(当然,还可以进一步检查一下Ten 1 /2接口的CRC值)。如果网线确认没问题,则再看另外一个需求:“该NAS Server的网卡上需要配置两个不同网段的IP地址与Cisco4503通信。”结合之前的情形,这说明,NAS Server与该交换机之间的互连链路需要使用Trunk。

如果确定不了本端需要Tagged哪些VLAN?可以先在Cisco 4503的Ten 1/ 2接口上,先配置switchport trunk allow vlan 1-4094,放行所有VLAN,也就是Tagged所有VLAN。再查看MAC地址表,查询NAS Server的MAC地址对应的VLAN ID,就可以确定这个接口上需要Tagged哪些VLAN 了。

2.3、IP地址冲突的问题

IP地址冲突一般都是人为造成的故障,多数出现在终端和网关一段。IP地址冲突一般会出现在手动配置IP地址的场合。有一些用户也不知道听了谁说的“旁门左道”,说是网速慢了,换个IP地址就可以了,然后就乱七八糟的改IP地址导致了IP冲突。

IP地址冲突造成的现象是:部分主机无法访问网络业务,有时候连网关也ping不通。
在确定了接口VLAN地址没有划错以后,如果主机还ping不通网关,则可以考虑先查看故障主机的IP地址,再到网关上查看ARP表,看看这个IP地址和MAC地址是否能正确对应。

在这里需要提醒一句:IP冲突的处理原则一般是“谁断网谁改IP”。

还有更多的情形,因为试读文章篇幅的原因,我在这里就不一一举例说明了。专栏内会安排3个相关的案例,来说明二层故障从发现到排除的过程。

第一章:端口安全和绑MAC那些事情
第二章:又谎报“军情”?到底是802.1x问题还是IP冲突?
第十五章:有人就是要乱搞生成树,你有什么办法?

本节的最后,给大家列一张表格,说一下二层故障的一些排查思路

三、三层故障的确定与排查思路

如果说之前的二层故障现象比较“单纯”,排查起来思路也比较简单。则三层问题,也就是IP路由这方面的问题,在排查的时候就确实是比较考验耐心和细心的问题了。三层的问题是正儿八经的网络出了问题,多半都是网络规划或者是配置上出了问题。本节就说几个典型的三层问题以及如何排查了:

A、路由条目缺失的问题;
B、路由冲突
C、路由环路(重分发环路或递归环路)
D、来回路径不一致
E、设定的路由选择未达到预期目的

三层故障多半是因为网络设计或规划的问题所导致的,有时候并不是缺陷,而且某些风险点没有考虑到一些极端状态会发生的情况。至于是什么极端状态呢?这个后面的内容会说道,读者们请耐心地往下看。

3.1、路由条目缺失的问题

路由条目缺失是一种比较常见的问题,多半都表现为动态路由协议没有学习到目标路由,或者是静态路由少写了几条。有时候,主机要访问10.115.129.25这个远程服务器,而网络中的设备中都有10.115.0.0/16的路由,但是方向不对,这也算作路由缺失:

路由缺失的问题,一般使用Tracer来进行跟踪,如果跟踪到某一个某个地址就断掉了,那就从点在断掉这里找原因。来看一个简单的例子,这个例子来自于专栏“20个局域网改造案例” 的第十九章:

无线汇聚设备S7703向无线认证服务器发起认证请求,但是无线认证服务器传回的信息却无法传达到S7703,网络结构图如下图所示:

不过呢,根据大部分人的运维经验来说,使用Tracert来确定路由丢失的位置也并不灵光。因为在大部分网络环境中,Tracert都是被禁止的,H3C Comware v7的设备默认就是禁止Tracert的。而且,在刚才的例子中,网络流量穿越了两道防火墙的“封锁”,所以Tracert的结果肯定会受到影响。在这种情况下,就需要使用“分段测试”了。但是分段测试,也需要先Tracert,从第一个“Tracert断开”开始,逐步登设备逐步查询。

比如,在无线认证服务器的Tracert的结果如下所示:

3.2、路由冲突的问题

路有冲突,就是说一段路由,相同的前缀和相同的掩码长度,分布在了两个不同的方向。路由冲突这种情况会影响较大范围的网络连通,而且比较难以排查出来。一般来说,路由冲突的现象,都是从下行站点去ping上行站点不通,但是会上行站点ping下行站点又是通的,这种方式仍然可以先tracert,如果tracert不灵也可以分段排查。

下面还是看一个小案例,这个案例来自与“20个局域网改造建设案例”专栏,在这里进行了一次简化,先看图:

正常情况下,10.113.192.0/24这个三级站点-1的业务路由,应该是从Gi 1/4 接口学习过来,但现在却是在Gi 1/3接口学习过来的。既然不是静态路由写错了(因为网络中就没有静态路由),那就只有一种可能,二级站点-2这个PE设备下方肯定也有站点用的是10.113.192.0/24。

再登录到二级站点-2和三级站点-2上,进行进一步排查就可以确认问题的所在了。

3.3、路由环路

路由环路是一种比较常见的三层故障,具体的体现为两点:
(1)ping目标地址显示为“TTL传输中过期”;
(2)Tracert目标地址,在某两个互联地址之间来回显示。

2、RIP更新机制形成的路由环路

RIP更新机制造成的环路,可以理解为是一个小BUG。简单的说,就是一个设备上一个直连网段掉线,就会将这个路由标记为16跳(不可达)给邻居,但邻居的路由表里有这条路由,然后又回传给当前设备……但是用水平分割可以解决这个问题。

目前,主流的路由协议都自带防环机制,比如OSPF是先形成最优路径树再传递路由表;EIGRP的DUAL算法;BGP的eBGP AS-Path防环和iBGP的限制传递。但是呢,教科书上不说的是,重分发路由时,都有路由环路的风险。

教科书上不说的内容:
1、重分发路由带来的环路

前面说过,主流的路由协议都带有防环机制,但是这也是针对单一的路由协议,如果是有重分发的情况,这些防环机制可能就会“失效”。当前的网络,为了防止单点故障,都会使用两个ASBR,做双点双向重分发。这种做法可能在网络链路正常的时候不会出问题,但是如果有其中一条链路断开,就会造成路由环路。来看一个例子:

如图所示:R1、R2、R3、R4都是ASBR。R1与R3、R2与R4之间建立eBGP邻居关系,R1与R2之间建立iBGP邻居关系,并且R1和R2之间还建立了OSPF的邻居。此时,在R1、R2上配置了OSPF和EIGRP的双向重分发。

2、递归路由造成的环路

递归路由是什么意思呢?实际上是针对下一跳地址来说的。通常情况下,我们对路由下一条地址的认知是:与之直连设备的互联地址作为路由的下一跳地址,例如:

核心1和核心2上,去往服务器区汇聚静态路由的下一跳地址是10.110.128.5,所在的网段是10.110.128.0/29。这个网段在核心-1上被network到OSPF里面去了。由于核心-1和核心-2之间没了心跳线,所以,10.110.128.0/29这个网段,会通过核心-1线传递到办公汇聚-1,再传递给核心-2。

此时,就形成了一个递归的路由,流量发送到核心2上,核心2到10.110.108.0/24和10.110.109.0/24,要先找到10.110.128.5这个下一跳地址。但此时,10.110.128.5已经不是核心-2的直连地址了,而是OSPF路由。这个OSPF路由来自办公汇聚,所以,核心-2又把数据包传给了办公汇聚:

这就是在极端环境下(断开了核心之间的心跳线和一条与静态路由的互连线)因为递归路由造成的环路,这种情况非常少见。别说是小白工程师了,就算一些大佬都不一定能分析到位。但是,断线断到这种极端情况,也是小概率事件,而且一般情况下,在更换核心设备的时候,也是先连接心跳线再连上联和下联线,所以这种递归路由的故障是很不容易发生的。

在这里提醒一句:二层环路肯定是在环状拓扑中发生,但是三层的路由环路却往往发生在链状结构中,拓扑不成环不代表路由一定不会成环。

3.4、三层故障的定位和排查思路

虽然三层故障都是五花八门,而且有时候也是“疑难杂症”。但不管怎么说,三层故障都是先定位,也就是找到发生故障的设备或范围,然后再看是什么情况。

定位的方式,一般都是使用两种方式,一种是跟踪,一种是分段。
跟踪,就是之前说过的使用Tracert,发现在哪里断开,跟踪不下去了,或者是跟踪到两个地址循环显示,就重点在这个位置进行排查。如果是来回路径不一致产生的问题(确定来回路由不一致,需要在两端的终端或设置上相互Tracert),就要查看网络流量在哪里出现的不一致。

分段,就是根据网络沿途的设备,逐一互联地址往下ping,到哪里ping不通了就在哪里排查问题。

在排查问题的时候,一般都是检查路由表,并且要根据目标地址来进行匹配。比如目标地址是10.115.131.9,查看路由表时,就要使用show ip route 10.115.131.9或display ip routing-table 10.115.131.9,查看路由表内的路由是否能匹配到10.115.131.9这个地址。不过需要提醒一点的就是:不要认为路由表内有路由能匹配到这个网段就OK了,还要注意这条路由是大段路由(掩码短于/20)还是小段路由,还是默认路由。如果在骨干网上,查看的是一个内网地址,但是被一个特大段的路由或默认路由匹配了,此时如果能确认不是OSPF的末梢区域,就要尤其注意了。

四、网络服务问题

出了二层和三层的故障以外,网络中还有一些既非二层也非三层引发的问题,这些可以把它称为“网络服务问题”。
比如,配置ACL包过滤的时候,多deny了一些主机或者少permit了一些主机,导致这些主机在访问网页业务的时候不通。还有就是,配置设备与AAA服务器联动,配置了以后AAA无法认证通过,配置PPP或PPPoE,就是总是和对方协商不起来。

解决ACL的问题比较简单,把包过滤的ACL在接口调用下删掉,如果网络通了就肯定是ACL的问题了。

而AAA、DMV.PN、PPPoE、SNMP、NTP这些配置相对比较复杂的,则可以选择一些“投机取巧”。怎么“投机取巧”呢?就是说网络中如果有相同型号或者是同厂商不通系列的交换机有这类的配置,就可以从正常的站点上复制配置,和有问题的设备进行配置上的比对。因为这些技术的配置命令在同一家单位的网络中几乎都是一个模板,直接拿着往里面套就可以了。

五、专栏介绍

5.1、专栏文章安排

本专栏安排了一共20篇文章,都是作者本人参与过的案例进行改编而来。为了保证案例的客观性,以及更好的展示在解决问题过程中工程师的思路,所以每个专栏都安排一个小故事。毕竟嘛,网络工程师也是由人来干的,在处理故障的过程中,工程师的情绪和状态也会影响到事情处理的结果嘛。

专栏文章安排如下:

A、突发的二层故障,由于是非专业的用户向网络工程师报告的故障,所以或多或少会有一些情报不准确的情形。加上断网时用户心情急切,说话也会有一些粗暴,而网络工程师是如何顶住压力去解决问题的呢?这类案例准备了三篇案例:
端口安全和绑MAC那些事情(思科,H3C);
又谎报“军情”?到底是802.1x问题还是IP冲突?(思科,H3C)
有人就是要乱搞生成树,你有什么办法?

B、因为变更问题或者是责任问题,和其他服务器的运维人员打“口水官司”的案例。这类案例就是要求网络工程师在承受一些“不白之冤”之时,如何收集对自己的“有力证据”来免除自己的责任。这类案例也是准备了三篇文章,其中一篇与防火墙和负载均衡有关:
服务器迁移到新的区域带来的一肚子官司(Juniper SRX)
交换机换型会带来“兼容性”的故障吗?(Force10,H3C)
硬件装错了驱动,你也敢怪网络这边的人不负责任?(Juniper)

C、疑难杂症的问题,这类问题一般都是一些偏冷门的技术应用,在一些极端的环境或者极端的要求中出了问题。但是,对于这类疑难杂症的问题,如果是多站点使用相同配置时,也可以采用一些复制粘贴的办法来解决。这类案例安排5篇文章:
子接口的“毛病”有点多(思科,H3C)
有一个站点出问题?可以从正常的地方找参考(思科,H3C)
四条线选路没用对BGP属性,那就是来回路径不一致(思科,华为)
网络太卡了?原来是有一条“隐藏”专线(华为)
堆叠给裂了?又得花时间去升级(思科,H3C,华为)

D、故障规避及风险分析之类的案例。估计大部分读者都知道扁鹊与大哥、二哥的医术谁更高明的故事吧,实际上,能在实施或者规划的时候能把故障规避了,这才是网络工程师的要求。所以,剩下的案例基本上都是如何规范设计网络并规避故障的方式:
你以为思科换华为那么简单吗?先了解一些参数差异吧!
谁说搬机房就一定要断网的?(思科,华为)
重复繁琐的劳动,服务器区网关下沉改造(Juniper H3C)
大面积的EIGRP改OSPF(思科)
有时候,路由冲突比IP冲突更麻烦(思科,H3C)
准备不充分就要实施吗?还好设备“报销”了(华为)
技艺不精,盲目“优化”造成的一系列后果(思科,H3C)
再说说路由方向与递归路由
四条线选路没用对BGP属性,那就是来回路径不一致(思科,华为)

5.2、专栏目的与特点

本专栏的定位也是服务于一些从事运维工作与实施工作的网络工程师,提供网络故障的典型案例和排错思路,以及是风险规避的一般方式。因为每个案例内,都有一些相关的技术问题,所以针对案例中涉及到的技术问题会有理论上的讲解。在案例之后,可能会根据情况安排2—3个与案例相关的题目或实验。

还有一点,本案例中涉及的拓扑图都是按照工程标准要求绘制的,使用的IP地址也是符合规范的IP地址。当然,案例中也会涉及到一些细节。比如,使用tftp软件,下载操作系统软件或补丁,硬件故障DOA流程或RMA流程等。

本专栏不适合零基础的读者。你至少需要具备下列基础知识:
1、懂得IPv4地址规划(捷哥免费课程传送门:澳门永利网上娱乐手机登入
2、简单了解网络的双工,半双工等
3、了解交换机和路由器的工作原理
4、Cisco和华为的基本配置,比如怎么进系统,命令行模式等
5、各类模拟器的安装等

祝大家学习愉快。