网络故障

数据中心服务器造成的广播风暴的解决

日期:2015/6/28来源: IT猫扑网

  故障现象

  这次的客户是本市某医院。医院各科室与电脑中心的联络基本中断,只偶尔有部分数据交互能达成,但速度很慢,不知何故。由于电脑中心的网管系统也陷于瘫痪状态,无法观察任何网上设备的情况。

  网络结构

  该医院的网络也是由我们承建的,其网络结构比较复杂。整个网络设置三台核心WS-C6509交换机,分别位于三座建筑的设备间,三台核心交换机通过千兆单模光纤互连。另外,还有一个数据中心,该中心部署了一台服务器,各科室与这台服务器进行数据的交互。

  故障诊断

  询问各科室网络内部工作情况,回答正常,只是与数据中心服务器的数据交互动作无法实现。可以基本断定故障就在中心的计算机系统中。中心除了配置有HP公司的网管软件OpenView外,没有再配备其它任何网络维护工具。所以一旦网管系统不能正常工作,运行维护人员也就无从下手。东城区和西城区的网络主服务器分别在两个不同的网段中,之间用交换器连接起来。全城结算主机与东城区主服务器在同一网段。用F683网络测试仪接入东城区正常工作的网段观察,发现Cisco5500交换机的Plot3Port4(第3插槽的第4端口)有异常流量,而该端口连接的正是西城区主服务器和网管系统所在的网段。为更仔细地观察此网段的工作情况,将F683网络测试仪和协议诊断器PI接入该网段,测得网络持续流量为97%,其中错误帧占98%。错误类型为短帧40%,帧常50~60字节不等,长帧58%,帧长3000~5200字节不等,并报告了出错机器的Mac地址。依此地址查找对应的机器,遗憾的是该电脑中心没有Mac地址备份表(只有IP地址和符号名对应表)。试着用ICMP的Ping查找网管机和服务器,显示Mac地址对应的是服务器的IP地址。重装服务器网卡驱动程序,无效,用F683测试服务器端口,协议显示Unknown,更换服务器网卡,重装驱动程序并设置响应参数,重启系统即恢复正常。

  故障总结

  服务器网卡已经损坏,发出的数据帧错误率为98%,只有不足1%的数据正常。所以网络偶尔还有数据交互可以达成。我们知道,超长帧有封闭网络的作用,主要是引起网络速度变慢或网络瘫痪,而短帧达到一定流量则会对网络设备的工作协议造成一定程度的破坏,引起设备死机(实际测试中发现工作站对此更敏感些)。

  网络故障千奇百怪,已经完全超长了我们的想象。如果快速高效地排除故障呢?我的排故心得是:冷静分析、故障隔离、软硬兼施、积累经验。

相关文章

相关下载

网友评论

我要评论...
    没有更早的评论了
    取消