欢迎来到商道元信息技术资讯网!

全国咨询热线
15118160600
技术QQ:2858418895
商道元IT专业的技术支持
主页 > 合作案例 > 合作案例 >

为基金公司解决服务器间歇性访问缓慢

文章出处:商道元作者:商道元人气:发表时间:2017-06-01 16:10【

商道元在长期的IT服务中发现,服务器无响应对于运维人员来讲很容易排查,但是间歇性响应缓慢并且无异常日志就给故障定位带来了很大的困惑。

故障描述

某基金公司部分用户反映在公司的办公区通过邮件客户端访问公司邮件服务器有时会非常慢,甚至需等待几分钟才能完成。用户通过网管软件对网络设备和服务器的性能长期监控,但一直没有找到问题的根本原因。

用户的网络环境示意图如下:


 

分析方案设计

分析方案

通过在客户核心交换机上盘路部署某回溯分析系统后,对办公网核心交换机(全端口 RX 镜像)的流量进行7×24小时监控,通过回溯分析系统提取出问题时段的邮件服务器通信数据,我们找到了导致用户感受慢的主要原因。实际上可只对服务器区流量进行监控即可。

整体流量状况评估

首先,我们要对办公网的整体流量状况进行评估,如果能够发现间歇性的流量突发,并且突发时间点与邮件系统缓慢的时间点吻合,就能够推断是网络拥塞导致邮件服务器访问缓慢。通过流量趋势分析,我们发现该用户的核心交换流量并不大,虽然每天会有不规律的流量突发,但峰值流量(核心交换全端口) 都在200Mbps以下,对于千兆网络来说这种规模的流量不足以造成拥塞现象。

网络延时状况评估

由于只监控了核心交换的流量,因此不能说其他链路(如服务器区、用户接入区)没有拥塞的可能。因此下载用户反映邮件系统缓慢的时段邮件服务器的数据包,利用分析模块对会话进行深入分析,目的是通过邮件服务器 TCP 会话的交互过程掌握客户端访问邮件服务器的网络延时、丢包状况、系统响应延时等信息,由此找到“缓慢”的关键原因。

下载数据包后,发现邮件服务器在用户感受缓慢的时段流量并不是很大,4分钟的时间只传输了3.5MB的数据,流量以HTTP和POP 3为主,没有发现明显的非正常应用,如下图。

在TCP会话视图中,我们利用“持续时间”字段排序,能明显看出一些 POP3会话持续时间较长,但通信量并不大,如下图。

对这些持续时间较长的会话逐一进行TCP流精细分析,我们发现这些会话的TCP三次握手延时以及初始几次应用层交互的延时都很小(不超过 10ms),而且这些会话基本没有出现丢包重传的现象,如下图。



 

这些数据说明客户机到邮件服务器之间的网络链路状况良好,不存在链路拥塞的现象,并且邮件服务器的登录处理过程响应也很快。

应用层交互延时分析

从图-5中我们可以看出当用户提交密码后,服务器回应登录成功的消息延时稍大;在对比多个会话后我们发现一个规律,如果用户在服务器上的邮件数量超过1000封,则登录成功后延时会略大一些(百毫秒量级);邮件数量少的用户基本正常。这说明用户登录成功后服务器应答的速度与用户在服务器上保存的邮件数量有直接关系,这是由于登录成功后服务器要检索并统计用户的邮件数量。但是几百毫秒的延时并不会让用户感受到明显的缓慢现象,所以还需要对会话后续交互过程进一步分析。

在会话后续交互过程中我们发现客户端发送“LIST”指令时服务器的应答会非常缓慢,响应时间会达到十几秒甚至几十秒的时间,如下图。

根据 POP 3协议规范,服务器收到客户机的 LIST指令后,需要给客户机返回该账户每一封邮件的编号及大小信息,如下图。

如果用户在服务器上存储的邮件过多,且同时有多个这样的用户访问邮件服务器,这一过程就会导致服务器硬盘频繁的小文件读取操作,造成处理性能瓶颈。通过对比多个会话,我们发现在服务器上存储的邮件数量较少的或者没有邮件的用户,LIST指令的应答速度都很快;而存储邮件数量超过100封的用户,LIST应答速度明显缓慢,如下两图。

分析结论

通过以上信息,可以做出如下判断:

1.部分用户访问邮件服务器间歇性缓慢的现象与网络设备和通信链路性能无关。

2.造成这一现象的主要原因是部分用户在服务器上保留过多的邮件副本造成的。

3.邮件服务器的磁盘访问性能存在瓶颈,不足以支持很多用户在服务器上保留邮件副本。

调整建议

A、建议邮件用户尽量避免在服务器上保留邮件副本,或者缩短邮件副本保留的时间。

B、通过存储技术提高邮件服务器磁盘访问性能,或使用负载均衡技术提高服务器处理能力。

价值

在网络运维中,网络监控的重点是在硬件设备的CPU、内存、吞吐量等性能指标。但是这些指标不能代表应用系统的性能,无法为网络故障的排查提供深度依据。

通过网络分析,可实现对业务访问流量的深度监控,从网络传输、服务器响应、客户端响应 等多维度进行统一分析,快速定位到故障原因。