首页 > tips > 发现问题、找到原因并解决问题

发现问题、找到原因并解决问题

2010年7月20日 发表评论 阅读评论

这三点貌似是运维工作中的三个流程
也可以说是三个层次
很多情况下
运维工程师只需要做到第二点:找到原因,也就是说定位问题所在
因为发现问题旺旺可能是开发、QA或者是监控、报警系统发现的
但找到并定位问题原因就是运维工程师责无旁贷的工作了
问题定位的越深入、越细致,解决问题就越容易
第三点解决问题,这里运维工程师要协调资源解决问题(如果自己不能解决的话)

比如
今天
开发报某台apache原来好好的
今天突然连接数被打满
重启下,当时好了
可没多久,马上又被打满
看看server-status
貌似都是正常的……
而且这台服务器并不对外公开提供服务
为什么会突然打满连接数呢?

后来才发现
是因为有个index.php
会去某个论坛请求用户头像
而当论坛连不上的时候
链接就被hang住了
所以apache一会儿就被打满了

这个例子里
运维工程师的主要职责是找到原因
而原因既然跟开发相关
那么运维工程师只需要协调程序员更正这个bug即可。

思路是正确的
看看server-status
看看什么url被大量的访问

由于直接访问/其实也是访问的index.php
但当时没有注意到这一点
只看到index.php的访问量也不大
错过了定位问题的最好时机

定位到php的问题以后
就是开发人员的事情了
运维只需要跟一下这个case
必要时催一下即可

分类: tips 标签:
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.