(1)好的事件管理能定位问题,分析问题的根本原因,准确评估事故所造成的影响,快速确定处理事故的范围、方法。用户可一览当前资源宕机影响到的所有其他资源以及关键组件(例如,交换机及其关键网络接口等),快速确定事故处理的范围,对事故资源以及 受事故影响的其他资源采取挽救措施。能准确定位事故的根本原因,对症下药的快速解决事故。根本原因分析采用图形化链形结构展现,从事故资源一直追溯到引发当前事故的根本原因,对症下药快速解决事故。
对于有些昙花一现的性能现象(比如突然CPU利用率瞬间超过90%),对于IT管理员来说是很不重要的的。通过Flapping技术,IT管理员能有手段“确诊”性能问题。通过定义性能事件发生的次数(比如3),一旦同样性能发生3次,IT管理员就能确诊系统发生性能问题,必须马上解决。这将大大减少了系统误报
试想一下当IT管理员在面临解决问题巨大压力的同时,还要受到告警短信的不断地骚扰,造成无谓的压力。所以我们需要准确的告警,避免“画蛇添足”式的重复告警
如果没有关联事件,要寻找关联事件就像海底捞针。现在通过关联事件后,所有关联的事件都通过一个浮动列表展现,一目了然。问题指标自动与事件相关联,用户全面掌握该资源的可用性、性能或配置问题,不必手动查询,提高了工作效率。