什么是事件管理?看这一篇就够了!
事件管理通过将事务状态变化信息与人员响应联动,实现对业务状态的实时监控与优化。它不仅涵盖事件(事务状态的客观描述)、告警(主观判定的异常状态)和事件集(反映问题的事件与告警集合),还通过集成化、智能化和流程化能力提升处理效率。事件管理平台能够自动化的事件接入、处理、分派和响应流程,帮助团队更主动地风险防范、快速恢复业务、协作更高效,并通过分析优化产出结果。其应用场景包括智能运维、安全信息管理、物联网应用和业务分析等,显著提升了业务连续性和响应速度。
“维基百科”是这样定义事件管理(Event Management)的,事件管理是项目管理在大型活动创新和发展中的应用,如节日、会议、庆典、婚礼、聚会、音乐会、集会等。这里面包含了品牌研究、目标受众确定、活动概念设计,以及活动实际发生前的技术协调。
如果我们把这个概念投射到IT领域,事件管理就是为了实现某个特定的业务诉求,将事务状态变化信息与人员响应进行联动的一系列过程。
事件管理的目标是检测并记录这些事务状态的变更,以便获得对业务风险和商业机会的完全可见性。例如:用户登录,转账失败,业务系统版本升级,数据备份,服务器维护完成,这些都是团队需要跟踪的变更。尽管这些变更并不直接反映服务质量的下降,但它们可能会暗示存在影响用户体验的潜在风险。因此,全面的收集事件信息,确定响应优先级,并采取相应的措施,就变得非常关键。
随着商业模式和IT支撑环境复杂性的增加,团队需要管理的事件规模也呈指数级增长,但管理事件的人员数量却没有得到增加。现在,许多团队每天都在和成千上万甚至数百万事件打交道,受限于资源投入,几乎不可能有效地将高价值信息与噪音从海量事件中分离出来,以洞察风险和机会。
而这正是事件管理解决方案的核心能力所在。事件管理平台通过集成能力对接和汇聚事件,过滤噪音,识别风险,并通知适当人员进行相应的操作。随着企业数字化转型的加速和IT交付风险的增高,通过集成化的事件管理平台提升事件和关联行动间的处理效率,比以往任何时候都更加重要。
事件相关概念的定义
在深入事件管理这个话题之前,我们需要对三个概念进行简要的剖析,以便后续更准确的理解事件管理的含义和价值。
这三个概念分别是Event(事件),Alert(告警)和Incident(事件集)。其中,事件和告警比较容易理解和区分,但是Event和Incident在中文语境中通常都被翻译为事件,容易造成混淆,为了对二者加以区分,我们将Event称作事件,Incident称作事件集。下面是这三个名词的具体定义和说明:
- Event 事件,是事务状态在某个时间点的客观描述,没有好坏之分。它由一个或多个相关指标的状态信息组成,这些指标状态可被监控、分类和变更。例如:2020/5/6 13:27:34,10.1.1.1,磁盘空间利用率为51%。2020/5/1 09:29:32,13900000000,充值100元成功。
- Alert 告警,是主观判定的事务异常状态的描述。它由监控(或其他)工具产生,反映事物指标的异常。例如:2020/5/6 17:25:18,10.1.1.1,磁盘空间利用率为64%,高于60%,警告级别告警。一般来说,事件和告警本身并不影响客户体验和业务运行,不需要人员进行介入处理。
- Incident 事件集,是由一个或多个相关事件和告警组成,反映业务运行或用户体验问题。例如:我们将10.1.1.1服务器的几个磁盘相关告警(磁盘空间利用率高于60%,磁盘空间利用率高于80%,磁盘空间已满)组成一个事件集,这个事件集反映了业务服务质量持续下降,影响了客户体验。事件可能不是事件集,因为事件也许并没有任何实际的客户影响,但是所有事件集都是事件,因为事件提供了正在发生的事情集的原始上下文。
事件管理最高效的方式是以人为中心,将人和反映业务故障的事件集进行结合,而不是人员将时间浪费在处理海量的邮件和电话轰炸上,在大量的原始事件中发现和诊断问题。
为什么事件管理如此重要
事件管理可帮助组织建立更积极的风险管理、更迅速的业务恢复、更高效的团队协作以及更敏捷的实时响应机制,以确保对任何可能影响服务管理和性能的事件都能进行正确的检测和催化响应。
事件管理的关键能力在于对业务状态的精准把握。有效的事件管理计划和战略应当是一个覆盖全场景、端到端的系统性流程,能够有效降低或消除风险对组织的影响,挖掘和拓展新的商业机遇,提高团队的响应效率,并优化产出质量。在具体实施层面,事件管理需要围绕以下几个核心能力展开:首先,建立科学的事件分类标准;其次,完善事件处理流程;最后,优化事件响应机制。
集成化是实现全面事件数据收集和精准风险评估及商机挖掘的基础。通过建立广泛的数字化生态连接,确保企业能够即时接收事件并进行消息推送,实现事件在系统和人员间的快速传递和流转。
智能化结合丰富的上下文数据,通过主动识别风险和机会,并进行筛选和检测,将识别出的信息与资产和人员进行关联。在损失发生之前预判,帮助团队成员准确掌握业务状态和潜在威胁,避免遗漏,从而做出更明智的决策。
流程化设计能够有效减少对人工干预的需求,建立自动化处理机制后,团队便能在风险和机会尚未明确之前,自主开展工作。在问题处理过程中,事件遵循既定的分配规则和通知机制,在团队成员间自动流转,这种机制确保了行动的有效性,并进一步提升了处理效率。
典型的事件管理流程

- 事件接入
事件和告警由特定的工具生成,并通过整合到统一的处理平台进行整合。 - 事件处理
针对不同事件源产生的事件,通过数据格式化、自定义数据提取和数据内容的丰富性进行数据治理,并剔除重复和冗余的噪音,再通过规则或算法生成反映业务问题的事件集。 - 事件分派
根据事件集的特征,将通知在第一时间动态路由到个人、组、协作团队,并通过流程化管理确保事件信息和人员间实现无缝衔接。 - 事件响应
事件处理人员根据自身的条件,在PC端、移动端、协作工具中对事件进行认领、指派、协同、转发、关闭等操作。 - 事件解决
在问题解决后,将处理过程记录到事件解决方案中,沉淀知识以指导后续类似场景的处理。
事件管理的应用场景
智能运维 AIOps系统整合了多种IT监控工具,通过智能化处理其产生的告警信息。系统采用先进的人工智能算法,将告警噪音减少至95%以下。同时,支持自动化处理流程,实现故障定位和修复的高效执行,促进团队协作效率,最大限度地降低对业务的影响。
安全信息事件管理系统(SIEM)整合企业内外部的安全事件数据,基于规则引擎和事件流处理引擎,实时分析潜在安全风险,并通过灵活的事件处理流程,为企业安全团队提供主动应对安全事故的策略支持。
通过物联网边缘节点和核心节点实时汇总、加工智能设备、传感器的事件信息,采用事件流式处理方法,捕获和发现新的数据模型,深入挖掘更多具有高价值的物联网应用场景。
业务分析 Business Analysis
