ITSM 工具时代,SLA 违规为何仍频发
在当今的商业环境中,众多企业依赖 ITSM 平台来优化其 IT 运营。这些平台具备诸多功能,如自动执行工单分类、预定义升级路径以及为工单队列配备 SLA 计时器等,旨在确保服务能够及时交付。然而,尽管有了这些先进的工具,SLA 违规的情况依然时有发生。例如,首席财务官的紧急访问请求可能会错过其 SLA 窗口;优先级一(P1)事件可能因为自动化规则定义过于狭窄而保持未分配状态;错误的类别映射可能导致监视警报被记录在低优先级下。这些事实表明,仅仅拥有 ITSM 工具并不能自动防止违规行为的发生。SLA 的成功与否,实际上取决于企业对工具的设置、集成和管理方式,以及人员和流程与工具的协同程度。
本文将深入探讨 SLA 违规的类型、背后的原因以及相应的预防措施。
何为 SLA 违规
当 IT 服务提供商未能履行其在 SLA 中规定的承诺时,就会发生 SLA 违规。SLA 好比是组织的规则手册,明确规定了工单响应时间、问题解决时间表以及系统正常运行时间的保证。一旦这些承诺未能兑现,可能会引发一系列负面后果,比如业务运营速度减慢、最终用户感到沮丧,以及对 IT 团队有效支持业务能力的信任度下降。
常见的 SLA 违规类型
响应时间违规
响应时间是指确认帮助请求或新服务的速度。例如,如果 SLA 规定所有高优先级支持票证的响应时间为 15 分钟,而关键工单在队列中无人处理达 20 分钟,那么就违反了响应时间 SLA。这种延迟会让最终用户感到被忽视,产生担忧情绪。
常见的响应时间违规情况包括:
- 初始响应延迟:缺少第一个确认窗口
- 升级响应失败:支持层之间切换延迟
- 沟通响应差距:未能在承诺的时间间隔内提供状态更新
解决时间违规
解决时间是指 IT 服务台解决或履行工单所需的持续时间。例如,如果 SLA 规定中等优先级的软件 bug 应在 8 个工作小时内解决,但实际修复程序需要 10 小时才能部署,那么就发生了解决时间违规。这种违规会直接影响客户完成工作的能力。
常见的解决时间违规原因包括:
- 技术复杂性低估:问题需要比最初评估的更多的专业知识
- 资源可用性限制:关键事件期间关键人员不可用
- 依赖链故障:第三方或上游系统依赖导致延迟
- 变更管理冲突:变更冻结期阻止了解决尝试
正常运行时间或可用性违规
正常运行时间是指系统或服务在特定时期内保持运行和可访问的时间百分比。如果系统或服务的正常运行时间低于 SLA 承诺的服务级别,就会发生正常运行时间或可用性违规。例如,如果 SLA 承诺一个月内实现 99.9% 的正常运行时间,但支付网关关闭时间超过允许的 43 分钟,那么这就是一次违规。即使是短暂的中断也可能导致交易停止、订单处理延迟,并立即造成收入损失。
正常运行时间的测量类型包括:
- 计划可用性:不包括计划内维护时段
- 总可用性:包括所有停机时间,无论原因如何
- 营业时间可用性:专注于关键的业务运营期间
- 特定于服务的可用性:单个应用程序或服务的正常运行时间
尽管实现自动化,SLA 违规为何仍会发生
人员差距
- 人为因素:即使拥有最先进的工具,人为因素仍然是一个关键因素。如果团队人手不足或缺乏适当的技能,就会成为问题的根源。团队捉襟见肘会导致响应缓慢,而工单在团队或系统之间的人为传输会减慢响应时间并增加出错的机会。
- 技能不匹配:如果 ITSM 平台自动将高技术工单分配给初级支持代理,就会造成技能差距瓶颈,几乎肯定会导致违规。
- 警报疲劳:当团队受到过多通知或错误警报的轰炸时,可能会忽视关键事件或延迟响应。这会减慢响应和解决时间,增加 SLA 违规的可能性。
工艺差距
- 不切实际的 SLA 策略:有时 SLA 的建立没有考虑 IT 团队的能力和技能,或者没有考虑日常运营的现实情况。
- 缺乏明确的业务层面协议:如果没有明确的层面协议,内部团队可能没有明确的职责或预期的响应时间,从而导致解决事件或满足请求的延迟。
- 第三方供应商延迟:对外部供应商或供应商的依赖可能会进一步减慢服务请求的履行速度。如果 SLA 计划中未考虑这些延迟,即使内部团队迅速采取行动,也可能违反服务请求 SLA。
- 西瓜效应:一个值得注意的流程差距是工单被任意移动到保留状态,这会暂停 SLA 计时器。虽然这可以防止 SLA 被标记为违反,但最终用户可能仍会经历长时间的停机时间,从而产生西瓜效应——看起来不错(外部绿色),但它们无法反映对服务可用性和用户体验的真正影响(内部红色)。
技术差距
- SLA 规则配置错误:映射不正确会导致计时器无法启动或延迟启动。
- 有限的人工智能使用:ITSM 工具仅对违规行为做出反应,而不是预测它们。
- 自动化差距:孤立的集成、分散的工具和有限的数据流会扰乱工作流程、减缓解决速度并增加违反 SLA 的风险。
- 监控系统、配置管理数据库(CMDB)、ITSM 工具限制了数据流和可见性,因此难以有效检测和预防故障。
- 当监控和 ITSM 平台未完全集成时,它们可能无法自动生成关键警报或票证,需要手动干预。
- 系统之间不完整或延迟的数据交换会降低对事件的可见性,从而降低优先级排序和分类效率。
根据 Broadcom 的一项调查,98% 的 IT 团队表示,违反 SLA 通常是由自动化问题引起的,主要是由于系统断开连接太多。当工具不能顺利协同工作时,就会导致流程差距、延迟和未达到 SLA 目标。这种分散的自动化导致服务交付不佳。
防止 SLA 违规的策略
- 就现实的承诺进行协作:跨团队共同定义现实的目标,而不是独立宣布它们。与您的团队和业务领导者一起分析历史绩效记录,以建立真正符合您运营能力的目标。
- 利用自动化:配置您的 ITSM 工具以自动对工单进行分类。设置主动触发器或升级规则,以便在工单接近 SLA 阈值时自动上报给经理,从而在违反 SLA 之前采取措施。
- 集成您的工具:通过将监控系统与 ITSM 软件连接来消除孤岛,以便在发生服务器问题时立即生成票证。如果您的 ITSM 软件包括内置 IT 资产管理和 CMDB,数据可以在系统之间无缝流动,确保更快的诊断和解决。将 ITSM 与 ITOM 集成还可以帮助您识别事件的模式和趋势数据,使您能够采取主动措施来防止未来发生事件。
- 使用预警系统:寻找使用 AI 和预测分析的 ITSM 解决方案。目标是从对问题做出反应转变为完全预防问题。这些工具可以在问题爆发之前发现潜在问题,并利用预测分析和异常检测来区分真实事件和常规波动,帮助团队专注于高影响警报。
- 从错误中吸取教训:使用有关 SLA 违规报告的数据来确定故障的原因和区域。确定特定团队是否始终错过最后期限,以及哪些票证类型经常被卡住。利用这些信息来提高性能。
始终如一地实现 SLA 不仅仅是拥有正确的工具。关键在于创造一个技术、人员和流程能够顺利协同工作的环境。虽然您无法消除所有风险,但您可以构建一个能够及早发现问题、快速适应并在时间用完之前修复问题的系统。这意味着将预测性见解与熟练的团队相结合,将自动化工作流程与明确的所有权相结合,并构建由主动监控支持的持续改进文化。
安孚将所有这些与帮助 IT 团队领先于潜在 SLA 违规行为的功能结合在一起。通过结合人工智能、和,它使组织能够从对问题做出反应转变为提供一致、高质量的服务。