掌控IT运维事件的结构化沟通,实现高效响应与信任构建
当技术出现故障时,无论是小问题还是系统全面崩溃,你如何沟通这一问题几乎和解决问题本身同等重要。事件沟通,即向所有相关人员(从用户、技术人员到领导层)提供及时、清晰且一致的更新信息,就显得至关重要。事件的每一个阶段,从记录初始工单到分享进展更新、确认解决以及审查根本原因,都需要经过深思熟虑的沟通。而此时, ServiceDesk Plus(ITSM平台)便派上了用场。
ITSM平台旨在协调事件的沟通流程,通过在关键阶段基于预定义规则和事件生命周期各阶段的自动化警报和通知,减少模糊性和人工工作量。并且在有了人工智能的加入,系统能够生成对话摘要和事故报告,使沟通更高效、更具可操作性。在本文中,让我们探讨一下如何通过结构化、策略性的沟通,在IT事件期间减少混乱、建立信任并简化响应流程。
为什么事件沟通不仅仅是“知会一声”呢?
- 平息混乱。快速且清晰的沟通可以防止用户陷入恐慌,或者自行尝试解决问题但徒劳无功。
- 建立信任。即使你还没有完整的解决方案,让用户知道你已经知晓问题的存在,这体现了责任意识,有助于让大家保持在畅通的信息沟通之中。
- 减轻IT服务台的工作负担。当用户能够得到主动更新时,他们就不太可能提交工单或打电话询问发生了什么。这使得IT服务台团队可以专注于解决问题,而不是一遍又一遍地重复提供相同的信息。
- 有助于团队保持一致。沟通能够使内部团队保持一致,尤其是当多个部门共同协作解决事件时。
如何拥有一个有效的事件沟通流程呢?
关键是确保正确的信息能够及时、准确无误地传达给正确的人。我们的沟通方式需要根据具体情况做出调整,无论是影响少数用户的轻微事件,还是影响整个组织的重大故障。相应地调整我们的方法,以确保利益相关方收到清晰且有意义的更新信息。
例如,假设小王通过自助服务门户创建了一个事件工单,报告她的邮件客户端反复崩溃。这个工单将触发了我们在ServiceDesk Plus中配置的结构化沟通框架:
- 在提交工单后,ServiceDesk Plus可以迅速发送一条自动化的初始通知,提醒用户,系统确认收到她的工单,并包含事件ID(例如,#INC9527)。通知还提供了一个有关邮件客户端问题排查的知识库文章链接,让小王能够在等待进一步行动的时候,可自行探索可能的自助解决方案。
- 随后,当一名技术人员被分配处理这个事件工单时,他们会自动收到关于该工单的更新通知,以及其他信息,如技术人员解决事件单的预计时间,以及技术人员的联系方式,。
- 当分配给事件的技术人员开始进行诊断和解决工作时,ITSM系统中的事件状态会相应地更新。每个重大状态变化(例如,在处理中、等待批准、已解决),或者事件被升级到专业团队(如处理更复杂邮件相关工单的Exchange团队)时,都会自动向小王发送通知。这让她能够了解事件的处理进展轨迹以及工单目前的状态。
- 在事件即将违反服务级别协议(SLA)的情况下,系统可以自动向相关支持团队和经理发送升级通知。这种主动升级能帮助支持团队和经理及时干预,确保服务级别协议(SLA)合规。
- 如果解决事件需要审批才能进一步处理,技术人员添加审批人后,系统都会自动发送包含审批链接的审批通知给相关审批经理。确保审批流程的顺畅,以减少了潜在的瓶颈,并促进了所需行动的及时实施。
- 在邮件客户端问题成功解决后,技术人员会在事件工单中记录解决细节。这一操作会自动触发向小王发送一封正式的解决确认邮件。此邮件包含了对实施的修复措施的简洁总结,以及一个用户调查链接,方便小王反馈她的IT支持体验,管理员也可以据此进行持续改进。
- 如果问题在事件解决后再次发生,小王重新打开事件,技术人员将收到通知,并将再次遵循解决流程,直到事件关闭。
经过验证,虽然这种方法对于低严重性事件效果良好,但对于影响更广泛的系统崩溃,还需要采用更合适的沟通方式。假设CRM(客户关系管理)崩溃了。监控工具发出的警报会自动创建一个事件工单。问题不再局限于某个用户的邮件出错,而是一次影响广泛故障,影响大批用户或关键服务;此时就需要调整沟通方式。它不再是个别工单更新的问题;而是关于如何通过协调一致的多渠道沟通,让更广泛的用户保持知情并进行有效预期管理。在这种情况下,事件沟通分为四个部分:首次接触、事件期间的定期更新、解决以及事后审查。
1. 首次接触:快速且清晰地传达信息
当发生重大事件时,最初的沟通至关重要。迅速承认问题并提供足够的信息,以便让利益相关方提前知晓情况。利用ITSM工具中的公告/广播通知功能发送初始故障邮件,以快速地向受影响用户传达故障信息,这是推荐的最佳实践。在此基础上,还可以向受影响用户发送短信,强调故障的紧迫性,确保那些需要立即知晓情况的人能够收到故障信息,即使有用户一直没有查看邮件。你还可以在自助服务门户中显示一个公告横幅,以避免用户提交相同的事件工单。
这个首次接触旨在回答以下问题:
- 发生了什么?对情况的简洁总结。
- 谁受到影响?具体说明受影响的服务、系统或用户群体。
- 接下来会采取什么措施?让人们知道事件响应团队已经介入并正在处理。告知他们下一次故障更新的大概时间。
- 他们可以在哪里获取更多信息?将他们引导到指定的渠道(故障状态页面、事件工单详情页面、公告详情页面等)。
例如:“重大事件:CRM(客户关系管理)(或者其它的应用程序、网站)目前处于停机状态,影响所有用户。我们的团队正在努力恢复。预计30分钟后进行下一次更新。”
2. 事件期间的定期更新:让每个人保持在信息沟通序列中
提供关于进展、变化和时间线的更新。
根据事件的严重性和进展速度设定更新的频率。即使处理故障还没有进展,“仍在调查中”的更新也比什么都没有好。如果有可用的变通方法,帮助用户临时解决问题或者绕过问题。则更需要在定期更新中提供,以减缓故障的持续影响。
如果需要对故障应用程序进行变更以解决该问题,ITSM工具应通知利益相关方变更工单的详细信息,并在创建工单后清楚地传达可能产生的影响。
确保使用首次接触中建立的沟通渠道,以避免混淆。
3. 解决:宣布一切恢复正常
这是每个人都期待的时刻。此沟通信息应包含:
明确说明问题已解决,受影响的服务已恢复正常。指出服务恢复的时间。
简要说明为解决事件采取了哪些措施。
以及其它在解决后需要用户了解的任何临时的限制。
4. 事后审查:为未来学习和改进
事后审查同样是一个关键的节点,用于学习、反思和改进。此阶段的沟通信息包含:
告知利益相关方正在进行事后审查。
事后审查完成后,分享根本原因、经验教训和预防措施的总结,以防止此类问题在未来再次发生。
如果问题反复出现,并且创建了问题工单来解决它,ITSM工具应通知相关利益相关方问题工单的详细信息。
让事件沟通更顺畅的技巧
· 使用预定义模板:为不同类型的事件和严重性级别使用预定义模板,确保为所有利益相关方提供一致、清晰且及时的信息。为何使用安孚IT服务进行事件沟通
安孚IT服务通过一系列内置功能,赋予IT团队有效进行事件沟通的能力。自动化通知规则确保用户和技术人员根据事件生命周期中工单状态的变化及时收到更新。可定制的电子邮件模板促进了所有沟通渠道的一致性。
在发生重大事件时,安孚IT服务通过电子邮件、短信、微信、企业微信、钉钉、飞书、Microsoft Teams和Slack等多种渠道确保有效沟通。这使得IT团队能够通过用户偏好的沟通方式向他们提供及时更新。门户公告功能让用户了解正在进行的中断情况,有助于减少重复工单。事件工作流功能可以根据特定条件发送通知。另一方面,安孚IT服务有多种可定制的自动化功能。如在故障发生时,系统自动拉起会议,邀请相关负责人加入 War Room;或者在重大故障由开发平台引起,则自动同步信息至 Jira 或 Azure DevOps;又比如重大故障后,自动触发内部流程,自动重启集群、故障转移等。安孚IT服务还可以为服务级别协议(SLA)违规设置不同的升级策略。提供了主动和被动通知,以确保故障及时关注和解决。
安孚IT服务的AI助手Zia,可以分析事件数据,为利益相关方生成简洁的总结、有深度见解的事后审查以及基于重复事件的主动警报。执行根本原因分析,以防止未来出现问题。在事件解决后,事后调查有助于收集用户反馈,实现持续服务改进。通过这种自动化、人工智能和沟通渠道的结合,IT服务台团队可以专注于解决问题,同时让用户保持知情。
掌控事件沟通,提升IT服务效能!立即申请安孚IT服务免费个性化演示,开启高效沟通与快速响应之旅!
官网:https://www.anfa.com.cn/
转载:Manage Engine