最近在悉??举办的AnsibleAutomates活动中,一场炉边谈话为与会者提供了澳大利亚和新西兰主要组织如何使用自动化的深入见解,从他们的经验中获得了宝贵的经验教训。
澳新地区主要银行的自动化之路
据西太平洋银行模式自动化服务负责人Sean Dudding介绍,没有单一因素引发了西太银行的自动化之旅。"我们退后一步,审视了人们如何与基础设施交互,如何配置基础设施,以及为什么新项目构建服务器需要这么长时间,"他说。
内部客户,如项目和支持团队,体验很差,这意味着西太银行的终端客户无法尽快从新服务中受益。
"这时我们决定踏上自动化之旅,"Dudding说道。幸运的是,没有人反对:银行所有的项目和支持团队以及管理层都支持并能看到自动化的好处。
澳大利亚国民银行(NAB)的情况则有所不同。"我们面临的最大问题之一是恐惧...很多人在想,'如果我采用这个,我就会让自己失业,'"该银行自动化工程经理Brett Stevens说道。
Stevens和他的团队花费了大量时间说服员工,他们实际上是在为自己创造工作机会,因为不拥抱这一行业趋势最终会导致失业。"事后看来,这有点严厉,但这基本上就是我们的方向,"他说。
下一步是说服人们他们的工作负载适合自动化,并向他们展示如何最好地利用它来完成工作。
代码即基础设施的实践
新西兰事故补偿公司(ACC)广泛采用了基础设施即代码和文档即代码。与许多组织一样,它有数百份文档告诉工程师如何构建和维护各种系统。这些文档主要由个人编写,没有经过正式的审查流程。
因此,如果新团队开始在现有系统上工作,他们经常不得不调试或逆向工程文档,并进行测试以确定如何构建系统。"所以,我们开始对一切都做完整的基础设施即代码,"ACC DevOps和自动化工程师Phillip White说道。
"我们尝试在我们所做的一切背后都做拉取请求,甚至是文档,这样工程师们都能理解平台应该如何运行。"这样,他们就不必维护Word文档,因为信息嵌入在代码中。
为AIOps铺平道路
当被问及使用Ansible自动化平台(AAP)的自动化是否可以作为IT运维人工智能(AIOps)的基础时,Stevens说:"我们还为时过早。我认为需要先建立更多的AAP采用和事件驱动自动化,以使基础绝对稳固。我们仍有很多团队想要以旧方式进行,所以我认为对于AIOps,你需要在方法上更加全面。"
另一个考虑因素是策略即代码,AAP 2.6现在包括策略即代码接口,Stevens说道。"这是新的,是新鲜的,但绝对值得研究。"他的建议是"首先把你的策略做对,把你的实践做对,把你的管道做对,把一切都做对,然后你就可以开始小规模采用AIOps。"
虽然人们在谈论AI可以自主编写、部署和运行代码的未来,但Stevens认为行业还没有达到那个阶段。"这是梦想,我们离那还很远...在这一点上仍然必须有人说,'是的,这很好,运行它。'"
NAB的目标是在使用当前工具自动化一切可能的事情后,再进入允许自主进行更改的阶段。最初,这些更改可能会专注于预测性维护,如检测内存泄漏将导致系统故障并采取预防措施。
然而,Stevens指出这更像是事件驱动的自动化而不是真正的AIOps,表明仍需要人工干预以避免中断关键活动,如年终处理。"稍后,我们也可能在这些工作流程中注入一些AI工作负载或AIOps逻辑。"
西太银行的Dudding同意需要谨慎,建议关键策略是将自动化放置在可观测性和事件管理之间。西太银行已将AAP定位在其可观测工具和ServiceNow之间。如果存在特定事件的自动化,它将通过事件驱动Ansible(EDA)发送。"我们还构建了一种方式,可以通过我们在OpenShift AI平台上分发的多个模型查询AI,以便与该工作流程交互,"他说。
例如,以前当CPU或内存警报发生时会提出故障单,可能会过一个小时才有人查看。自动化的第一阶段是首先将警报传递给EDA,触发端点设备的全面健康检查。在几秒钟内,这些详细信息可以添加到新提出的ServiceNow单据中。
最近,这一过程通过将健康检查结果发送到银行的AI平台得到了增强,该平台基于数据生成建议并将其附加到单据中。
单据充实是一个令人惊叹且非侵入性的用例,Dudding说,称其为"我们开始AIOps的绝佳地方"。
AI编码浪潮
然而,Dudding并不确信AI编码助手如Ansible Lightspeed完全实现了自动化开发的民主化。
"我们必须看看开发者做什么。很多人想象他们整天只是写代码,但他们做的远不止这些。他们写需求,记录测试用例,为发布写文档,为人们使用代码写文档,"他说。
"你需要将AI集成到所有这些过程中。这不仅仅是写代码。很多摩擦在于所有的文档和测试。要获得这些效率,你必须在整个工作范围内使用AI。"
话虽如此,这些工具确实能够让编码经验很少的人提供定义良好的小型自动化,前提是给他们正确的指导方针和框架。
企业级智能体AI和自主自动化部署需要信任,Stevens认为。这涉及正确理解平台和意图,决定什么应该自动化,并设置该自动化的限制。在适应必要的AI组件后,组织就可以转向智能体和自主运营。
考虑到Telstra在Ansible自动化方面的成熟度,Cheng被问及他希望在18个月后达到什么状态。有趣的是,他强调了人才发展。初级和应届毕业生有很好的机会学习这些新技能,最终在未来成为中级和高级专家。但这不仅仅是技术方面:重要的是给这些初级员工正确的导师来保持文化。
会议最后要求小组成员为今天开始自动化之旅的人提供最重要的建议。
Cheng建议探索可用的自动化技术。这可以在团队内提供领导机会并为职业发展打开大门。
Stevens建议制定路线图:决定目标是自动化一切还是专注于特定的基础设施类型或业务流程。无论哪种方式,优先考虑不同的项目都很重要。
White指出与其他团队一起采用自动化的重要性,建议与他们互动以了解他们的痛点,这比仅仅为自己编写自动化要有益得多。
Dudding选择专注于自动化的AI方面。"对于AI和AIOps,要保持怀疑,要谨慎,"他说。"那里的每个大语言模型都有自己的个性。了解它将如何响应。避免幻觉。一旦你满意了,就去做吧。"
Q&A
Q1:西太平洋银行为什么要推进自动化?
A:西太平洋银行推进自动化是因为内部客户如项目和支持团队体验很差,人们在基础设施交互和配置方面效率低下,新项目构建服务器耗时过长,导致终端客户无法尽快从新服务中受益。
Q2:澳大利亚国民银行在推进自动化时遇到了什么困难?
A:澳大利亚国民银行面临的最大问题是员工的恐惧心理,很多人担心采用自动化会让自己失业。银行团队需要花费大量时间说服员工,让他们理解不拥抱自动化才会真正导致失业。
Q3:企业在部署AIOps之前需要做好哪些准备?
A:企业需要先建立稳固的自动化基础,包括更多采用自动化平台和事件驱动自动化,制定正确的策略、实践和管道,然后才能小规模开始采用AIOps。同时需要在可观测性和事件管理之间合理部署自动化工具。