Back
Key Takeaway
基于AI Ops的基础设施优化,降低运营成本并加快开发速度
将AIR DevOps的AI Ops应用于云基础设施运营和管理(EKS、Aurora RDS),分析了Cloudwatch成本增加的原因并实现了效率化。此外,通过主动的技术支持,缩短了核心事件系统的开发和部署周期。
F&B (S Company)
Client :F&B (S Company)
Industry :Retail / Software
Service Area :Applications & DevOps / Managed Services / Data & AI
Applied Solution :AIR
1. Overview (项目背景)
S公司(星巴克)的首要任务是稳定提供客户忠诚度和流量极度集中的事件系统等核心服务。在开发这些核心事件系统的同时,需要同时解决复杂云基础设施(EKS、RDS等)的稳定运营和成本效率化两大课题。Megazone Cloud通过将基础设施运营专业性(Managed Services)与AI基础开发·运营自动化(AIR DevOps)相结合,支持了该核心项目的成功。
2. Challenge (问题定义)
高峰时段流量不稳定性:在频繁事件期间,流量瞬间激增,Aurora RDS负载均衡问题或Redis Failover等基础设施运营问题威胁了服务稳定性。
基础设施运营复杂性和成本增加:需要对EKS、Cloudwatch、VPC Flow Log等多种云组件进行持续监控,分析Cloudwatch成本增加原因,清理未使用资源等复杂的基础设施运营优化工作。
开发-运营间协作负担:在核心事件开发和部署过程中,DB性能(MySQL参数、Aurora升级)和表列大小变更等技术审查和工作方案制定出现了时间延迟。
3. Solution (解决方案)
Megazone Cloud通过AIR DevOps方法论,从开发初期到部署后运营,以及基础设施优化全方位提供了解决方案。
高可用性DB和基础设施优化支持:主动审查Aurora MySQL 3升级方法和Blue/Green回滚方案,支持Redis Cluster Mode激活和Reader Instance自动添加逻辑,为高峰时段流量做好准备。
基于AI Ops的成本和稳定性保障:提供Cloudwatch成本增加原因分析和节省方案,通过清理未使用资源实现基础设施成本效率化。同时,提出Cloudwatch标准告警方案和Whatap改进方案,强化了基于AI Ops的监控体系。
CI/CD和开发环境咨询:指导表列大小变更的工作方案和时间缩短方案,主动应对EKS升级方案和EKS Autoscaler问题,确保了开发和部署环境的稳定性。
4. Result (成果)
通过AIR DevOps的支持,同时实现了客户事件系统的稳定运营和基础设施成本效率化。
核心服务运营稳定性保障:通过改进和优化EKS、Aurora RDS等核心基础设施的薄弱环节(Redis Failover、EKS Security Group问题等),最小化了高峰时段的服务停机时间。
开发/运营效率提升:通过表变更工作时间缩短方案和Aurora升级回滚方案等主动技术支持,缩短了开发和DB相关工作的周期,提高了运营效率。
云成本优化:提出Cloudwatch成本节省方案并清理未使用资源,降低了运营成本,改进了云基础设施的效率。






