Back
Key Takeaway
AI Ops 기반의 인프라 최적화로 운영 비용 절감 및 개발 속도 가속화
클라우드 인프라 운영 및 관리(EKS, Aurora RDS)에 AIR DevOps의 AI Ops를 적용하여 Cloudwatch 비용 증가 원인을 분석하고 효율화를 달성했습니다. 또한, 선제적인 기술 지원을 통해 핵심 이벤트 시스템의 개발 및 배포 리드타임을 단축했습니다.
F&B (S Company)
고객사 :F&B (S Company)
산업군 :Retail / Software
서비스 영역 :Applications & DevOps / Managed Services / Data & AI
적용 솔루션 :AIR
1. Overview (프로젝트 배경)
S사(스타벅스)는 고객 충성도와 트래픽이 극도로 집중되는 이벤트 시스템 같은 핵심 서비스를 안정적으로 제공하는 것이 최우선 과제였습니다. 이러한 핵심 이벤트 시스템을 개발하는 동시에, 복잡한 클라우드 인프라(EKS, RDS 등)의 안정적인 운영 및 비용 효율화라는 두 가지 과제를 동시에 해결해야 했습니다. 메가존클라우드는 인프라 운영 전문성(Managed Services)과 AI 기반 개발·운영 자동화(AIR DevOps)를 결합하여 이 핵심 프로젝트의 성공을 지원했습니다.
2. Challenge (문제 정의)
피크 타임 트래픽 불안정성: 프리퀀시 이벤트 기간 동안 트래픽이 순간적으로 폭증하며, Aurora RDS 부하 분산 이슈나 Redis Failover와 같은 인프라 운영 이슈가 서비스 안정성을 위협했습니다.
인프라 운영 복잡성 및 비용 증가: EKS, Cloudwatch, VPC Flow Log 등 다양한 클라우드 구성 요소에 대한 지속적인 모니터링, Cloudwatch 비용 증가 원인 분석, 미사용 리소스 정리 등 복잡한 인프라 운영 최적화 노력이 필요했습니다.
개발-운영 간 협업 부담: 핵심 이벤트 개발 및 배포 과정에서 DB 성능(MySQL Parameter, Aurora Upgrade) 및 테이블 컬럼 사이즈 변경 등 기술적인 검토 및 작업 방안 수립에 시간 지연이 발생했습니다.
3. Solution (해결 방안)
메가존클라우드는 AIR DevOps 방법론을 통해 개발 초기부터 배포 후 운영까지, 그리고 인프라 최적화 전반에 걸친 솔루션을 제공했습니다.
고가용성 DB 및 인프라 최적화 지원: Aurora MySQL 3 Upgrade 방법 및 Blue/Green 롤백 방안을 선제적으로 검토하고, Redis Cluster Mode 활성화 및 Reader Instance 자동 추가 로직을 지원하여 피크 타임 트래픽에 대비했습니다.
AI Ops 기반의 비용 및 안정성 확보: Cloudwatch 비용 증가 원인 분석 및 절감 방안을 전달하고, 미사용 리소스 정리를 통해 인프라 비용 효율화를 달성했습니다. 또한, Cloudwatch 표준 알람 방안 및 Whatap 개선안을 제시하여 AI Ops 기반의 모니터링 체계를 강화했습니다.
CI/CD 및 개발 환경 컨설팅: 테이블 컬럼 사이즈 변경에 대한 작업 방안 및 시간 단축 방안을 안내하고, EKS 업그레이드 방안 및 EKS Autoscaler 이슈를 선제적으로 대응하여 개발 및 배포 환경의 안정성을 확보했습니다.
4. Result (성과)
AIR DevOps의 지원을 통해 고객사의 이벤트 시스템의 안정적인 운영과 인프라 비용 효율화를 동시에 달성했습니다.
핵심 서비스 운영 안정성 확보: EKS, Aurora RDS 등 핵심 인프라의 취약점 개선 및 최적화(Redis Failover, EKS Security Group 이슈 등)를 통해 피크 타임의 서비스 다운타임을 최소화했습니다.
개발/운영 효율 향상: 테이블 변경 작업 시간 단축 방안 및 Aurora Upgrade 롤백 방안 등의 선제적 기술 지원을 통해 개발 및 DB 관련 작업의 리드타임을 단축하고 운영 효율을 높였습니다.
클라우드 비용 최적화: Cloudwatch 비용 절감 방안 제시 및 미사용 리소스 정리를 통해 운영 비용을 절감하고 클라우드 인프라의 효율성을 개선했습니다.








