Back
Key Takeaway
분산된 데이터 워크플로우를 Airflow DAG로 통합한 분석 환경 전환
BigQuery 기반 분석 쿼리와 Databricks 워크플로우를 Airflow DAG로 재구성하고 코드 리팩토링을 통해 실행 효율, 재사용성, 유지보수성을 강화했습니다.
Fashion e-commerce (M Company)
고객사 :Fashion e-commerce (M Company)
산업군 :Retail / Software
서비스 영역 :Data & AI
적용 솔루션 :AIR
1. Overview (프로젝트 배경)
본 프로젝트는 BigQuery 기반으로 운영되던 데이터 분석 워크로드를 Databricks 플랫폼으로 전환하고,
분산되어 있던 데이터 처리 워크플로우를 Airflow 단일 운영 체계로 통합하기 위해 추진되었습니다.
기존에는 BigQuery Scheduled Query와 Airflow가 혼재된 구조로 운영되고 있었으며,
Databricks 환경에서도 순차 실행 또는 단일 노트북 중심의 워크플로우가 구성되어 있어
확장성과 유지보수 측면에서 구조적인 한계를 안고 있었습니다.
특히 구분값에 따라 데이터 처리 기준 날짜가 달라지는 복잡한 로직이 포함되어 있어,
워크플로우의 가독성과 재사용성을 개선할 필요성이 제기되었습니다.
2. Solution (해결 방안)
본 프로젝트에서는 두 가지 핵심 검증 과제를 중심으로 해결 방안을 수립했습니다.
검증 과제 1
기존 BigQuery 기반 SQL을 Databricks 환경에 맞게 Databricks SQL로 전환하고,
일부 반복 로직은 Databricks UDF로 재구성하여 실행 효율과 관리 편의성을 개선했습니다.
검증 과제 2
Databricks 환경에서 실행되던 워크플로우를 분석한 뒤,
이를 To-Be 형태의 Airflow DAG 구조로 재설계하여 워크플로우 실행과 운영을 표준화했습니다.
3. Result (성과)
기존 처리 로직을 기준으로 각 단계를 Airflow Task 단위로 재구성하였으며,
리팩토링이 필요한 로직은 별도로 모듈화하여 구조를 개선했습니다.
함수 단위의 모듈화 작업을 통해 코드 재사용성과 유지보수성이 강화되었으며,
Airflow 반영 이전 단계에서 로직 분석을 선행함으로써 워크플로우 전환 과정에서의 리스크를 최소화했습니다.
또한 복수의 SQL 쿼리와 개별 함수 로직으로 구성된 기존 워크플로우에 대해
구조와 실행 흐름 중심의 분석을 수행하여, 향후 확장과 운영에 용이한 형태로 정리할 수 있었습니다.
기대 효과
Databricks 워크플로우를 Airflow DAG로 전환하고 코드 리팩토링을 병행함으로써
전체 워크플로우의 수행 시간이 단축되고, 불필요한 연산을 제거할 수 있는 기반을 마련했습니다.
아울러 쿼리 구조 최적화를 통해 데이터 처리 효율성과 운영 안정성이 함께 개선될 것으로 기대됩니다.








