将分散的数据工作流通过Airflow DAG进行整合的分析环境转换

将基于BigQuery的分析查询和Databricks工作流重新构建为Airflow DAG，并通过代码重构增强了执行效率、可重用性和可维护性。

Fashion e-commerce (M Company)

Client :Fashion e-commerce (M Company)

Industry :Retail / Software

Service Area :Data & AI

Applied Solution :AIR

本项目旨在将基于BigQuery运营的数据分析工作负载转换到Databricks平台，
并将分散的数据处理工作流整合为单一Airflow运营体系。

原有系统采用BigQuery Scheduled Query和Airflow混合架构运营，
Databricks环境中也采用顺序执行或单一笔记本为中心的工作流，
在可扩展性和可维护性方面存在结构性限制。

特别是包含根据分类值改变数据处理基准日期的复杂逻辑，
提出了改进工作流可读性和可重用性的必要性。

本项目围绕两项核心验证任务制定了解决方案。

验证任务1
将现有基于BigQuery的SQL转换为适应Databricks环境的Databricks SQL，
并将部分重复逻辑重新构建为Databricks UDF，以改进执行效率和管理便利性。

验证任务2
分析在Databricks环境中执行的工作流后，
将其重新设计为To-Be形式的Airflow DAG结构，实现工作流执行和运营的标准化。

基于现有处理逻辑，将各个阶段重新构建为Airflow Task单位，
对需要重构的逻辑进行了单独模块化以改进结构。

通过函数级别的模块化工作，增强了代码的可重用性和可维护性，
通过在Airflow反映前阶段进行逻辑分析，最小化了工作流转换过程中的风险。

此外，对由多个SQL查询和单个函数逻辑组成的现有工作流进行了
以结构和执行流程为中心的分析，能够以便于今后扩展和运营的形式进行整理。

通过将Databricks工作流转换为Airflow DAG并进行代码重构，
缩短了整个工作流的执行时间，为消除不必要的计算奠定了基础。
此外，通过查询结构优化，预计数据处理效率和运营稳定性将得到共同改进。