Back
Key Takeaway
将遗留数据结构标准化,提高分析可信度的数据质量改进
将碎片化的用户·仪表板数据重新设计为Base–Middle–Aggregated结构,通过Fact表和用户数据校正,大幅提升了数据利用范围和分析可信度。
AI WebRTC (H Company)
Client :AI WebRTC (H Company)
Industry :Telco / Media / Software / Data & AI
Service Area :Data & AI
Applied Solution :AIR
1. Overview(项目背景)
本项目是为了改善仪表板分析环境中使用的遗留表结构所导致的数据质量下降和管理复杂性而推进的。
原有的按仪表板分离的Fact表和用户相关数据存在碎片化,数据利用范围和一致性存在局限。
因此,从DWH角度将遗留表重新整理为Base → Middle → Aggregated结构,
通过user相关数据统一管理、user_ft/cohort替代表构成、监控管道构建,目标是同时确保数据质量和可重用性。
2. Solution(解决方案)
以数据结构标准化和利用范围扩展为中心进行了改进工作。
Fact表结构改进
整理按仪表板分离的Fact表,重新设计为公共Middle·Aggregated表结构数据利用范围扩大
通过调整样本基准和添加列来扩展可分析的数据范围Azar Web数据整合
将现有Legacy表整合为Base·Middle表结构User数据校正工作
校正users、azar_user_dm表的缺失·不一致数据及列含义纠正
3. Result(成果)
通过数据结构改进,分析环境的一致性和可用性得到了大幅提升。
Fact结构整合
将各仪表板分离的Fact表整合为公共Middle及Aggregated表azar_du_match_ft改进
将仅按特定仪表板基准使用的数据扩展为可在全部仪表板中利用azar_dt_user_ft扩展
新增Session、order、match、inventory、login info数据,通过新列增强分析利用度Web事件日志整合
将多个Web仪表板中单独使用的event log设计为可从单一Middle表查询Legacy逻辑重新实现及整合
基于Base表重新实现现有azar_cohort_user_fact_daily逻辑,
将产出的指标整合到现有Middle表(azar_dt_user_ft、azar_dt_user_history_ft、azar_user_dm)User数据一致性改进
校正users表的deletion_timestamp缺失数据
补充无法区分cheero数据的app_type逻辑
将reg_country_cd列按实际含义分离,新增注册国家代码列
预期效果
通过本次改进,可以期待以下效果。
数据结构及命名规则标准化
数据血缘管理体系强化
分析成果物的体系化管理及可重用
变更管理流程及协作效率提升
异常数据事前清洁流程导入基础奠定
通过这一点,为今后数据质量改进工作的效率和成果能够更加稳定地扩大奠定了基础。






