經(jīng)過近年發(fā)展,抖音電商的體量和規(guī)模已經(jīng)相當可觀。
(資料圖片)
基于數(shù)據(jù)驅(qū)動思路,抖音電商在數(shù)倉建設(shè)、數(shù)據(jù)管理等層面實現(xiàn)準確分析和測量數(shù)據(jù),做出以數(shù)據(jù)為依據(jù)的決策,從而推動業(yè)務(wù)快速發(fā)展。本文對話抖音電商團隊,為你揭秘龐大數(shù)據(jù)體量下的數(shù)據(jù)質(zhì)量管理最佳實踐。
數(shù)據(jù)有效性、及時性、準確性關(guān)系到C端用戶體驗和B端商家決策,在數(shù)據(jù)體量龐大的情況下,難以避免數(shù)據(jù)缺失、緯度錯誤、產(chǎn)出延時等問題,這與數(shù)據(jù)質(zhì)量管理息息相關(guān)。據(jù)抖音電商數(shù)據(jù)團隊介紹,之前數(shù)據(jù)質(zhì)量問題集中體現(xiàn)在:歷史數(shù)據(jù)繁多,導致無法準確定位異常數(shù)據(jù);缺乏合理的監(jiān)控規(guī)則;補齊表監(jiān)控規(guī)則時間、人力成本高等。
為了高效、便捷實現(xiàn)數(shù)據(jù)質(zhì)量監(jiān)控,抖音電商數(shù)據(jù)團隊引入火山引擎DataLeap數(shù)據(jù)質(zhì)量平臺,通過數(shù)據(jù)波動監(jiān)控、異常報警、數(shù)據(jù)內(nèi)容探查及差異對比工具等功能,保證數(shù)據(jù)在生產(chǎn)及使用流程中的可靠性和合理性,避免因為數(shù)據(jù)質(zhì)量導致的數(shù)據(jù)失信、決策失誤等事故。
抖音電商數(shù)據(jù)團隊主要介紹了數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)異常治理兩個場景。
在數(shù)據(jù)質(zhì)量監(jiān)控上,抖音電商通過火山引擎DataLeap對抖音APP存量數(shù)據(jù)質(zhì)量配置監(jiān)控,并沉淀合理的監(jiān)控規(guī)則,方便監(jiān)控任務(wù)的配置情況及把關(guān)數(shù)據(jù)質(zhì)量。
火山引擎DataLeap數(shù)據(jù)質(zhì)量平臺
首先,在監(jiān)控范圍上,通過數(shù)據(jù)質(zhì)量平臺實現(xiàn)ToB、ToC 任務(wù)覆蓋全量監(jiān)控,及時規(guī)避數(shù)據(jù)質(zhì)量風險;其次,在推進機制上,由于 ToC鏈路上游多且監(jiān)控任務(wù)帶來過多計算資源消耗,抖音電商團隊優(yōu)先從核心數(shù)據(jù)鏈路開展數(shù)據(jù)質(zhì)量監(jiān)控;最后,在落地執(zhí)行上,通過確立目標、Owner和進度,完成表行數(shù)、重復值、空值、表字段、異常值的梳理。
最終實現(xiàn)抖音電商數(shù)據(jù)質(zhì)量管理全鏈路標準化,即由牽頭人發(fā)起配置事項,通過火山引擎DataLeap數(shù)據(jù)質(zhì)量平臺完成監(jiān)控配置,并跟蹤完成情況,最后相關(guān)數(shù)據(jù)被推送至看板,方便相關(guān)數(shù)據(jù)研發(fā)人員查看和復盤。
對于數(shù)據(jù)異常情況,抖音電商團隊主要通過火山引擎DataLeap表探查的能力來解決。
數(shù)倉中較多數(shù)據(jù)表字段存在異常值、空值,在使用前無法感知,導致在數(shù)據(jù)使用時才發(fā)現(xiàn)質(zhì)量問題,再由業(yè)務(wù)方反饋,處理效率較低?;鹕揭鍰ataLeap具備制定統(tǒng)一的監(jiān)控規(guī)范與開發(fā)規(guī)范能力,支持檢測歷史數(shù)據(jù)異常以及空值等情況,并默認處理、標注數(shù)據(jù)屬性,確保無數(shù)據(jù)質(zhì)量問題,才推進表上線流程。
除數(shù)據(jù)質(zhì)量治理外,火山引擎DataLeap還具備數(shù)據(jù)集成、開發(fā)、運維、資產(chǎn)、安全等全套數(shù)據(jù)中臺建設(shè)能力,有效提升數(shù)據(jù)研發(fā)效率、降低管理成本,目前已經(jīng)應(yīng)用于泛互聯(lián)網(wǎng)、制造、新零售、汽車等領(lǐng)域。(作者:康峰)