火山引擎DataLeap:數據秒級生產,揭秘電商實時數倉最佳實踐
(原標題:火山引擎DataLeap:數據秒級生產,揭秘電商實時數倉最佳實踐)
一年一度的「三八大促」剛剛落下帷幕,各大電商平臺紛紛推出補貼、營銷等玩法,力圖推動持續增長。
而電商平臺持續增長,離不開數據驅動,特別是實時性數據的採集、治理、監測和分析。例如,主播如何實時獲取直播帶貨數據?運營如何監控促銷活動流量?商家如何監控大促期間交易額以及貨品庫存變化?
本篇文章將帶你走進某電商實時數倉團隊,揭秘電商場景下實時數倉經驗。
實時數倉建設爲電商場景精細化運營提速
“對於傳統離線數倉,時效性基本爲T+1,最快也爲小時級,而業務方希望‘所見即所得’,以滿足精細化運營和實時經營決策的訴求”,某電商實時數倉團隊這樣介紹。
除此之外,從傳統離線數倉到實時數倉,也面臨着不少技術難題。實時數倉依託的流計算技術、Flink等數據引擎技術依然在不斷完善中。在數據治理層面,實時數倉依賴的組件也非常多,從計算引擎Flink,數據存儲MQ、在線存儲Abase、Redis 、服務查詢 ClickHouse,各種存儲及組件都在治理範圍內導致實時數倉的建設和管理工作異常複雜。
爲了解決以上問題,電商實時數倉團隊引入火山引擎DataLeap實現對數據任務託管,覆蓋代碼編寫、調試、自測、上線以及運維等開發階段。一方面降低了開發成本,以往流表的DDL需要自定義編寫,DataLeap數據地圖能力使用戶可以免除DDL的編寫,把精力專注在業務邏輯;另一方面,在數據測試環節,DataLeap也支持構建測試用例,使得測試邏輯更加便捷。
電商實時數倉需求對接流程圖
通過精確到秒級的數據精準、快速採集,支撐了海量電商的實時性需求,滿足電商生態上下游在實時監控、實時分析、實時營銷等方面的訴求。
●對於商家,可以實時監測直播帶貨數據效果,以此調整貨品上架及促銷策略;
●對於運營人員,實時監控促銷活動效果,更好進行人-貨運營,輔以相關策略提升GMV;
●對於用戶,實時獲取價格變動信息、購買信息、物流信息,獲得更好購物體驗和售後支持。
火山引擎DataLeap賦能電商場景數據標籤建設
電商體系不僅涉及的數據量級大,數據種類更是龐雜,包括銷售、庫存、廣告、財務等多種類型。構建數據標籤體系能夠科學地組織電商數據,有效萃取和精煉數據服務,並對數據分類進行反向優化。
如何才能構建一套有效的業務標籤體系?
●首先,從業務視角對數據進行梳理,並將各渠道、各類型的數據進行採集和匯聚,從中提煉出標籤元素,大致由以下幾個部分組成:應用場景、模型分層、主題域,每個標籤由若干枚舉值組成。
●其次,根據任務的行爲元素給任務打上相應的“標籤”,這也是標籤建設的難點。通過人工打標無疑需要鉅額工作量,同時也存在人工操作誤差。電商實時團隊基於火山引擎引擎DataLeap打造了一套數據血緣應用平臺,在數據溯源的過程中找到任務與任務之間的聯繫,上游節點任務標籤將自動繼承給下游任務,由此實現快速、準確標記工作。
●最後,引入火山引擎DataLeap數據開發能力實現任務標籤高效管理。電商實時團隊通過 OpenAPI接口快速接入標籤管理能力,對已上線任務進行快速標記,完成任務分類。
火山引擎DataLeap任務標籤管理
隨着數字化轉型提速,每一家企業都迫切希望能夠變得更加高效,更加敏捷,以便能夠做出更明智的決策,提供更優質的服務,這也對數據處理的實效性有了更高的要求。
實時數倉作用在業務運營的諸多典型場景中,如實時報表、實時大屏、運營監控、實時營銷、實時風控等。未來,火山引擎DataLeap也會沉澱更多高效、易用、便捷支持實時數倉場景的工具和能力。