數(shù)據(jù)、算法與算力,被稱為人工智能的三駕馬車。在數(shù)據(jù)體量爆發(fā)性增長的當下,精耕細作的數(shù)據(jù)治理,或?qū)⒊蔀槠髽I(yè)趕上大模型風口的制勝關(guān)鍵。
瓴羊「數(shù)據(jù)薈」數(shù)據(jù)Meet Up第三站線上活動成功舉辦。來自中國信息通信研究院、阿里云智能集團、雅戈爾集團的業(yè)務(wù)主管、技術(shù)專家及大數(shù)據(jù)負責人,圍繞“大模型時代的數(shù)據(jù)治理創(chuàng)新實踐”主題,深入分享了AI與數(shù)據(jù)治理的深度融合、數(shù)據(jù)平臺建設(shè)的最佳實踐以及數(shù)據(jù)資產(chǎn)管理與運營的前沿見解。
大模型時代,數(shù)據(jù)治理四大趨勢與三大堵點
中國信息通信研究院云計算與大數(shù)據(jù)研究所高級業(yè)務(wù)主管尹正指出,AI時代下的數(shù)據(jù)治理,將呈現(xiàn)出“全域數(shù)據(jù)治理”、“數(shù)據(jù)研發(fā)模式工程化、敏捷化”、“數(shù)據(jù)治理技術(shù)智能化”、“數(shù)據(jù)安全縱深化”四大趨勢。
具體而言,全域數(shù)據(jù)治理將重點關(guān)注音視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù)。在實踐領(lǐng)域,中國移動、自動駕駛等企業(yè)已通過構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)評價體系,關(guān)注合成數(shù)據(jù)技術(shù),提升了數(shù)據(jù)集可信性,解決了“數(shù)據(jù)荒”難題。
在全域數(shù)據(jù)治理下,數(shù)據(jù)研發(fā)模式也隨之發(fā)生變化,企業(yè)應(yīng)打造面向AI與BI結(jié)合的數(shù)據(jù)工程“流水線”,以系統(tǒng)化方法提升效率、降低成本、保障質(zhì)量、推動創(chuàng)新。同時,智能化數(shù)據(jù)治理將逐步取代傳統(tǒng)勞動密集型模式,而AI驅(qū)動的數(shù)據(jù)安全技術(shù)與能力,將為解決數(shù)據(jù)安全關(guān)鍵問題、應(yīng)對大模型安全挑戰(zhàn)指明方向。
盡管趨勢向好,但當前大模型發(fā)展仍面臨質(zhì)量、安全、倫理三大數(shù)據(jù)堵點,具體體現(xiàn)為:高質(zhì)量數(shù)據(jù)集構(gòu)建知易行難,安全與隱私泄露頻發(fā)、數(shù)據(jù)倫理體系亟待完善。不過,面向AI的數(shù)據(jù)治理框架正在形成,人工智能數(shù)據(jù)治理的流程、方法、技術(shù)也在逐步完善。此外,依據(jù)DataOps理念構(gòu)建面向人工智能的數(shù)據(jù)工程體系,為Al提供了敏捷高效、安全可信的數(shù)據(jù)供給,并進一步為企業(yè)人工智能長期平穩(wěn)、良好、健康發(fā)展提供了保障。
以數(shù)據(jù)標準為抓手,讓AI為數(shù)據(jù)治理提效
阿里云智能集團瓴羊高級技術(shù)專家周鑫指出,企業(yè)數(shù)據(jù)治理面臨現(xiàn)狀評估難、組織架構(gòu)復雜、實施成本高、治理迭代難等多個難題,破解以上難題的最好方法,是找到核心抓手,降低數(shù)據(jù)治理的復雜度。
數(shù)據(jù)治理很重要的一個核心是數(shù)據(jù)標準的梳理與建設(shè)。通過瓴羊Dataphin,企業(yè)只需完成基礎(chǔ)數(shù)據(jù)梳理,即可完成大部分數(shù)據(jù)治理工作。例如,在身份證數(shù)據(jù)治理中,企業(yè)僅需定義數(shù)據(jù)類型、分級標準及字段空值校驗等規(guī)則,系統(tǒng)即可自動開展元數(shù)據(jù)監(jiān)控,檢驗數(shù)據(jù)是否符合字符串類型、是否存在空值,安全權(quán)限是否合規(guī)。除元數(shù)據(jù)監(jiān)控外,數(shù)據(jù)標準還能與數(shù)據(jù)質(zhì)量、建模、研發(fā)相結(jié)合,使數(shù)據(jù)標準可以在數(shù)據(jù)全生命周期中得以不斷流轉(zhuǎn)。
周鑫提到,數(shù)據(jù)質(zhì)量是AI成功的關(guān)鍵,據(jù)Gartner預測,到2025年,至少三分之二的生成式人工智能項目將因數(shù)據(jù)質(zhì)量不足等問題在概念驗證階段被放棄。與此同時,AI同樣是實現(xiàn)主動數(shù)據(jù)治理的重要工具,它可以讓數(shù)據(jù)治理變得更加智能化和自動化,形成從數(shù)據(jù)發(fā)現(xiàn)、治理、評估與標準的完整閉環(huán)。
瓴羊Quick BI智能小D是AI+BI的標志性產(chǎn)品化成果,它承擔著數(shù)據(jù)PD與數(shù)據(jù)架構(gòu)師的角色,可以為用戶業(yè)務(wù)問題提供直接的解決方案。以往,關(guān)鍵詞搜索往往與實際業(yè)務(wù)問題相差千里,搜索“交易”得出的相似度匹配信息,并不能解決實際的業(yè)務(wù)問題。而利用智能小D,用戶可直接提出“GMV提升20%,我能做什么?”或“哪些表適合用于客戶分層?”等問題,無需自行拆解數(shù)據(jù)維度,即可獲取直接的數(shù)據(jù)維度與策略指引。
除了數(shù)據(jù)發(fā)現(xiàn)與理解,瓴羊通過自動屬性豐富功能,幫助企業(yè)一鍵生成目錄、標簽、描述等信息,將原本需要半小時完成的上架操作縮短至數(shù)十秒,效率提升百倍。此外,瓴羊的自動生成識別特征功能,讓不會寫、讀不懂正則表達式的人也能輕松完成條件組合復雜的特征識別工作。邁過提效階段后,Dataphin還將往更加自動化、智能化方向演進,探索自動生成質(zhì)量規(guī)則、智能理解業(yè)務(wù)流程解決方案,讓數(shù)據(jù)治理更加輕盈。
Dataphin的技術(shù)演進:打造開放兼容的數(shù)據(jù)建設(shè)與治理平臺
阿里云智能集團瓴羊高級技術(shù)專家江嵐指出,Dataphin在產(chǎn)品演進過程中,面臨著“全域資產(chǎn)建設(shè)與治理”、“混合云架構(gòu)”、“多引擎支持”和“資產(chǎn)消費”等挑戰(zhàn)。為應(yīng)對這些挑戰(zhàn),Dataphin成功探索出了一套優(yōu)化數(shù)據(jù)建設(shè)與治理中臺的技術(shù)實現(xiàn)路徑。
在多引擎兼容方面,Dataphin通過多引擎SDK和插件的結(jié)合,充分融合了富客戶端和輕客戶端的優(yōu)勢,在接口層、插件層和依賴層構(gòu)建了多引擎技術(shù)架構(gòu),實現(xiàn)了對多云環(huán)境的支持以及多種引擎的適配兼容。
在混合云架構(gòu)方面,Dataphin基于Kubernetes集群部署了應(yīng)用集群與默認調(diào)度集群,同時在IDC通過外部調(diào)度集群進行任務(wù)調(diào)度,廣泛應(yīng)用于數(shù)據(jù)集成、數(shù)據(jù)服務(wù)和資產(chǎn)采集等多個場景。
在資產(chǎn)消費場景中,Dataphin通過統(tǒng)一JDBC,實現(xiàn)了數(shù)據(jù)資產(chǎn)在權(quán)限管理、脫敏處理、審計等方面的統(tǒng)一管控。此外,Dataphin還與Quick BI進行了深度集成,大幅簡化了用戶的配置工作。目前,Dataphin已經(jīng)在自助取數(shù)與分析、數(shù)據(jù)探查與分析、接口調(diào)用與應(yīng)用等三種消費方式中得到了廣泛應(yīng)用,極大地提升了業(yè)務(wù)人員、數(shù)據(jù)分析師和開發(fā)人員的工作效率。
從數(shù)據(jù)資產(chǎn)建設(shè)到數(shù)據(jù)運營,雅戈爾的數(shù)據(jù)價值探索實踐
雅戈爾集團大數(shù)據(jù)負責人竺顯波表示,數(shù)字化建設(shè)有兩個階段,一個階段是一切業(yè)務(wù)數(shù)據(jù)化、可視化,第二個階段是一切數(shù)據(jù)業(yè)務(wù)化、價值化。數(shù)字化之所以經(jīng)常被說成是“一把手工程”,正在于它要協(xié)同好公司的戰(zhàn)略、業(yè)務(wù)、技術(shù)、治理與改革,是一個系統(tǒng)性的大工程。
雅戈爾的數(shù)據(jù)架構(gòu)由以下三部分組成:數(shù)據(jù)源層、數(shù)據(jù)中臺與數(shù)據(jù)應(yīng)用。其中,數(shù)據(jù)中臺和數(shù)據(jù)應(yīng)用分別通過瓴羊Dataphin和Quick BI等數(shù)據(jù)產(chǎn)品,實現(xiàn)了工具與架構(gòu)的全面升級,落地了多個數(shù)字化產(chǎn)品成果。例如,企業(yè)數(shù)據(jù)門戶以銷售、物流等類別劃分,用戶只需簡單拖拉拽操作,即可快速生成所需報表;主題門戶則根據(jù)品牌、大區(qū)管理人員、店長等特定身份進行分類,為不同用戶精準聚合并高效查找所需數(shù)據(jù)提供了便利。
在數(shù)據(jù)中臺建設(shè)方面,雅戈爾成功搭建了16個系統(tǒng),整合了950多個數(shù)據(jù)表、400個指標和650個報表,提升了系統(tǒng)性能與架構(gòu)效率。同時,雅戈爾實現(xiàn)了組織架構(gòu)信息、商品信息、人員信息等核心數(shù)據(jù)的統(tǒng)一治理與貫通,消除了數(shù)據(jù)二義性。
在標準化治理的基礎(chǔ)上,雅戈爾從數(shù)據(jù)組織、技術(shù)架構(gòu)和流程管理三個層面全面優(yōu)化,推動數(shù)據(jù)價值的深度挖掘與應(yīng)用。以“平效”為例,數(shù)據(jù)團隊基于“面積在300至1萬平方米之間,面積越大,平效越高”的數(shù)據(jù)規(guī)律,驗證了公司“開大店、關(guān)小店”戰(zhàn)略的科學性和可行性,為企業(yè)決策提供了數(shù)據(jù)支撐。
隨著AI與數(shù)據(jù)治理深度融合,更多行業(yè)將迎來數(shù)字化轉(zhuǎn)型的新機遇。瓴羊?qū)⒊掷m(xù)以數(shù)據(jù)標準為核心,打造開放兼容的數(shù)據(jù)建設(shè)與治理平臺,推動企業(yè)開啟更加高效、安全的數(shù)據(jù)治理新時代。