數據治理--元數據
? ? ? 元數據是?對某個(gè)潛在信息性對象做出的陳述?。在瀏覽其他網(wǎng)頁(yè)的時(shí)候會(huì )看到元數據被稱(chēng)之為 “數據的數據”。為了更好的描述元數據到底是什么東西,我以一本《Metadata》書(shū)作為例子進(jìn)行說(shuō)明?!禡etadata》第二頁(yè)記錄著(zhù)該書(shū)的 CIP 信息、作者、出版社、書(shū)號、定價(jià)、印次、字數等信息,而這些信息都是用于描述《Metadata》這本書(shū)的元數據。
? ? ? 一條元數據記錄就是關(guān)于一個(gè)資源的主謂賓陳述集合。例如:達芬奇(賓語(yǔ))是蒙娜麗莎(主語(yǔ))的創(chuàng )作者(謂語(yǔ))。
主數據、元數據與參考數據
元數據
? ? ? 元數據(meta-data)是描述企業(yè)數據的相關(guān)數據,指在IT系統建設過(guò)程中所產(chǎn)生的有關(guān)數據定義,目標定義,轉換規則等相關(guān)的關(guān)鍵數據,包括 對數據的業(yè)務(wù)、結構、定義、存儲、安全等各方面對數據的描述 。地市表這個(gè)實(shí)體的數據模型如何進(jìn)行定義正是元數據所關(guān)心的范疇。
元數據可以說(shuō)是企業(yè)的數據地圖,它直接反映了企業(yè)中有什么樣的數據,數據是如何存放的,例如,數據結構是什么樣子,數據與業(yè)務(wù)之間的關(guān)系是怎么樣,數據與數據之間的關(guān)系是怎么樣,數據有什么樣的安全需求,數據有什么樣的存儲需求。
主數據
? ? ? 主數據(main data)主要是指經(jīng)實(shí)例化的企業(yè)?關(guān)鍵數據?。
? ? ? 我們在上面設計完成數據模型設計的“城市表”中填寫(xiě)了相應的城市數據,例如,北京、上海、廣州、南寧等等。這些在城市表中?填充的數據?,正是組織中國地理協(xié)會(huì )的主數據,因為這些數據是中國地理協(xié)會(huì )這個(gè)組織的關(guān)鍵業(yè)務(wù)實(shí)體,?它為組織的業(yè)務(wù)開(kāi)展提供關(guān)聯(lián)環(huán)境?,而且它可能在企業(yè)業(yè)務(wù)開(kāi)展過(guò)程中?被反復引用?。針對這些核心關(guān)鍵數據,組織和企業(yè)無(wú)論從數據的質(zhì)量、一致性、可用性、管理規范等方面都應該有著(zhù)最嚴格的數據要求。
? ? ? 主數據就是企業(yè)被不同運營(yíng)場(chǎng)合反復引用關(guān)鍵的狀態(tài)數據,它需要在企業(yè)范圍內保持高度一致。它可以隨著(zhù)企業(yè)的經(jīng)營(yíng)活動(dòng)而改變,例如,客戶(hù)的增加,組織架構的調整,產(chǎn)品下線(xiàn)等;但是,?主數據的變化頻率應該是較低的?。所以,企業(yè)運營(yíng) 過(guò)程產(chǎn)生過(guò)程數據,如生產(chǎn)過(guò)程產(chǎn)生各種如訂購記錄、消費記錄等,一般不會(huì )納入主數據的范圍 。當然,在不同行業(yè),不同企業(yè)對主數據有不同的看法和做法,正如我們與國內大型航空企業(yè)的實(shí)施相關(guān)數據項目時(shí),也在為航班動(dòng)態(tài)是不是主數據而糾結不已。
? ? ? 個(gè)人覺(jué)得 主數據具有跨行業(yè)也能存在能力,同時(shí)實(shí)例數據變更是低頻的。例如商品價(jià)格信息、會(huì )員信息是主數據,而訂單信息不是主數據,它具有高頻更新存在。因而怎么算高頻就是一個(gè)仁者見(jiàn)仁智者見(jiàn)智的情況了,需要結合自己所在的行業(yè)進(jìn)行判斷。
參考數據——數據的字典
? ? ? 在本文引用的假設案例中,我們將會(huì )注意到剛才填寫(xiě)的地市這類(lèi)數據有些列,如省份、城市類(lèi)型等。?如果沒(méi)有缺少上下文的環(huán)境,我們是無(wú)法理解其具體含義?,這時(shí)候我們往往引入參考數據(reference data)加以解釋和理解。
? ? ? 參考數據是增加數據可讀性、可維護性以及后續應用的重要數據。例如,你看到“性別”的這個(gè)字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數據可能記錄在開(kāi)發(fā)人員和運營(yíng)人員的大腦當中。但問(wèn)題是一旦這些人離開(kāi),您系統里面的數據就成了一堆沒(méi)有注釋的天書(shū)。
? ? ? 大家可能覺(jué)得,這所謂參考數據不就是數據字典嗎?對,我們在很多系統里面都會(huì )有這樣和那樣的數據字典。但是正是由于這些數據字典僅局限于個(gè)別系統而沒(méi)有統一標準,從一個(gè)側面間接造就了大量的數據孤島。企業(yè)為了進(jìn)行更有效率的數據整合、數據共享和數據分析應用,開(kāi)始嘗試對參考數據進(jìn)行企業(yè)或者部門(mén)層面的整合和管理,利用參考數據集記錄系統嘗試為范圍內的IT系統中的數據庫提供統一的參考數據。
小結
? ? ? 主數據則是真實(shí)的企業(yè)業(yè)務(wù)數據,是企業(yè)的關(guān)鍵業(yè)務(wù)數據。
? ? ? 參考數據則是對數據的解釋?zhuān)槍σ恍祿秶腿≈档臄祿忉專(zhuān)屓藗內菀鬃x取相關(guān)的數據。
? ? ? 元數據是對數據的描述,用于描述企業(yè)數據的所有信息和數據,如結構、關(guān)系、安全需求等,除增加數據可讀性外,也是后續數據管理的基礎。
? ? ? 一般而言,企業(yè)中這三類(lèi)數據與其它數據的數據量、質(zhì)量需求,更新頻率、數據生命周期的關(guān)系大致如下圖:
中臺與元數據
? ? ? 中臺強調的是復用性,利用提高服務(wù)的重復使用,降低開(kāi)發(fā)時(shí)間和提高工作效率。但現實(shí)生活中,大量的數據孤島和重復建設存在,從而存在大量的數據指標定義不同帶來(lái)的歧義問(wèn)題。由于不同的項目 PM 管理風(fēng)格迥異,存在有些必要信息沒(méi)有進(jìn)行存檔,而是通過(guò)口口相傳的不靠譜形式,信息準確性大打折扣。
? ? ? 數據中臺建設中需要尋找共性數據,通過(guò)數據建模,將其進(jìn)行抽取形成一張公共的數據大寬表。如何快速了解掌握數據關(guān)系,定位表與表之間的共性部分,往往需要對業(yè)務(wù)有一定的了解,但現實(shí)情況大量的開(kāi)發(fā)人員只了解自己負責的那一個(gè)模塊內容,對于其他人或者項目的內容一無(wú)所知。
? ? ? 而元數據就是為了消除二義性,同時(shí),對元數據的管理,形成結構化的權威數據,降低數據傳遞成本和提高準確性。
常見(jiàn)元數據分類(lèi)
元數據包括業(yè)務(wù)元數據、技術(shù)元數據和管理元數據。
常見(jiàn)的業(yè)務(wù)元數據包括:業(yè)務(wù)定義、業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)規則、業(yè)務(wù)指標等。
常見(jiàn)的技術(shù)元數據包括:存儲位置、數據模型、數據庫表、字段長(cháng)度、字段類(lèi)型、ETL腳本、SQL腳本、接口程序、數據關(guān)系等。
常見(jiàn)的管理元數據包括:數據所有者、數據質(zhì)量定責、數據安全等級等。
業(yè)務(wù)問(wèn)題
? ? ? 在沒(méi)有元數據管理的情況下,從使用問(wèn)題、管理問(wèn)題、數據問(wèn)題等三個(gè)方面進(jìn)行說(shuō)明:
使用問(wèn)題
查看表結構信息不方便(查看、檢索、表復用)
表依賴(lài)關(guān)系不清楚(血緣)
表信息缺少(表維護者,表狀態(tài))
管理問(wèn)題
表權限管理
數據管理
數據質(zhì)量監控
數據問(wèn)題
建表規則混亂,沒(méi)有統一標準
表結構變更之后,信息不同步
如何設計元數據管理
數據治理
數倉構建
名詞說(shuō)明
業(yè)務(wù)板塊
? ? ? 定義數據倉庫的名稱(chēng)和業(yè)務(wù)空間,以企業(yè)內一個(gè)?相對獨立的業(yè)務(wù)?為分配單元。例如,如果業(yè)務(wù)涉及零售、文娛,且系統間?相對獨立?,則需要構建兩個(gè)業(yè)務(wù)板塊,即零售、文娛。如果業(yè)務(wù)僅涉及零售,且業(yè)務(wù)內的系統間隔離較少,則只需要構建一個(gè)業(yè)務(wù)板塊,即零售。
公共定義
? ? ? 定義企業(yè)構建數據所需的全局概念對象或參數,以?保證全局概念統一?。當定義完成后,系統內其他指標(例如派生指標)可以按需統一、通用化引用這些對象,例如統計周期,年、月、日、每周、每日。
項目管理
? ? ? 項目是一種?物理空間上?的劃分。項目管理,即用戶(hù)在數據中臺建設過(guò)程中,對物理資源及開(kāi)發(fā)人員進(jìn)行隔離化管理。?一個(gè)業(yè)務(wù)板塊可以包含多個(gè)項目?,每個(gè)系統成員可以加入多個(gè)不同的項目。
維度
? ? ? 維度即?進(jìn)行統計的對象?。通常情況下,維度是?實(shí)際存在?、不因事件發(fā)生就存在的實(shí)體。創(chuàng )建維度,即從頂層規范業(yè)務(wù)中的實(shí)體(主數據),并保證實(shí)體的唯一性。例如訂單、商品。
業(yè)務(wù)過(guò)程
? ? ? 業(yè)務(wù)過(guò)程即業(yè)務(wù)活動(dòng)中的?所有事件?(它是一個(gè)事件集合)。創(chuàng )建業(yè)務(wù)過(guò)程,即從頂層規范業(yè)務(wù)中事務(wù)內容的類(lèi)型及唯一性。因此業(yè)務(wù)過(guò)程是一個(gè)不可拆分的行為事件。例如下單、支付、退款都是業(yè)務(wù)過(guò)程。
指標
? ? ? 指標分為原子指標和派生指標。
? ? ? 原子指標:對指標統計口徑(即計算邏輯)、具體算法的一個(gè)抽象,是業(yè)務(wù)定義中不可再拆分的指標,例如支付金額。一般都為數值(統計)。原子指標=業(yè)務(wù)過(guò)程(動(dòng)作)+度量, 如支付(事件)金額(度量)。
? ? ? 派生指標:業(yè)務(wù)中常用的統計指標。派生指標=原子指標+業(yè)務(wù)限定+統計周期+統計粒度。例如,自然周、會(huì )員、采用優(yōu)惠券支付的訂單。
統計粒度
? ? ? 統計的最小顆粒度,數據唯一性的保證,統計分析的對象或視角,定義數據需要匯總的程度,可以理解為聚合運算時(shí)的分組條件(類(lèi)似于SQL中g(shù)roup by的對象)。?粒度是維度的一個(gè)組合,指明您的統計范圍?。例如,某個(gè)指標是某個(gè)賣(mài)家在某個(gè)省份的成交額,則粒度就是賣(mài)家、省份這兩個(gè)維度的組合。
? ? ? 這里需要注意粒度與維度的關(guān)系,通過(guò)一個(gè)或多個(gè)維度構建粒度。
流程
維度構建 DIM 維度模型。
數據域與項目是相互獨立的不同統計指標,但同屬于同一個(gè)業(yè)務(wù)板塊下面。
以源表和維表構建得到事實(shí)明細表。
以原子指標、業(yè)務(wù)限定、統計周期、統計粒度構建得到派生指標,結合統計粒度構建 DWS 匯總表
示例