詳解數(shù)據(jù)倉(cāng)庫(kù)建設(shè)體系
3. 數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的管理
元數(shù)據(jù)(Meta Date),主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會(huì)通過(guò)元數(shù)據(jù)資料庫(kù)(Metadata Repository)來(lái)統(tǒng)一地存儲(chǔ)和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、部署、操作和管理能達(dá)成協(xié)同和一致。
元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵組件,貫穿數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的整個(gè)過(guò)程,直接影響著數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建、使用和維護(hù)。
構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的主要步驟之一是ETL。這時(shí)元數(shù)據(jù)將發(fā)揮重要的作用,它定義了源數(shù)據(jù)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的映射、數(shù)據(jù)轉(zhuǎn)換的規(guī)則、數(shù)據(jù)倉(cāng)庫(kù)的邏輯結(jié)構(gòu)、數(shù)據(jù)更新的規(guī)則、數(shù)據(jù)導(dǎo)入歷史記錄以及裝載周期等相關(guān)內(nèi)容。數(shù)據(jù)抽取和轉(zhuǎn)換的專家以及數(shù)據(jù)倉(cāng)庫(kù)管理員正是通過(guò)元數(shù)據(jù)高效地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí),通過(guò)元數(shù)據(jù)訪問(wèn)數(shù)據(jù),明確數(shù)據(jù)項(xiàng)的含義以及定制報(bào)表。數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模及其復(fù)雜性離不開(kāi)正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改變數(shù)據(jù)清洗方法,控制出錯(cuò)的查詢以及安排備份等。
元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT 人員使用,它描述了與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問(wèn)權(quán)限等。而業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)、數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)是可用的以及如何使用。
由上可見(jiàn),元數(shù)據(jù)不僅定義了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的模式、來(lái)源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)運(yùn)行的基礎(chǔ),元數(shù)據(jù)把數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中各個(gè)松散的組件聯(lián)系起來(lái),組成了一個(gè)有機(jī)的整體。
數(shù)倉(cāng)建模方法
數(shù)據(jù)倉(cāng)庫(kù)的建模方法有很多種,每一種建模方法代表了哲學(xué)上的一個(gè)觀點(diǎn),代表了一種歸納、概括世界的一種方法。常見(jiàn)的有 范式建模法、維度建模法、實(shí)體建模法等,每種方法從本質(zhì)上將是從不同的角度看待業(yè)務(wù)中的問(wèn)題。
1. 范式建模法(Third Normal Form,3NF)
范式建模法其實(shí)是我們?cè)跇?gòu)建數(shù)據(jù)模型常用的一個(gè)方法,該方法的主要由 Inmon 所提倡,主要解決關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ),利用的一種技術(shù)層面上的方法。目前,我們?cè)陉P(guān)系型數(shù)據(jù)庫(kù)中的建模方法,大部分采用的是三范式建模法。
范式 是符合某一種級(jí)別的關(guān)系模式的集合。構(gòu)造數(shù)據(jù)庫(kù)必須遵循一定的規(guī)則,而在關(guān)系型數(shù)據(jù)庫(kù)中這種規(guī)則就是范式,這一過(guò)程也被稱為規(guī)范化。目前關(guān)系數(shù)據(jù)庫(kù)有六種范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。
在數(shù)據(jù)倉(cāng)庫(kù)的模型設(shè)計(jì)中,一般采用第三范式。一個(gè)符合第三范式的關(guān)系必須具有以下三個(gè)條件 :
每個(gè)屬性值唯一,不具有多義性 ;
每個(gè)非主屬性必須完全依賴于整個(gè)主鍵,而非主鍵的一部分 ;
每個(gè)非主屬性不能依賴于其他關(guān)系中的屬性,因?yàn)檫@樣的話,這種屬性應(yīng)該歸到其他關(guān)系中去。
范式建模
根據(jù) Inmon 的觀點(diǎn),數(shù)據(jù)倉(cāng)庫(kù)模型的建設(shè)方法和業(yè)務(wù)系統(tǒng)的企業(yè)數(shù)據(jù)模型類似。在業(yè)務(wù)系統(tǒng)中,企業(yè)數(shù)據(jù)模型決定了數(shù)據(jù)的來(lái)源,而企業(yè)數(shù)據(jù)模型也分為兩個(gè)層次,即主題域模型和邏輯模型。同樣,主題域模型可以看成是業(yè)務(wù)模型的概念模型,而邏輯模型則是域模型在關(guān)系型數(shù)據(jù)庫(kù)上的實(shí)例化。
2. 維度建模法(Dimensional Modeling)
維度模型是數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域另一位大師Ralph Kimall所倡導(dǎo),他的《數(shù)據(jù)倉(cāng)庫(kù)工具箱》是數(shù)據(jù)倉(cāng)庫(kù)工程領(lǐng)域最流行的數(shù)倉(cāng)建模經(jīng)典。維度建模以分析決策的需求出發(fā)構(gòu)建模型,構(gòu)建的數(shù)據(jù)模型為分析需求服務(wù),因此它重點(diǎn)解決用戶如何更快速完成分析需求,同時(shí)還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能。
維度建模
典型的代表是我們比較熟知的星形模型(Star-schema),以及在一些特殊場(chǎng)景下適用的雪花模型(Snow-schema)。
維度建模中比較重要的概念就是 事實(shí)表(Fact table)和維度表(Dimension table)。其最簡(jiǎn)單的描述就是,按照事實(shí)表、維度表來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市。
目前在互聯(lián)網(wǎng)公司最常用的建模方法就是維度建模,稍后將重點(diǎn)講解。
3. 實(shí)體建模法(Entity Modeling)
實(shí)體建模法并不是數(shù)據(jù)倉(cāng)庫(kù)建模中常見(jiàn)的一個(gè)方法,它來(lái)源于哲學(xué)的一個(gè)流派。從哲學(xué)的意義上說(shuō),客觀世界應(yīng)該是可以細(xì)分的,客觀世界應(yīng)該可以分成由一個(gè)個(gè)實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系組成。那么我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)的建模過(guò)程中完全可以引入這個(gè)抽象的方法,將整個(gè)業(yè)務(wù)也可以劃分成一個(gè)個(gè)的實(shí)體,而每個(gè)實(shí)體之間的關(guān)系,以及針對(duì)這些關(guān)系的說(shuō)明就是我們數(shù)據(jù)建模需要做的工作。
雖然實(shí)體法粗看起來(lái)好像有一些抽象,其實(shí)理解起來(lái)很容易。即我們可以將任何一個(gè)業(yè)務(wù)過(guò)程劃分成 3 個(gè)部分,實(shí)體,事件,說(shuō)明,如下圖所示:
實(shí)體建模
上圖表述的是一個(gè)抽象的含義,如果我們描述一個(gè)簡(jiǎn)單的事實(shí):“小明開(kāi)車去學(xué)校上學(xué)”。以這個(gè)業(yè)務(wù)事實(shí)為例,我們可以把“小明”,“學(xué)!笨闯墒且粋(gè)實(shí)體,“上學(xué)”描述的是一個(gè)業(yè)務(wù)過(guò)程,我們?cè)谶@里可以抽象為一個(gè)具體“事件”,而“開(kāi)車去”則可以看成是事件“上學(xué)”的一個(gè)說(shuō)明。
維度建模
維度建模是目前應(yīng)用較為廣泛的,專門應(yīng)用于分析型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市建模的方法。數(shù)據(jù)集市可以理解為是一種"小型數(shù)據(jù)倉(cāng)庫(kù)"。
1. 維度建模中表的類型
1. 事實(shí)表
發(fā)生在現(xiàn)實(shí)世界中的操作型事件,其所產(chǎn)生的可度量數(shù)值,存儲(chǔ)在事實(shí)表中。從最低的粒度級(jí)別來(lái)看,事實(shí)表行對(duì)應(yīng)一個(gè)度量事件,反之亦然。
事實(shí)表表示對(duì)分析主題的度量。比如一次購(gòu)買行為我們就可以理解為是一個(gè)事實(shí)。
事實(shí)與維度

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 騰訊米哈游押寶的中國(guó)AI應(yīng)用,正在海外悶聲發(fā)財(cái)