百科解釋
數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。
數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW。
數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
◆面向主題:操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。
◆集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內的信息是關于整個企業(yè)的一致的全局信息。
◆相對穩(wěn)定的:數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
◆反映歷史變化:數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
數(shù)據(jù)倉庫是一個過程而不是一個項目。
數(shù)據(jù)倉庫系統(tǒng)是一個信息提供平臺,他從業(yè)務處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識。
從功能結構化分,數(shù)據(jù)倉庫系統(tǒng)至少應該包含數(shù)據(jù)獲取(Data Acquisition)、數(shù)據(jù)存儲(Data Storage)、數(shù)據(jù)訪問(Data Access)三個關鍵部分。
什么是數(shù)據(jù)倉庫
(轉載自北大高科網(wǎng)站,http://www.pku-ht.com/)
目前,數(shù)據(jù)倉庫一詞尚沒有一個統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點:
1、面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。
2、集成的。面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內的信息是關于整個企業(yè)的一致的全局信息。
3、相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化。操作型數(shù)據(jù)庫主要關心當前某一個時間段內的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
企業(yè)數(shù)據(jù)倉庫的建設,是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數(shù)據(jù)的積累為基礎。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務經營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數(shù)據(jù)倉庫的根本任務。因此,從產業(yè)界的角度看,數(shù)據(jù)倉庫建設是一個工程,是一個過程。
整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結構,具體由下圖表示。
數(shù)據(jù)倉庫系統(tǒng)體系結構
·數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內部信息和外部信息。內部信息包括存放于RDBMS中的各種業(yè)務處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等;
·數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式決定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產品和技術來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術特點著手分析。針對現(xiàn)有各業(yè)務系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
·OLAP服務器:對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
·前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
目前,數(shù)據(jù)倉庫一詞尚沒有一個統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。多維
數(shù)據(jù)倉庫的組成
數(shù)據(jù)倉庫數(shù)據(jù)庫
是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對數(shù)據(jù)檢索的支持。相對于操縱型數(shù)據(jù)庫來說其突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術。
數(shù)據(jù)抽取工具
把數(shù)據(jù)從各種各樣的存儲方式中拿出來,進行必要的轉化、整理,再存放到數(shù)據(jù)倉庫內。對各種不同數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關鍵,應能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉換都包括,刪除對決策應用沒有意義的數(shù)據(jù)段;轉換到統(tǒng)一的數(shù)據(jù)名稱和定義;計算統(tǒng)計和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù)。可將其按用途的不同分為兩類,技術元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術元數(shù)據(jù)是數(shù)據(jù)倉庫的設計和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉換的描述;數(shù)據(jù)倉庫內對象和數(shù)據(jù)結構的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導入歷史記錄,信息發(fā)布歷史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務主題的描述,包含的數(shù)據(jù)、查詢、報表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運行和維護的中心,數(shù)據(jù)倉庫服務器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。
訪問工具
為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報表工具;應用開發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線分析(OLAP)工具;數(shù)據(jù)挖掘工具。
數(shù)據(jù)集市(DataMarts)
為了特定的應用目的或應用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是再實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣再以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。
數(shù)據(jù)倉庫管理:安全和特權管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質量檢查;管理和更新元數(shù)據(jù);審計和報告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復制、分割和分發(fā)數(shù)據(jù);備份和恢復;存儲管理。
信息發(fā)布系統(tǒng):把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關的數(shù)據(jù)發(fā)送給不同的地點或用戶;赪eb的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。
設計數(shù)據(jù)倉庫的九個步驟
1)選擇合適的主題(所要解決問題的領域)
2)明確定義fact表
3)確定和確認維
4)choosing the facts
5)計算并存儲fact表中的衍生數(shù)據(jù)段
6)roundingoutthedimensiontables
7)choosingthedurationofthedatabase
8)theneedtotrackslowlychangingdimensions
9)確定查詢優(yōu)先級和查詢模式。
技術上
硬件平臺:數(shù)據(jù)倉庫的硬盤容量通常要是操作數(shù)據(jù)庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態(tài)生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
數(shù)據(jù)倉庫DBMS:他的存儲大數(shù)據(jù)量的能力、查詢的性能、和對并行處理的支持如何。
網(wǎng)絡結構:數(shù)據(jù)倉庫的實施在那部分網(wǎng)絡段上會產生大量的數(shù)據(jù)通信,需不需要對網(wǎng)絡結構進行改進。
實現(xiàn)上
建立數(shù)據(jù)倉庫的步驟
1)收集和分析業(yè)務需求
2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計
3)定義數(shù)據(jù)源
4)選擇數(shù)據(jù)倉庫技術和平臺
5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉換數(shù)據(jù)到數(shù)據(jù)倉庫
6)選擇訪問和報表工具
7)選擇數(shù)據(jù)庫連接軟件
8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件
9)更新數(shù)據(jù)倉庫
數(shù)據(jù)抽取、清理、轉換、和移植
1)數(shù)據(jù)轉換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)。
4)具有規(guī)范的數(shù)據(jù)訪問接口
5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力
6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護的
7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分
8)能在抽取中進行數(shù)據(jù)類型轉換和字符集轉換
9)能在抽取的過程中計算生成衍生字段
10)能讓數(shù)據(jù)倉庫管理系統(tǒng)自動調用以定期進行數(shù)據(jù)抽取工作,或能將結果生成平面文件
11)必須對軟件供應商的生命力和產品支持能力進行仔細評估
主要數(shù)據(jù)抽取工具供應商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s
EDA/SQL.SASInstituteInc.
數(shù)據(jù)倉庫帶來了什么
每一家公司都有自己的數(shù)據(jù)。并且,許多公司在計算機系統(tǒng)中儲存有大量的數(shù)據(jù),記錄著企業(yè)購買、銷售、生產過程中的大量信息和客戶的信息。通常這些數(shù)據(jù)都儲存在許多不同的地方。
使用數(shù)據(jù)倉庫之后,企業(yè)將所有收集來的信息存放在一個唯一的地方——數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)按照一定的方式組織,從而使得信息容易存取并且有使用價值。
目前,已經開發(fā)出一些專門的軟件工具,使數(shù)據(jù)倉庫的過程實現(xiàn)可以半自動化,幫助企業(yè)將數(shù)據(jù)倒入數(shù)據(jù)倉庫,并使用那些已經存入倉庫的數(shù)據(jù)。
數(shù)據(jù)倉庫給組織帶來了巨大的變化。數(shù)據(jù)倉庫的建立給企業(yè)帶來了一些新的工作流程,其他的流程也因此而改變。
數(shù)據(jù)倉庫為企業(yè)帶來了一些“以數(shù)據(jù)為基礎的知識”,它們主要應用于對市場戰(zhàn)略的評價,和為企業(yè)發(fā)現(xiàn)新的市場商機,同時,也用來控制庫存、檢查生產方法和定義客戶群。
每一家公司都有自己的數(shù)據(jù)。數(shù)據(jù)倉庫將企業(yè)的數(shù)據(jù)按照特定的方式組織,從而產生新的商業(yè)知識,并為企業(yè)的運作帶來新的視角。
為何要建立數(shù)據(jù)倉庫
計算機發(fā)展的早期,人們已經提出了建立數(shù)據(jù)倉庫的構想!皵(shù)據(jù)倉庫”一詞最早是在1900年,由Bill Inmon先生提出的,其描述如下:數(shù)據(jù)倉庫是為支持企業(yè)決策而特別設計和建立的數(shù)據(jù)集合。
企業(yè)建立數(shù)據(jù)倉庫是為了填補現(xiàn)有數(shù)據(jù)存儲形式已經不能滿足信息分析的需要。數(shù)據(jù)倉庫理論中的一個核心理念就是:事務型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。
企業(yè)在它們的事務操作收集數(shù)據(jù)。在企業(yè)運作過程中:隨著定貨、銷售記錄的進行,這些事務型數(shù)據(jù)也連續(xù)的產生。為了引入數(shù)據(jù),我們必須優(yōu)化事務型數(shù)據(jù)庫。
處理決策支持型數(shù)據(jù)時,一些問題經常會被提出:哪類客戶會購買哪類產品?促銷后銷售額會變化多少?價格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時間內,相對其他產品來說哪類產品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?
事務型數(shù)據(jù)庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新信息的時候我們需要事務型數(shù)據(jù)庫是空閑的。而在解答一系列具體的有關信息分析的問題的時候,系統(tǒng)處理新數(shù)據(jù)的有效性又會被大大降低。另一個問題就在于事務型數(shù)據(jù)總是在動態(tài)的變化之中的。決策支持型處理需要相對穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。
數(shù)據(jù)倉庫的解決方法包括:將決策支持型數(shù)據(jù)處理從事務型數(shù)據(jù)處理中分離出來。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務型數(shù)據(jù)庫中導入決策支持型數(shù)據(jù)庫——既“數(shù)據(jù)倉庫”。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。
數(shù)據(jù)倉庫和數(shù)據(jù)集市
有關決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個部門或是項目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個儲存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對用戶們的特定需求總結而出的。
而另外一些專家則認為數(shù)據(jù)集市的建立并不需要首先建立一個數(shù)據(jù)倉庫。在這個模型中,數(shù)據(jù)直接由事務型數(shù)據(jù)庫轉入數(shù)據(jù)集市中。一個公司可能建立有多個數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。
這種不在建立數(shù)據(jù)倉庫的基礎上創(chuàng)建數(shù)據(jù)集市的方式會更便宜、更快速,因為它的規(guī)模更加易于管理。
第二種觀點的缺陷在于無法實現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式,F(xiàn)有的事務處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個統(tǒng)一關于企業(yè)的活動和客戶的知識庫。如果先建立起一個個獨立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢都能夠得以實現(xiàn),但是企業(yè)遠遠無法做到對數(shù)據(jù)的一致的儲存。
2.
DW 也可認為是由美國 Macromedia 公司開發(fā)的集網(wǎng)頁制作和管理網(wǎng)站于一身的所見即所得網(wǎng)頁編輯器 DreamWeaver 的縮寫,現(xiàn)已被 Adobe 公司收購。
詳細請看“百度知道”
http://baike.baidu.com/view/7919.html?tp=0_11