詞語(yǔ)解釋
1.
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。
數(shù)據(jù)倉(cāng)庫(kù),英文名稱為Data Warehouse,可簡(jiǎn)寫為DW。
數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
◆面向主題:操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。
◆集成的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
◆相對(duì)穩(wěn)定的:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
◆反映歷史變化:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)過程而不是一個(gè)項(xiàng)目。
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)信息提供平臺(tái),他從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進(jìn)行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識(shí)。
從功能結(jié)構(gòu)化分,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)至少應(yīng)該包含數(shù)據(jù)獲。―ata Acquisition)、數(shù)據(jù)存儲(chǔ)(Data Storage)、數(shù)據(jù)訪問(Data Access)三個(gè)關(guān)鍵部分。
什么是數(shù)據(jù)倉(cāng)庫(kù)
(轉(zhuǎn)載自北大高科網(wǎng)站,http://www.pku-ht.com/)
目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉(cāng)庫(kù)專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。
根據(jù)數(shù)據(jù)倉(cāng)庫(kù)概念的含義,數(shù)據(jù)倉(cāng)庫(kù)擁有以下四個(gè)特點(diǎn):
1、面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。
2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
3、相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉(cāng)庫(kù)的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)工程,是一個(gè)過程。
整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)包含四個(gè)層次的體系結(jié)構(gòu),具體由下圖表示。
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)
·數(shù)據(jù)源:是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等;
·數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)。
·OLAP服務(wù)器:對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。
·前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。
目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉(cāng)庫(kù)專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。多維
數(shù)據(jù)倉(cāng)庫(kù)的組成
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)
是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫(kù)來(lái)說(shuō)其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
數(shù)據(jù)抽取工具
把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語(yǔ)言(JCL)、UNIX腳本、和SQL語(yǔ)句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)?蓪⑵浒从猛镜牟煌譃閮深悾夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉(cāng)庫(kù)是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉(cāng)庫(kù)內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉(cāng)庫(kù)中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器利用他來(lái)存貯和更新數(shù)據(jù),用戶通過他來(lái)了解和訪問數(shù)據(jù)。
訪問工具
為用戶訪問數(shù)據(jù)倉(cāng)庫(kù)提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線分析(OLAP)工具;數(shù)據(jù)挖掘工具。
數(shù)據(jù)集市(DataMarts)
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)。需要注意的就是再實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí)才不會(huì)造成大麻煩。
數(shù)據(jù)倉(cāng)庫(kù)管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。
信息發(fā)布系統(tǒng):把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問的最有效方法。
設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的九個(gè)步驟
1)選擇合適的主題(所要解決問題的領(lǐng)域)
2)明確定義fact表
3)確定和確認(rèn)維
4)choosing the facts
5)計(jì)算并存儲(chǔ)fact表中的衍生數(shù)據(jù)段
6)roundingoutthedimensiontables
7)choosingthedurationofthedatabase
8)theneedtotrackslowlychangingdimensions
9)確定查詢優(yōu)先級(jí)和查詢模式。
技術(shù)上
硬件平臺(tái):數(shù)據(jù)倉(cāng)庫(kù)的硬盤容量通常要是操作數(shù)據(jù)庫(kù)硬盤容量的2-3倍。通常大型機(jī)具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結(jié)合在一起;而PC服務(wù)器或UNIX服務(wù)器更加靈活,容易操作和提供動(dòng)態(tài)生成查詢請(qǐng)求進(jìn)行查詢的能力。選擇硬件平臺(tái)時(shí)要考慮的問題:是否提供并行的I/O吞吐?對(duì)多CPU的支持能力如何?
數(shù)據(jù)倉(cāng)庫(kù)DBMS:他的存儲(chǔ)大數(shù)據(jù)量的能力、查詢的性能、和對(duì)并行處理的支持如何。
網(wǎng)絡(luò)結(jié)構(gòu):數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施在那部分網(wǎng)絡(luò)段上會(huì)產(chǎn)生大量的數(shù)據(jù)通信,需不需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。
實(shí)現(xiàn)上
建立數(shù)據(jù)倉(cāng)庫(kù)的步驟
1)收集和分析業(yè)務(wù)需求
2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)
3)定義數(shù)據(jù)源
4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái)
5)從操作型數(shù)據(jù)庫(kù)中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)
6)選擇訪問和報(bào)表工具
7)選擇數(shù)據(jù)庫(kù)連接軟件
8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件
9)更新數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)抽取、清理、轉(zhuǎn)換、和移植
1)數(shù)據(jù)轉(zhuǎn)換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)。
4)具有規(guī)范的數(shù)據(jù)訪問接口
5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力
6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護(hù)的
7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分
8)能在抽取中進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換和字符集轉(zhuǎn)換
9)能在抽取的過程中計(jì)算生成衍生字段
10)能讓數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)自動(dòng)調(diào)用以定期進(jìn)行數(shù)據(jù)抽取工作,或能將結(jié)果生成平面文件
11)必須對(duì)軟件供應(yīng)商的生命力和產(chǎn)品支持能力進(jìn)行仔細(xì)評(píng)估
主要數(shù)據(jù)抽取工具供應(yīng)商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s
EDA/SQL.SASInstituteInc.
數(shù)據(jù)倉(cāng)庫(kù)帶來(lái)了什么
每一家公司都有自己的數(shù)據(jù)。并且,許多公司在計(jì)算機(jī)系統(tǒng)中儲(chǔ)存有大量的數(shù)據(jù),記錄著企業(yè)購(gòu)買、銷售、生產(chǎn)過程中的大量信息和客戶的信息。通常這些數(shù)據(jù)都儲(chǔ)存在許多不同的地方。
使用數(shù)據(jù)倉(cāng)庫(kù)之后,企業(yè)將所有收集來(lái)的信息存放在一個(gè)唯一的地方——數(shù)據(jù)倉(cāng)庫(kù)。倉(cāng)庫(kù)中的數(shù)據(jù)按照一定的方式組織,從而使得信息容易存取并且有使用價(jià)值。
目前,已經(jīng)開發(fā)出一些專門的軟件工具,使數(shù)據(jù)倉(cāng)庫(kù)的過程實(shí)現(xiàn)可以半自動(dòng)化,幫助企業(yè)將數(shù)據(jù)倒入數(shù)據(jù)倉(cāng)庫(kù),并使用那些已經(jīng)存入倉(cāng)庫(kù)的數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)給組織帶來(lái)了巨大的變化。數(shù)據(jù)倉(cāng)庫(kù)的建立給企業(yè)帶來(lái)了一些新的工作流程,其他的流程也因此而改變。
數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)帶來(lái)了一些“以數(shù)據(jù)為基礎(chǔ)的知識(shí)”,它們主要應(yīng)用于對(duì)市場(chǎng)戰(zhàn)略的評(píng)價(jià),和為企業(yè)發(fā)現(xiàn)新的市場(chǎng)商機(jī),同時(shí),也用來(lái)控制庫(kù)存、檢查生產(chǎn)方法和定義客戶群。
每一家公司都有自己的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)將企業(yè)的數(shù)據(jù)按照特定的方式組織,從而產(chǎn)生新的商業(yè)知識(shí),并為企業(yè)的運(yùn)作帶來(lái)新的視角。
為何要建立數(shù)據(jù)倉(cāng)庫(kù)
計(jì)算機(jī)發(fā)展的早期,人們已經(jīng)提出了建立數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)想!皵(shù)據(jù)倉(cāng)庫(kù)”一詞最早是在1900年,由Bill Inmon先生提出的,其描述如下:數(shù)據(jù)倉(cāng)庫(kù)是為支持企業(yè)決策而特別設(shè)計(jì)和建立的數(shù)據(jù)集合。
企業(yè)建立數(shù)據(jù)倉(cāng)庫(kù)是為了填補(bǔ)現(xiàn)有數(shù)據(jù)存儲(chǔ)形式已經(jīng)不能滿足信息分析的需要。數(shù)據(jù)倉(cāng)庫(kù)理論中的一個(gè)核心理念就是:事務(wù)型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。
企業(yè)在它們的事務(wù)操作收集數(shù)據(jù)。在企業(yè)運(yùn)作過程中:隨著定貨、銷售記錄的進(jìn)行,這些事務(wù)型數(shù)據(jù)也連續(xù)的產(chǎn)生。為了引入數(shù)據(jù),我們必須優(yōu)化事務(wù)型數(shù)據(jù)庫(kù)。
處理決策支持型數(shù)據(jù)時(shí),一些問題經(jīng)常會(huì)被提出:哪類客戶會(huì)購(gòu)買哪類產(chǎn)品?促銷后銷售額會(huì)變化多少??jī)r(jià)格變化后或者商店地址變化后銷售額又會(huì)變化多少呢?在某一段時(shí)間內(nèi),相對(duì)其他產(chǎn)品來(lái)說(shuō)哪類產(chǎn)品特別容易賣呢?哪些客戶增加了他們的購(gòu)買額?哪些客戶又削減了他們的購(gòu)買額呢?
事務(wù)型數(shù)據(jù)庫(kù)可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運(yùn)用有限的計(jì)算機(jī)資源時(shí)常常存在著競(jìng)爭(zhēng)。在增加新信息的時(shí)候我們需要事務(wù)型數(shù)據(jù)庫(kù)是空閑的。而在解答一系列具體的有關(guān)信息分析的問題的時(shí)候,系統(tǒng)處理新數(shù)據(jù)的有效性又會(huì)被大大降低。另一個(gè)問題就在于事務(wù)型數(shù)據(jù)總是在動(dòng)態(tài)的變化之中的。決策支持型處理需要相對(duì)穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。
數(shù)據(jù)倉(cāng)庫(kù)的解決方法包括:將決策支持型數(shù)據(jù)處理從事務(wù)型數(shù)據(jù)處理中分離出來(lái)。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務(wù)型數(shù)據(jù)庫(kù)中導(dǎo)入決策支持型數(shù)據(jù)庫(kù)——既“數(shù)據(jù)倉(cāng)庫(kù)”。數(shù)據(jù)倉(cāng)庫(kù)是按回答企業(yè)某方面的問題來(lái)分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市
有關(guān)決策支持型數(shù)據(jù)庫(kù)的數(shù)據(jù)集市是面向企業(yè)中的某個(gè)部門或是項(xiàng)目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉(cāng)庫(kù)全過程中的一步。首先,一個(gè)儲(chǔ)存企業(yè)全部信息的數(shù)據(jù)倉(cāng)庫(kù)被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉(cāng)庫(kù)聚集了所有詳細(xì)的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對(duì)用戶們的特定需求總結(jié)而出的。
而另外一些專家則認(rèn)為數(shù)據(jù)集市的建立并不需要首先建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。在這個(gè)模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫(kù)轉(zhuǎn)入數(shù)據(jù)集市中。一個(gè)公司可能建立有多個(gè)數(shù)據(jù)集市,而彼此之間毫無(wú)聯(lián)系。
這種不在建立數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會(huì)更便宜、更快速,因?yàn)樗囊?guī)模更加易于管理。
第二種觀點(diǎn)的缺陷在于無(wú)法實(shí)現(xiàn)最初創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式。現(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個(gè)全公司范圍的數(shù)據(jù)倉(cāng)庫(kù),組織就能夠獲得一個(gè)統(tǒng)一關(guān)于企業(yè)的活動(dòng)和客戶的知識(shí)庫(kù)。如果先建立起一個(gè)個(gè)獨(dú)立的數(shù)據(jù)集市,那么數(shù)據(jù)倉(cāng)庫(kù)的諸多優(yōu)勢(shì)都能夠得以實(shí)現(xiàn),但是企業(yè)遠(yuǎn)遠(yuǎn)無(wú)法做到對(duì)數(shù)據(jù)的一致的儲(chǔ)存。
2.
DW 也可認(rèn)為是由美國(guó) Macromedia 公司開發(fā)的集網(wǎng)頁(yè)制作和管理網(wǎng)站于一身的所見即所得網(wǎng)頁(yè)編輯器 DreamWeaver 的縮寫,現(xiàn)已被 Adobe 公司收購(gòu)。
詳細(xì)請(qǐng)看“百度知道”
http://baike.baidu.com/view/7919.html?tp=0_11
掃碼付費(fèi)即可復(fù)制
X100base-tx | 龍旗 | 100base-t | 10base-t | unix系統(tǒng) | TAF | LLID | 定位服務(wù) | FCOMB | OL/UL | 即時(shí)通信 | 傳輸網(wǎng)絡(luò)管理 |