詞語解釋
數(shù)據(jù)倉庫是一種特殊的數(shù)據(jù)庫,它以數(shù)據(jù)集成和數(shù)據(jù)挖掘的方式來支持管理決策。它的主要功能是收集、整理、存儲(chǔ)和管理各種類型的歷史和當(dāng)前數(shù)據(jù),以便用戶可以從中提取所需的信息,從而實(shí)現(xiàn)對(duì)企業(yè)的全面控制和管理。 數(shù)據(jù)倉庫是一個(gè)集中的存儲(chǔ)庫,用于存儲(chǔ)和管理各種類型的數(shù)據(jù),包括歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)。它支持?jǐn)?shù)據(jù)的整合,并可以提供跨多個(gè)應(yīng)用程序的數(shù)據(jù)查詢和分析。數(shù)據(jù)倉庫可以收集來自不同數(shù)據(jù)源的數(shù)據(jù),包括結(jié)構(gòu)化的數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫)和非結(jié)構(gòu)化的數(shù)據(jù)(如文本文件),以及經(jīng)過處理的數(shù)據(jù)(如報(bào)表)。 數(shù)據(jù)倉庫可以幫助企業(yè)收集、存儲(chǔ)和管理各種類型的數(shù)據(jù),從而提高企業(yè)的數(shù)據(jù)管理能力,實(shí)現(xiàn)對(duì)企業(yè)的全面控制和管理。數(shù)據(jù)倉庫還可以幫助企業(yè)進(jìn)行數(shù)據(jù)分析,從而提高企業(yè)的決策效率和準(zhǔn)確性。 數(shù)據(jù)倉庫在通信中的應(yīng)用主要是用于存儲(chǔ)和管理各種類型的數(shù)據(jù),以及用于支持?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)分析的數(shù)據(jù)集成。它可以收集來自不同數(shù)據(jù)源的數(shù)據(jù),包括結(jié)構(gòu)化的數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫)和非結(jié)構(gòu)化的數(shù)據(jù)(如文本文件),以及經(jīng)過處理的數(shù)據(jù)(如報(bào)表)。數(shù)據(jù)倉庫可以幫助企業(yè)收集、存儲(chǔ)和管理各種類型的數(shù)據(jù),從而提高企業(yè)的數(shù)據(jù)管理能力,實(shí)現(xiàn)對(duì)企業(yè)的全面控制和管理。 數(shù)據(jù)倉庫在通信中的應(yīng)用還可以支持企業(yè)決策,通過數(shù)據(jù)倉庫可以收集、整理、存儲(chǔ)和管理各種類型的歷史和當(dāng)前數(shù)據(jù),以便用戶可以從中提取所需的信息,從而實(shí)現(xiàn)對(duì)企業(yè)的全面控制和管理。數(shù)據(jù)倉庫還可以幫助企業(yè)進(jìn)行數(shù)據(jù)分析,從而提高企業(yè)的決策效率和準(zhǔn)確性。 總之,數(shù)據(jù)倉庫在通信中的應(yīng)用可以幫助企業(yè)收集、存儲(chǔ)和管理各種類型的數(shù)據(jù),以及支持?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)分析,從而提高企業(yè)的數(shù)據(jù)管理能力,實(shí)現(xiàn)對(duì)企業(yè)的全面控制和管理,提高企業(yè)的決策效率和準(zhǔn)確性。 1. 數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。 數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡(jiǎn)寫為DW。 數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。 ◆面向主題:操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。 ◆集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。 ◆相對(duì)穩(wěn)定的:數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 ◆反映歷史變化:數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。 數(shù)據(jù)倉庫是一個(gè)過程而不是一個(gè)項(xiàng)目。 數(shù)據(jù)倉庫系統(tǒng)是一個(gè)信息提供平臺(tái),他從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進(jìn)行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識(shí)。 從功能結(jié)構(gòu)化分,數(shù)據(jù)倉庫系統(tǒng)至少應(yīng)該包含數(shù)據(jù)獲。―ata Acquisition)、數(shù)據(jù)存儲(chǔ)(Data Storage)、數(shù)據(jù)訪問(Data Access)三個(gè)關(guān)鍵部分。 什么是數(shù)據(jù)倉庫 (轉(zhuǎn)載自北大高科網(wǎng)站,http://www.pku-ht.com/) 目前,數(shù)據(jù)倉庫一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉庫的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。 根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個(gè)特點(diǎn): 1、面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。 2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。 3、相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 4、反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。 企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個(gè)工程,是一個(gè)過程。 整個(gè)數(shù)據(jù)倉庫系統(tǒng)是一個(gè)包含四個(gè)層次的體系結(jié)構(gòu),具體由下圖表示。 數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu) ·數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等; ·數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉庫和部門級(jí)數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。 ·OLAP服務(wù)器:對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。 ·前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉庫。 目前,數(shù)據(jù)倉庫一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉庫的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。多維 數(shù)據(jù)倉庫的組成 數(shù)據(jù)倉庫數(shù)據(jù)庫 是整個(gè)數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫來說其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。 數(shù)據(jù)抽取工具 把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。 元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)?蓪⑵浒从猛镜牟煌譃閮深,技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。 技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。 商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表; 元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。 訪問工具 為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線分析(OLAP)工具;數(shù)據(jù)挖掘工具。 數(shù)據(jù)集市(DataMarts) 為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉庫。需要注意的就是再實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉庫時(shí)才不會(huì)造成大麻煩。 數(shù)據(jù)倉庫管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。 信息發(fā)布系統(tǒng):把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問的最有效方法。 設(shè)計(jì)數(shù)據(jù)倉庫的九個(gè)步驟 1)選擇合適的主題(所要解決問題的領(lǐng)域) 2)明確定義fact表 3)確定和確認(rèn)維 4)choosing the facts 5)計(jì)算并存儲(chǔ)fact表中的衍生數(shù)據(jù)段 6)roundingoutthedimensiontables 7)choosingthedurationofthedatabase 8)theneedtotrackslowlychangingdimensions 9)確定查詢優(yōu)先級(jí)和查詢模式。 技術(shù)上 硬件平臺(tái):數(shù)據(jù)倉庫的硬盤容量通常要是操作數(shù)據(jù)庫硬盤容量的2-3倍。通常大型機(jī)具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結(jié)合在一起;而PC服務(wù)器或UNIX服務(wù)器更加靈活,容易操作和提供動(dòng)態(tài)生成查詢請(qǐng)求進(jìn)行查詢的能力。選擇硬件平臺(tái)時(shí)要考慮的問題:是否提供并行的I/O吞吐?對(duì)多CPU的支持能力如何? 數(shù)據(jù)倉庫DBMS:他的存儲(chǔ)大數(shù)據(jù)量的能力、查詢的性能、和對(duì)并行處理的支持如何。 網(wǎng)絡(luò)結(jié)構(gòu):數(shù)據(jù)倉庫的實(shí)施在那部分網(wǎng)絡(luò)段上會(huì)產(chǎn)生大量的數(shù)據(jù)通信,需不需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。 實(shí)現(xiàn)上 建立數(shù)據(jù)倉庫的步驟 1)收集和分析業(yè)務(wù)需求 2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì) 3)定義數(shù)據(jù)源 4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái) 5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫 6)選擇訪問和報(bào)表工具 7)選擇數(shù)據(jù)庫連接軟件 8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件 9)更新數(shù)據(jù)倉庫 數(shù)據(jù)抽取、清理、轉(zhuǎn)換、和移植 1)數(shù)據(jù)轉(zhuǎn)換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。 2)支持平面文件、索引文件、和legacyDBMS。 3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)。 4)具有規(guī)范的數(shù)據(jù)訪問接口 5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力 6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護(hù)的 7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分 8)能在抽取中進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換和字符集轉(zhuǎn)換 9)能在抽取的過程中計(jì)算生成衍生字段 10)能讓數(shù)據(jù)倉庫管理系統(tǒng)自動(dòng)調(diào)用以定期進(jìn)行數(shù)據(jù)抽取工作,或能將結(jié)果生成平面文件 11)必須對(duì)軟件供應(yīng)商的生命力和產(chǎn)品支持能力進(jìn)行仔細(xì)評(píng)估 主要數(shù)據(jù)抽取工具供應(yīng)商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s EDA/SQL.SASInstituteInc. 數(shù)據(jù)倉庫帶來了什么 每一家公司都有自己的數(shù)據(jù)。并且,許多公司在計(jì)算機(jī)系統(tǒng)中儲(chǔ)存有大量的數(shù)據(jù),記錄著企業(yè)購買、銷售、生產(chǎn)過程中的大量信息和客戶的信息。通常這些數(shù)據(jù)都儲(chǔ)存在許多不同的地方。 使用數(shù)據(jù)倉庫之后,企業(yè)將所有收集來的信息存放在一個(gè)唯一的地方——數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)按照一定的方式組織,從而使得信息容易存取并且有使用價(jià)值。 目前,已經(jīng)開發(fā)出一些專門的軟件工具,使數(shù)據(jù)倉庫的過程實(shí)現(xiàn)可以半自動(dòng)化,幫助企業(yè)將數(shù)據(jù)倒入數(shù)據(jù)倉庫,并使用那些已經(jīng)存入倉庫的數(shù)據(jù)。 數(shù)據(jù)倉庫給組織帶來了巨大的變化。數(shù)據(jù)倉庫的建立給企業(yè)帶來了一些新的工作流程,其他的流程也因此而改變。 數(shù)據(jù)倉庫為企業(yè)帶來了一些“以數(shù)據(jù)為基礎(chǔ)的知識(shí)”,它們主要應(yīng)用于對(duì)市場(chǎng)戰(zhàn)略的評(píng)價(jià),和為企業(yè)發(fā)現(xiàn)新的市場(chǎng)商機(jī),同時(shí),也用來控制庫存、檢查生產(chǎn)方法和定義客戶群。 每一家公司都有自己的數(shù)據(jù)。數(shù)據(jù)倉庫將企業(yè)的數(shù)據(jù)按照特定的方式組織,從而產(chǎn)生新的商業(yè)知識(shí),并為企業(yè)的運(yùn)作帶來新的視角。 為何要建立數(shù)據(jù)倉庫 計(jì)算機(jī)發(fā)展的早期,人們已經(jīng)提出了建立數(shù)據(jù)倉庫的構(gòu)想!皵(shù)據(jù)倉庫”一詞最早是在1900年,由Bill Inmon先生提出的,其描述如下:數(shù)據(jù)倉庫是為支持企業(yè)決策而特別設(shè)計(jì)和建立的數(shù)據(jù)集合。 企業(yè)建立數(shù)據(jù)倉庫是為了填補(bǔ)現(xiàn)有數(shù)據(jù)存儲(chǔ)形式已經(jīng)不能滿足信息分析的需要。數(shù)據(jù)倉庫理論中的一個(gè)核心理念就是:事務(wù)型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。 企業(yè)在它們的事務(wù)操作收集數(shù)據(jù)。在企業(yè)運(yùn)作過程中:隨著定貨、銷售記錄的進(jìn)行,這些事務(wù)型數(shù)據(jù)也連續(xù)的產(chǎn)生。為了引入數(shù)據(jù),我們必須優(yōu)化事務(wù)型數(shù)據(jù)庫。 處理決策支持型數(shù)據(jù)時(shí),一些問題經(jīng)常會(huì)被提出:哪類客戶會(huì)購買哪類產(chǎn)品?促銷后銷售額會(huì)變化多少??jī)r(jià)格變化后或者商店地址變化后銷售額又會(huì)變化多少呢?在某一段時(shí)間內(nèi),相對(duì)其他產(chǎn)品來說哪類產(chǎn)品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢? 事務(wù)型數(shù)據(jù)庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運(yùn)用有限的計(jì)算機(jī)資源時(shí)常常存在著競(jìng)爭(zhēng)。在增加新信息的時(shí)候我們需要事務(wù)型數(shù)據(jù)庫是空閑的。而在解答一系列具體的有關(guān)信息分析的問題的時(shí)候,系統(tǒng)處理新數(shù)據(jù)的有效性又會(huì)被大大降低。另一個(gè)問題就在于事務(wù)型數(shù)據(jù)總是在動(dòng)態(tài)的變化之中的。決策支持型處理需要相對(duì)穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。 數(shù)據(jù)倉庫的解決方法包括:將決策支持型數(shù)據(jù)處理從事務(wù)型數(shù)據(jù)處理中分離出來。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務(wù)型數(shù)據(jù)庫中導(dǎo)入決策支持型數(shù)據(jù)庫——既“數(shù)據(jù)倉庫”。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。 數(shù)據(jù)倉庫和數(shù)據(jù)集市 有關(guān)決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個(gè)部門或是項(xiàng)目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個(gè)儲(chǔ)存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細(xì)的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對(duì)用戶們的特定需求總結(jié)而出的。 而另外一些專家則認(rèn)為數(shù)據(jù)集市的建立并不需要首先建立一個(gè)數(shù)據(jù)倉庫。在這個(gè)模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫轉(zhuǎn)入數(shù)據(jù)集市中。一個(gè)公司可能建立有多個(gè)數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。 這種不在建立數(shù)據(jù)倉庫的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會(huì)更便宜、更快速,因?yàn)樗囊?guī)模更加易于管理。 第二種觀點(diǎn)的缺陷在于無法實(shí)現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式。現(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個(gè)全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個(gè)統(tǒng)一關(guān)于企業(yè)的活動(dòng)和客戶的知識(shí)庫。如果先建立起一個(gè)個(gè)獨(dú)立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢(shì)都能夠得以實(shí)現(xiàn),但是企業(yè)遠(yuǎn)遠(yuǎn)無法做到對(duì)數(shù)據(jù)的一致的儲(chǔ)存。 2. DW 也可認(rèn)為是由美國 Macromedia 公司開發(fā)的集網(wǎng)頁制作和管理網(wǎng)站于一身的所見即所得網(wǎng)頁編輯器 DreamWeaver 的縮寫,現(xiàn)已被 Adobe 公司收購。 詳細(xì)請(qǐng)看“百度知道” http://baike.baidu.com/view/7919.html?tp=0_11
1. 數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。 數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡(jiǎn)寫為DW。 數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。 ◆面向主題:操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。 ◆集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。 ◆相對(duì)穩(wěn)定的:數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 ◆反映歷史變化:數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。 數(shù)據(jù)倉庫是一個(gè)過程而不是一個(gè)項(xiàng)目。 數(shù)據(jù)倉庫系統(tǒng)是一個(gè)信息提供平臺(tái),他從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進(jìn)行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識(shí)。 從功能結(jié)構(gòu)化分,數(shù)據(jù)倉庫系統(tǒng)至少應(yīng)該包含數(shù)據(jù)獲。―ata Acquisition)、數(shù)據(jù)存儲(chǔ)(Data Storage)、數(shù)據(jù)訪問(Data Access)三個(gè)關(guān)鍵部分。 什么是數(shù)據(jù)倉庫 (轉(zhuǎn)載自北大高科網(wǎng)站,http://www.pku-ht.com/) 目前,數(shù)據(jù)倉庫一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉庫的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。 根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個(gè)特點(diǎn): 1、面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。 2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。 3、相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 4、反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。 企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個(gè)工程,是一個(gè)過程。 整個(gè)數(shù)據(jù)倉庫系統(tǒng)是一個(gè)包含四個(gè)層次的體系結(jié)構(gòu),具體由下圖表示。 數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu) ·數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等; ·數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉庫和部門級(jí)數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。 ·OLAP服務(wù)器:對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。 ·前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉庫。 目前,數(shù)據(jù)倉庫一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉庫的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。多維 數(shù)據(jù)倉庫的組成 數(shù)據(jù)倉庫數(shù)據(jù)庫 是整個(gè)數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫來說其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。 數(shù)據(jù)抽取工具 把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。 元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)?蓪⑵浒从猛镜牟煌譃閮深,技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。 技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。 商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表; 元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。 訪問工具 為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線分析(OLAP)工具;數(shù)據(jù)挖掘工具。 數(shù)據(jù)集市(DataMarts) 為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉庫。需要注意的就是再實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉庫時(shí)才不會(huì)造成大麻煩。 數(shù)據(jù)倉庫管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。 信息發(fā)布系統(tǒng):把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問的最有效方法。 設(shè)計(jì)數(shù)據(jù)倉庫的九個(gè)步驟 1)選擇合適的主題(所要解決問題的領(lǐng)域) 2)明確定義fact表 3)確定和確認(rèn)維 4)choosing the facts 5)計(jì)算并存儲(chǔ)fact表中的衍生數(shù)據(jù)段 6)roundingoutthedimensiontables 7)choosingthedurationofthedatabase 8)theneedtotrackslowlychangingdimensions 9)確定查詢優(yōu)先級(jí)和查詢模式。 技術(shù)上 硬件平臺(tái):數(shù)據(jù)倉庫的硬盤容量通常要是操作數(shù)據(jù)庫硬盤容量的2-3倍。通常大型機(jī)具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結(jié)合在一起;而PC服務(wù)器或UNIX服務(wù)器更加靈活,容易操作和提供動(dòng)態(tài)生成查詢請(qǐng)求進(jìn)行查詢的能力。選擇硬件平臺(tái)時(shí)要考慮的問題:是否提供并行的I/O吞吐?對(duì)多CPU的支持能力如何? 數(shù)據(jù)倉庫DBMS:他的存儲(chǔ)大數(shù)據(jù)量的能力、查詢的性能、和對(duì)并行處理的支持如何。 網(wǎng)絡(luò)結(jié)構(gòu):數(shù)據(jù)倉庫的實(shí)施在那部分網(wǎng)絡(luò)段上會(huì)產(chǎn)生大量的數(shù)據(jù)通信,需不需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。 實(shí)現(xiàn)上 建立數(shù)據(jù)倉庫的步驟 1)收集和分析業(yè)務(wù)需求 2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì) 3)定義數(shù)據(jù)源 4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái) 5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫 6)選擇訪問和報(bào)表工具 7)選擇數(shù)據(jù)庫連接軟件 8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件 9)更新數(shù)據(jù)倉庫 數(shù)據(jù)抽取、清理、轉(zhuǎn)換、和移植 1)數(shù)據(jù)轉(zhuǎn)換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。 2)支持平面文件、索引文件、和legacyDBMS。 3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)。 4)具有規(guī)范的數(shù)據(jù)訪問接口 5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力 6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護(hù)的 7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分 8)能在抽取中進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換和字符集轉(zhuǎn)換 9)能在抽取的過程中計(jì)算生成衍生字段 10)能讓數(shù)據(jù)倉庫管理系統(tǒng)自動(dòng)調(diào)用以定期進(jìn)行數(shù)據(jù)抽取工作,或能將結(jié)果生成平面文件 11)必須對(duì)軟件供應(yīng)商的生命力和產(chǎn)品支持能力進(jìn)行仔細(xì)評(píng)估 主要數(shù)據(jù)抽取工具供應(yīng)商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s EDA/SQL.SASInstituteInc. 數(shù)據(jù)倉庫帶來了什么 每一家公司都有自己的數(shù)據(jù)。并且,許多公司在計(jì)算機(jī)系統(tǒng)中儲(chǔ)存有大量的數(shù)據(jù),記錄著企業(yè)購買、銷售、生產(chǎn)過程中的大量信息和客戶的信息。通常這些數(shù)據(jù)都儲(chǔ)存在許多不同的地方。 使用數(shù)據(jù)倉庫之后,企業(yè)將所有收集來的信息存放在一個(gè)唯一的地方——數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)按照一定的方式組織,從而使得信息容易存取并且有使用價(jià)值。 目前,已經(jīng)開發(fā)出一些專門的軟件工具,使數(shù)據(jù)倉庫的過程實(shí)現(xiàn)可以半自動(dòng)化,幫助企業(yè)將數(shù)據(jù)倒入數(shù)據(jù)倉庫,并使用那些已經(jīng)存入倉庫的數(shù)據(jù)。 數(shù)據(jù)倉庫給組織帶來了巨大的變化。數(shù)據(jù)倉庫的建立給企業(yè)帶來了一些新的工作流程,其他的流程也因此而改變。 數(shù)據(jù)倉庫為企業(yè)帶來了一些“以數(shù)據(jù)為基礎(chǔ)的知識(shí)”,它們主要應(yīng)用于對(duì)市場(chǎng)戰(zhàn)略的評(píng)價(jià),和為企業(yè)發(fā)現(xiàn)新的市場(chǎng)商機(jī),同時(shí),也用來控制庫存、檢查生產(chǎn)方法和定義客戶群。 每一家公司都有自己的數(shù)據(jù)。數(shù)據(jù)倉庫將企業(yè)的數(shù)據(jù)按照特定的方式組織,從而產(chǎn)生新的商業(yè)知識(shí),并為企業(yè)的運(yùn)作帶來新的視角。 為何要建立數(shù)據(jù)倉庫 計(jì)算機(jī)發(fā)展的早期,人們已經(jīng)提出了建立數(shù)據(jù)倉庫的構(gòu)想!皵(shù)據(jù)倉庫”一詞最早是在1900年,由Bill Inmon先生提出的,其描述如下:數(shù)據(jù)倉庫是為支持企業(yè)決策而特別設(shè)計(jì)和建立的數(shù)據(jù)集合。 企業(yè)建立數(shù)據(jù)倉庫是為了填補(bǔ)現(xiàn)有數(shù)據(jù)存儲(chǔ)形式已經(jīng)不能滿足信息分析的需要。數(shù)據(jù)倉庫理論中的一個(gè)核心理念就是:事務(wù)型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。 企業(yè)在它們的事務(wù)操作收集數(shù)據(jù)。在企業(yè)運(yùn)作過程中:隨著定貨、銷售記錄的進(jìn)行,這些事務(wù)型數(shù)據(jù)也連續(xù)的產(chǎn)生。為了引入數(shù)據(jù),我們必須優(yōu)化事務(wù)型數(shù)據(jù)庫。 處理決策支持型數(shù)據(jù)時(shí),一些問題經(jīng)常會(huì)被提出:哪類客戶會(huì)購買哪類產(chǎn)品?促銷后銷售額會(huì)變化多少??jī)r(jià)格變化后或者商店地址變化后銷售額又會(huì)變化多少呢?在某一段時(shí)間內(nèi),相對(duì)其他產(chǎn)品來說哪類產(chǎn)品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢? 事務(wù)型數(shù)據(jù)庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運(yùn)用有限的計(jì)算機(jī)資源時(shí)常常存在著競(jìng)爭(zhēng)。在增加新信息的時(shí)候我們需要事務(wù)型數(shù)據(jù)庫是空閑的。而在解答一系列具體的有關(guān)信息分析的問題的時(shí)候,系統(tǒng)處理新數(shù)據(jù)的有效性又會(huì)被大大降低。另一個(gè)問題就在于事務(wù)型數(shù)據(jù)總是在動(dòng)態(tài)的變化之中的。決策支持型處理需要相對(duì)穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。 數(shù)據(jù)倉庫的解決方法包括:將決策支持型數(shù)據(jù)處理從事務(wù)型數(shù)據(jù)處理中分離出來。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務(wù)型數(shù)據(jù)庫中導(dǎo)入決策支持型數(shù)據(jù)庫——既“數(shù)據(jù)倉庫”。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。 數(shù)據(jù)倉庫和數(shù)據(jù)集市 有關(guān)決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個(gè)部門或是項(xiàng)目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個(gè)儲(chǔ)存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細(xì)的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對(duì)用戶們的特定需求總結(jié)而出的。 而另外一些專家則認(rèn)為數(shù)據(jù)集市的建立并不需要首先建立一個(gè)數(shù)據(jù)倉庫。在這個(gè)模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫轉(zhuǎn)入數(shù)據(jù)集市中。一個(gè)公司可能建立有多個(gè)數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。 這種不在建立數(shù)據(jù)倉庫的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會(huì)更便宜、更快速,因?yàn)樗囊?guī)模更加易于管理。 第二種觀點(diǎn)的缺陷在于無法實(shí)現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式。現(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個(gè)全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個(gè)統(tǒng)一關(guān)于企業(yè)的活動(dòng)和客戶的知識(shí)庫。如果先建立起一個(gè)個(gè)獨(dú)立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢(shì)都能夠得以實(shí)現(xiàn),但是企業(yè)遠(yuǎn)遠(yuǎn)無法做到對(duì)數(shù)據(jù)的一致的儲(chǔ)存。 2. DW 也可認(rèn)為是由美國 Macromedia 公司開發(fā)的集網(wǎng)頁制作和管理網(wǎng)站于一身的所見即所得網(wǎng)頁編輯器 DreamWeaver 的縮寫,現(xiàn)已被 Adobe 公司收購。 詳細(xì)請(qǐng)看“百度知道” http://baike.baidu.com/view/7919.html?tp=0_11
抱歉,此頁面的內(nèi)容受版權(quán)保護(hù),復(fù)制需扣除次數(shù),次數(shù)不足時(shí)需付費(fèi)購買。
如需下載請(qǐng)點(diǎn)擊:點(diǎn)擊此處下載
掃碼付費(fèi)即可復(fù)制
LLID | 定位服務(wù) | FCOMB | OL/UL | 即時(shí)通信 | 傳輸網(wǎng)絡(luò)管理 | ODM | 比特流 | ETL | 光電隔離器 | NADC | 頻移鍵控 |
移動(dòng)通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團(tuán)隊(duì)博客 | 免責(zé)聲明 | 關(guān)于詞典 | 幫助