移動通信業(yè)是典型的數據密集型行業(yè),隨著通信體制改革的深化,移動通信業(yè)的競爭也日趨激烈。與其他行業(yè)相比,移動通信行業(yè)擁有更多的有關用戶的數據。誰能正確地分析這些數據所得到有用的信息,誰就能更好地向用戶提供服務,也就能夠發(fā)現更多的商機,從而在競爭中獲勝。數據倉庫可以將移動通信企業(yè)的這些數據變?yōu)橛杏玫男畔碇С譀Q策,因此,數據倉庫在移動通信業(yè)中有重要的應用價值。
現在絕大多數的企業(yè)都在走經營分析信息化這條路,但光有綜合業(yè)務自動化系統(tǒng)或者決策支持系統(tǒng)卻沒有完善的數據支持都屬于粗放型經營分析,只算是達到了企業(yè)經營分析的自動化,還不能算是經營分析信息化?梢酝ㄟ^移動通信業(yè)邏輯數據模型,建立一個集中的、一致的和可擴展的數據倉庫系統(tǒng),以保證移動通信企業(yè)運用先進的經營分析系統(tǒng)建立戰(zhàn)略性的競爭優(yōu)勢。
1 數據倉庫的概念及技術
1.1 數據倉庫的概念
數據倉庫之父Bill Inmon對數據倉庫所下的定義是:數據倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數據集合,用以支持管理決策的過程。這個定義概括了數據倉庫的實質。從存儲方式和技術方面,數據庫領域著名的學者韓家煒教授給出另外一個描述:數據倉庫是一種多個異種數據源在單個站點以統(tǒng)一的模式組織的存儲,以支持管理決策?梢姡瑪祿䝼}庫是一個支持決策的過程,它有這樣一些特性:面向主題的、集成的、穩(wěn)定的、隨時間變化的,多個異種數據源在單個站點以統(tǒng)一的模式組織存儲的。
1.2 數據倉庫技術
1.2.1 數據處理
數據倉庫的數據處理(ETL)包括數據的抽取、清理、轉換與加載。把數據從操作型環(huán)境轉換到數據倉庫環(huán)境的數據抽取要實現技術上的變化。這種變化不僅指的是一種DBMS的變化,還包含源于操作系統(tǒng)的變化、硬件的變化、數據結構的變化。
把數據從操作型環(huán)境載入到數據倉庫環(huán)境時,如果數據以一種非集成狀態(tài)到達數據倉庫,它就不能被用來支持數據的企業(yè)視圖。數據的企業(yè)視圖是體系結構設計環(huán)境的本質之一。
數據并非只是注入數據倉庫,它在數據倉庫中也有自己的生命周期。到了一定時候,數據將從倉庫中清除。數據清理問題是數據倉庫設計人員無法回避的基本設計問題之一。從某種意義上講,數據根本不是從數據倉庫中清除,而僅是上升到更高的綜合級。
1.2.2 數據倉庫的數據模型
一個企業(yè)數據模型建造時不考慮現存的操作型系統(tǒng)與數據倉庫之間的差別,企業(yè)數據模型只包含原始數據。要建造一個單獨的現存數據模型,需要從企業(yè)數據模型開始。當企業(yè)數據模型用于操作型系統(tǒng)時,幾乎不用做什么改動。但是,企業(yè)數據模型用到數據倉庫中要做相當多的改動。首先要做的是除去純粹用于操作型環(huán)境的數據;然后在企業(yè)數據模型的鍵碼結構中增加時間元素;導出數據加到企業(yè)數據模型中,在那里導出數據作為公用并只計算一次,而不重復計算;最后,操作型系統(tǒng)中的數據關系在數據倉庫中就轉變?yōu)?ldquo;人工關系”。
有3個層次的數據建模:高層建模(ERD,實體關系層),中間層建模(DIS,數據項集),底層建模(物理層)。
1.2.3 數據倉庫的性能特性
確定性能特性是設計的重要一步,在數據倉庫的情況下,意味著決定數據的粒度與分割。
粒度 粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別。在早期建立的操作型系統(tǒng)中,粒度是用于訪問授權的。當詳細的數據被更新時,幾乎總是把它存放在最低粒度級上。但在數據倉庫環(huán)境中,對粒度不作假設。在數據倉庫環(huán)境中粒度之所以是主要的設計問題,是因為它深深影響存放在數據倉庫中的數據量的大小,以及數據倉庫所能回答的查詢類型。在數據倉庫中的數據量大小與查詢的詳細程度之間要作出權衡。
分割 人們常說,如果粒度和分割都做得很好的話,數據倉庫設計和實現的幾乎所有其他問題都容易解決。但是,假如粒度處理不當并且分割也沒有認真地設計與實現,這將使其他方面的設計難以真正實現。對當前細節(jié)數據進行分割的總體目的是把數據劃分成小的物理單元。數據分割的重要性在于小的物理單元能為操作者和設計者在管理數據時提供比對大的物理單元更大的靈活性。
物理I/O 物理設計因素的中心在于物理I/O(輸入/輸出)。對性能來說I/O事件如此重要是因為存儲器和計算機之間的數據傳輸速度比計算機運算速度要慢大約2~3個數量級。計算機內部運算速度以毫微秒計,而數據的傳輸速度是以毫秒計。因此,物理I/O是主要影響性能的因素。為了提升性能,應在系統(tǒng)中盡量減少物理I/O。
1.2.4 樣本數據庫
樣本數據庫是數據倉庫的一種有趣的、混雜的形式,它只是真實檔案數據或輕度綜合數據的子集。術語“樣本”源于它是更大數據庫的子集(即樣本)這一事實,并需要進行定期刷新。
1.2.5 數據倉庫中的數據組織
數據倉庫中最簡單最常用的數據組織形式也許是簡單堆積結構,從操作型環(huán)境中取出每天的事務處理,然后綜合成數據倉庫記錄,這個綜合可根據顧客、帳戶或者任何組織到數據倉庫的主題領域來進行。這里的事務處理是以天來進行綜合。數據通過與前面相同的處理方法從操作型環(huán)境輸入到數據倉庫環(huán)境中。只是在輪轉綜合文件中的數據才被輸入到不同的結構形式中。第一周的7天中的活動被逐一綜合到7個每日相應的位置,到第八天,將7個每日位置的數據加到一起,并放人第一周的數據位置中。然后,第八天的每日總計加到第一個每日數據位置。
1.2.6 元數據
數據倉庫環(huán)境中一個重要方面是元數據。元數據是關于數據的數據。只要有程序和數據,元數據就是信息處理環(huán)境的一部分。但是在數據倉庫中,元數據扮演一個新的重要角色。也正因為有了元數據,可以最有效地利用數據倉庫。元數據使得最終用戶/DSS分析員能夠探索各種可能性。元數據在數據倉庫的上層,并且記錄數據倉庫中對象的位置。
1.2.7 數據索引與監(jiān)視
數據倉庫的靈魂就在于靈活性和對數據的不可預測的訪問。數據倉庫中的數據如果不能方便和有效地檢索,那么建立數據倉庫這項工作就不成功。當然,設計者可以利用許多方法來使數據盡可能的靈活,例如利用雙重粒度級和數據分割。但這些技術一定要支持方便的索引,如二級索引、稀疏索引、動態(tài)索引、臨時索引等。而且建立和應用索引的費用不能太高。同時數據倉庫中的數據也應能隨意地被監(jiān)視,監(jiān)視數據的費用也不能太高,過程不能太復雜,監(jiān)視程序在需要時應能隨時運行。
1.2.8 數據周期
所謂數據周期是指從操作型環(huán)境數據發(fā)生改變起,到這個變化反映到數據倉庫中所用的時間。原則上從操作型環(huán)境知道數據的改變到這個變化反映到數據倉庫中至少應該經歷24 h。沒有必要急于把這個變化轉入信息倉庫中去,原因在于如果操作型環(huán)境與數據倉庫相互之間結合得越緊密,那么所需的費用就越昂貴,技術也越復雜。24 h的時間間隔以現有技術來說將很容易被實現。更有說服力的一個原因是,時間間隔給環(huán)境附加了一個特殊的限制。間隔24 h,使得在數據倉庫中不必做操作型處理;在操作型環(huán)境中不必做數據倉庫處理。時間間隔的另一個好處是在轉入數據倉庫之前,數據能達到穩(wěn)定。
1.2.9 數據分析
數據分析技術是指一種能夠應用在數據倉庫基礎之上,進行業(yè)務應用分析的數學方法。在現階段主要包括OLAP技術、數據挖掘技術、統(tǒng)計分析技術、聯(lián)機挖掘等內容。
OLAP技術也叫聯(lián)機分析處理。是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更加深入了解的一類軟件技術。
OLAP技術的技術核心就是維。如地理維、時間維等。維也可以分層次的。例如時間維可以向下分成日期、月份、季節(jié)、年等不同的層次;地理維可以向下劃分為區(qū)、省、市、縣、鄉(xiāng)等層次。
來源:現代電子技術