NCR(中國(guó))有限公司數(shù)據(jù)倉(cāng)庫(kù)事業(yè)部 專業(yè)技術(shù)服務(wù)總監(jiān) 王闖舟
現(xiàn)任NCR中國(guó)有限公司數(shù)據(jù)倉(cāng)庫(kù)事業(yè)部專業(yè)技術(shù)服務(wù)總監(jiān)。他領(lǐng)導(dǎo)的部門由50余名專門從事數(shù)據(jù)倉(cāng)庫(kù)技術(shù)研究與項(xiàng)目實(shí)施的專業(yè)顧問組成,主要為國(guó)內(nèi)客戶提供有關(guān)NCR可擴(kuò)展數(shù)據(jù)倉(cāng)庫(kù)解決方案的售前咨詢與項(xiàng)目實(shí)施服務(wù)。他本人在IT行業(yè)有超過十年的豐富經(jīng)驗(yàn),主要專長(zhǎng)在于NCR的數(shù)據(jù)倉(cāng)庫(kù)引擎Teradata RDBMS、項(xiàng)目管理、數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施方法論、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)分析與應(yīng)用規(guī)劃等。
在電子商務(wù)中引入數(shù)據(jù)倉(cāng)庫(kù)解決方案的必要性
對(duì)于一個(gè)企業(yè)來說,要在競(jìng)爭(zhēng)日益激烈的市場(chǎng)環(huán)境下保持自己的競(jìng)爭(zhēng)優(yōu)勢(shì),更好地與客戶溝通并提供客戶服務(wù),引入電子商務(wù)解決方案是非常重要的一項(xiàng)措施。在企業(yè)眾多的客戶交互渠道中,WEB是最經(jīng)濟(jì)的,其涵蓋范圍也越來越廣。但問題是,許多企業(yè)在開展電子商務(wù)時(shí),簡(jiǎn)單地認(rèn)為建立一個(gè)網(wǎng)站并且透過它進(jìn)行產(chǎn)品的宣傳與銷售就足夠了。目前電子商務(wù)領(lǐng)域的各種技術(shù)與方案也主要圍繞在如何更好地進(jìn)行網(wǎng)上交易,常常忽視了同樣重要的另一個(gè)主題,即如何更全面地分析客戶行為、更有效地與客戶進(jìn)行溝通并提供服務(wù)。
與分支機(jī)構(gòu)、柜臺(tái)等傳統(tǒng)渠道不同,基于WEB的網(wǎng)上交易方式是完全電子化、無接觸的,雖然比較經(jīng)濟(jì),但不如傳統(tǒng)渠道人性化和易于建立客戶關(guān)系。國(guó)外一家咨詢機(jī)構(gòu)在一份2000年的統(tǒng)計(jì)與分析報(bào)告中指出,“84%的在線業(yè)務(wù)沒有采取有效措施來跟進(jìn)那些通過其網(wǎng)站進(jìn)行采購(gòu)的客戶,90%的在線業(yè)務(wù)沒有針對(duì)客戶實(shí)施個(gè)性化的服務(wù),75%的在線業(yè)務(wù)無法識(shí)別在其網(wǎng)站多次進(jìn)行采購(gòu)的客戶”。由于這樣的原因,企業(yè)與其網(wǎng)上交易客戶之間的關(guān)系變得疏遠(yuǎn)和分離,形成所謂的“E-溝 (E-Gap)”。顯然,“E-溝”是企業(yè)維持穩(wěn)定與優(yōu)質(zhì)的客戶群體的最大障礙。
隨著Internet在全球的普及,并逐漸發(fā)展成為進(jìn)行市場(chǎng)行銷與商務(wù)活動(dòng)的重要渠道,網(wǎng)站已經(jīng)成為企業(yè)整體業(yè)務(wù)發(fā)展戰(zhàn)略的重要組成部分。人們不再把網(wǎng)站當(dāng)成簡(jiǎn)單的交易場(chǎng)所,而把它看成企業(yè)與客戶之間的重要交互渠道,并通過該渠道來逐步建立與加強(qiáng)客戶關(guān)系。在與客戶的每一次交互中,都將通過頁(yè)面訪問與點(diǎn)擊產(chǎn)生大量的數(shù)據(jù)。分散在不同系統(tǒng)中的這些數(shù)據(jù)需要通過清洗、整理、過濾、排序、合并等各種技術(shù)手段進(jìn)行綜合的處理,才能轉(zhuǎn)變成有意義的業(yè)務(wù)信息與知識(shí),從而幫助企業(yè)更好的洞察與了解客戶行為。實(shí)現(xiàn)這種處理的最有效方法就是引入數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。
通過在傳統(tǒng)的電子商務(wù)中,引入基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的WEB分析應(yīng)用,可以幫助企業(yè)更好地了解與分析其客戶行為,加強(qiáng)客戶溝通并提供個(gè)性化服務(wù),從而縮小并最終消除企業(yè)與客戶之間的“E-溝”。
典型的WEB分析需求
曾經(jīng)有一段時(shí)間,企業(yè)對(duì)其網(wǎng)站成功與否的評(píng)估只是看客戶對(duì)其網(wǎng)站的訪問率與點(diǎn)擊率,而忽視了許多更全面、更深入的內(nèi)在分析。事實(shí)上,從客戶的流覽、點(diǎn)擊與購(gòu)買等數(shù)據(jù)中可以分析出許多非常有用的信息。如:客戶真正需要的是什么?支付的難易程度和安全性直接決定著客戶是否選擇該WEB等問題。
電子商務(wù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的挑戰(zhàn)
信息周刊(Information Week)在其一份分析報(bào)告中指出,“電子商務(wù)系統(tǒng)中產(chǎn)生了大量關(guān)于客戶行為與消費(fèi)模式的有價(jià)值信息,對(duì)這些數(shù)據(jù)的綜合分析與處理為企業(yè)帶來了前所未有的商機(jī),但同時(shí)也是對(duì)現(xiàn)代數(shù)據(jù)庫(kù)系統(tǒng)的極大挑戰(zhàn)”。
我們都很清楚,從大量的網(wǎng)上交互數(shù)據(jù)中獲取業(yè)務(wù)信息,從而全面和深入了解在線客戶,這對(duì)電子商務(wù)的成功是必不可少的。但需要注意的是,網(wǎng)站本身正變得越來越復(fù)雜。許多企業(yè)的網(wǎng)站由多個(gè)分布在不同地域的服務(wù)器組成,包含了許多的應(yīng)用方案,如廣告服務(wù)器、應(yīng)用服務(wù)器、內(nèi)容管理系統(tǒng)等,為網(wǎng)站訪客提供更豐富、更動(dòng)態(tài)、更個(gè)性化的服務(wù),盡最大努力把這些訪問者轉(zhuǎn)變成自己的客戶。同時(shí),越來越多的企業(yè)把一些傳統(tǒng)業(yè)務(wù)移動(dòng)網(wǎng)站上,并把網(wǎng)站與后臺(tái)系統(tǒng)進(jìn)行連接。這樣的信息結(jié)構(gòu)將產(chǎn)生越來越多、越來越復(fù)雜的基礎(chǔ)數(shù)據(jù),對(duì)于很多企業(yè)來說,這些基礎(chǔ)數(shù)據(jù)都在呈指數(shù)級(jí)增長(zhǎng)。
隨著網(wǎng)站復(fù)雜性的增加、數(shù)據(jù)源的分離、以及迅速增長(zhǎng)的原始數(shù)據(jù)量,給許多廠商的數(shù)據(jù)倉(cāng)庫(kù)解決方案帶來了極大的挑戰(zhàn),很多系統(tǒng)無法針對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行完整、精確的分析,它們往往只是基于一些經(jīng)過匯總處理的數(shù)據(jù)提供一些統(tǒng)計(jì)報(bào)表而已,這樣的分析系統(tǒng)很難為企業(yè)帶來真正的業(yè)務(wù)價(jià)值。
另外需要注意的是,網(wǎng)站只是企業(yè)眾多渠道中的一種,客戶與企業(yè)的接觸不可能只限于WEB這樣一種方式。因此在構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)解決方案時(shí),不要孤立地只考慮網(wǎng)站上產(chǎn)生的數(shù)據(jù),還應(yīng)包括企業(yè)其它渠道以及相關(guān)的客戶信息。這些數(shù)據(jù)的引入,會(huì)進(jìn)一步增加系統(tǒng)的復(fù)雜性,同時(shí)加大了對(duì)數(shù)據(jù)庫(kù)管理系統(tǒng)的負(fù)載。
這些特點(diǎn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)平臺(tái)提出了非常高的要求,具體來說,主要有以下幾個(gè)方面:
1、 線性擴(kuò)展能力
原始數(shù)據(jù)對(duì)任何一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來說,都是最主要的負(fù)載之一。隨著數(shù)據(jù)量的增長(zhǎng),系統(tǒng)性能會(huì)逐漸下降。為了維持合理的業(yè)務(wù)查詢響應(yīng)時(shí)間,要求數(shù)據(jù)倉(cāng)庫(kù)引擎和相應(yīng)的數(shù)據(jù)庫(kù)服務(wù)器具有優(yōu)良的線性擴(kuò)展能力。一些系統(tǒng)的擴(kuò)展能力非常有限,當(dāng)數(shù)據(jù)量增長(zhǎng)到一定規(guī)模時(shí)(比如TB級(jí)以上)已經(jīng)很難滿足日常的業(yè)務(wù)分析要求,不得不將數(shù)據(jù)分離,最后建立多個(gè)小規(guī)模的數(shù)據(jù)集市,無法在整個(gè)企業(yè)范圍內(nèi)提供統(tǒng)一的信息視圖。
2、并行處理能力
由于客戶行為的不確定性、市場(chǎng)環(huán)境的動(dòng)態(tài)變化等諸多因素,使得數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的許多業(yè)務(wù)查詢與分析都是動(dòng)態(tài)(Ad-hoc Query)的。數(shù)據(jù)庫(kù)傳統(tǒng)的索引技術(shù)對(duì)動(dòng)態(tài)查詢和模糊查詢的幫助不大。系統(tǒng)只有具有非常好的并行處理能力,才能滿足這種復(fù)雜的、動(dòng)態(tài)的分析需求。
3、簡(jiǎn)單的系統(tǒng)管理
對(duì)于大型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用系統(tǒng)而言,如何能有效而簡(jiǎn)單地進(jìn)行系統(tǒng)管理是非常重要的。特別是當(dāng)數(shù)據(jù)量不斷擴(kuò)大時(shí),如果沒有一種有效而且簡(jiǎn)單的系統(tǒng)管理措施,那么系統(tǒng)的運(yùn)行費(fèi)用將會(huì)很高。系統(tǒng)管理包括很多方面,舉例來說,在有些數(shù)據(jù)庫(kù)系統(tǒng)中,數(shù)據(jù)庫(kù)重組就是一項(xiàng)非常繁重的系統(tǒng)管理工作。所謂數(shù)據(jù)庫(kù)重組,是指系統(tǒng)在運(yùn)行一段時(shí)間后,由于數(shù)據(jù)分配不均衡而導(dǎo)致系統(tǒng)整體性能下降。這時(shí)必須將數(shù)據(jù)庫(kù)中的數(shù)據(jù)備份出來,對(duì)整個(gè)存儲(chǔ)區(qū)域重新規(guī)劃和分區(qū),然后重新加載數(shù)據(jù)。這個(gè)過程就稱之為數(shù)據(jù)庫(kù)重組。它不僅需要經(jīng)驗(yàn)豐富的數(shù)據(jù)庫(kù)管理員,增加了系統(tǒng)的維護(hù)費(fèi)用,而且減少了系統(tǒng)的對(duì)外服務(wù)時(shí)間。
NCR電子商務(wù)動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)解決方案
長(zhǎng)期以來,NCR一直專注于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的研發(fā)與項(xiàng)目實(shí)施,已經(jīng)在全球范圍成功實(shí)施了三千多個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),其中容量在1TB以上的有三百多個(gè),是大型數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域無可爭(zhēng)辯的領(lǐng)導(dǎo)廠商。其主要特點(diǎn)是系統(tǒng)的線性擴(kuò)展能力非常強(qiáng),可以從很小規(guī)模(GB級(jí))線性擴(kuò)展到很大規(guī)模(TB級(jí)),目前已經(jīng)投產(chǎn)的最大數(shù)據(jù)倉(cāng)庫(kù)達(dá)170TB。另外,NCR數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)還具有非常好的復(fù)雜業(yè)務(wù)問題分析能力、動(dòng)態(tài)查詢處理能力、管理簡(jiǎn)單等特點(diǎn),因此在大型數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的應(yīng)用案例非常多。
NCR利用其數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的優(yōu)勢(shì),結(jié)合電子商務(wù)的特點(diǎn)和需求,推出了電子商務(wù)動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)解決方案(E-Business Teradata)。
整個(gè)解決方案由以下幾個(gè)部分組成:
1、 ETL
ETL是數(shù)據(jù)抽取(Extraction)、轉(zhuǎn)換(Transformation)和加載(Loading)的縮寫。利用ETL流程,把各種相關(guān)的源數(shù)據(jù)按照數(shù)據(jù)模型的定義和描述加載到數(shù)據(jù)倉(cāng)庫(kù),從而形成統(tǒng)一的信息視圖。在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí),由于外部數(shù)據(jù)源的分離和復(fù)雜性,ETL一般都比較耗時(shí)耗力,有時(shí)會(huì)占到總個(gè)系統(tǒng)實(shí)施工作量的70%以上。
來自于WEB網(wǎng)站的數(shù)據(jù)源主要包括:
■ Cookie信息
■ 廣告服務(wù)器數(shù)據(jù)庫(kù) (Ad Server Database)
■ 注冊(cè)數(shù)據(jù)庫(kù) (Registration Database)
■ WEB日志(WEB Logs)
■ 商業(yè)應(yīng)用數(shù)據(jù)庫(kù) (Commerce Application Database)
WEB數(shù)據(jù)在進(jìn)行ETL時(shí)需要進(jìn)行許多分析與轉(zhuǎn)換處理,如:
■ 對(duì)Cookie信息進(jìn)行分解,以便跟蹤重復(fù)訪客
■ 分析并過濾網(wǎng)絡(luò)黑客信息(包括Spider, Crawler, Robot等)
■ 根據(jù)不同訪問類型進(jìn)行整理與排序(如注冊(cè)用戶、匿名用戶等)
■ 企業(yè)不同WEB服務(wù)器中WEB日志的關(guān)聯(lián)分析
■ 不同格式WEB日志的關(guān)聯(lián)分析(IIS,Apache等)
2、 E-LDM
邏輯數(shù)據(jù)模型(LDM)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中非常重要的一個(gè)部分,它描述了各種數(shù)據(jù)實(shí)體及其相互之間的業(yè)務(wù)關(guān)系。數(shù)據(jù)倉(cāng)庫(kù)中的邏輯數(shù)據(jù)模型是按照主題來設(shè)計(jì)的。NCR的E-LDM是專門針對(duì)電子商務(wù)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用而設(shè)計(jì)的,它有機(jī)地整合了來自WEB的在線數(shù)據(jù)以及其它與客戶相關(guān)的離線數(shù)據(jù)。
3、Teradata動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù) (Teradata Active Data Warehouse)
Teradata動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)線性可擴(kuò)展的、具有優(yōu)良的業(yè)務(wù)分析處理性能的決策支持系統(tǒng)。著名的評(píng)估機(jī)構(gòu)Gartner Group從1999年推出應(yīng)用服務(wù)評(píng)估模型ASEM (Application Server Evaluation Model),用來評(píng)估各家供應(yīng)商所提供解決方案分別在OLTP與數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的綜合性能。NCR的動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)解決方案已經(jīng)連續(xù)四年在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域被評(píng)為總分第一名。
Teradata動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)解決方案的主要特點(diǎn)是:
■ 線性可擴(kuò)展能力,可以從很小的GB級(jí)數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展到大規(guī)模的TB級(jí)數(shù)據(jù)倉(cāng)庫(kù)
■ 優(yōu)良的并行處理能力與復(fù)雜業(yè)務(wù)分析處理能力
■ 系統(tǒng)管理簡(jiǎn)單,降低了整體擁有成本TCO(Total Cost Ownership)
■ 提供標(biāo)準(zhǔn)接口,可以方便地與第三方應(yīng)用工具集成
4、 前端應(yīng)用
前端應(yīng)用主要分成以下四個(gè)部分:
■ Teradata E-Business Analytics for Customers:針對(duì)客戶的各種交易與事件,提供相關(guān)的分析報(bào)表。分析內(nèi)容主要分成:客戶利潤(rùn)貢獻(xiàn)度(Profitability)、客戶輪廓分析(Profiling)、客戶忠誠(chéng)度(Loyalty)、客戶獲取(Acquisition)。
■ Teradata E-Business Analytics for Campaigns:對(duì)于各種促銷活動(dòng)(Campaign)及其行銷結(jié)果進(jìn)行分析,包括:促銷前活動(dòng)與結(jié)果(Pre-Campaign activity and results)、促銷后活動(dòng)與結(jié)果(Post-Campaign activity and results)、并發(fā)的促銷活動(dòng)與結(jié)果(Concurrent Campaign activity and results)。
■ Teradata E-Business Analytics for Web Sites:主要針對(duì)WEB網(wǎng)站的各種活動(dòng)與事件進(jìn)行分析,包括:網(wǎng)絡(luò)流量(Traffic)、訪問引用與連接(Referral)、客戶(Customers)。
■ Teradata E-Business Analytics for Advertising:對(duì)于網(wǎng)站廣告的效果進(jìn)行分析,分析內(nèi)容包括:網(wǎng)絡(luò)廣告容量(Ad Network Capacity Analysis)、廣告效果分析(Ad Performance Analysis)、廣告發(fā)行者分析(Pub)。
小結(jié)
與早幾年相比,現(xiàn)在的企業(yè)已經(jīng)把WEB完全集成到其業(yè)務(wù)基礎(chǔ)設(shè)施中,WEB已經(jīng)不再是簡(jiǎn)單的產(chǎn)品宣傳與銷售渠道,而是企業(yè)信息與客戶關(guān)系的門戶。利用WEB,可以為企業(yè)提供7X24的商業(yè)環(huán)境。引入基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的商業(yè)智能解決方案后,客戶對(duì)其網(wǎng)站的每一次訪問,都是企業(yè)加強(qiáng)客戶關(guān)系、影響客戶購(gòu)買行為、增強(qiáng)企業(yè)品牌與形象的一次機(jī)會(huì)。
摘自《通信市場(chǎng)》