本報(bào)記者 楊清清 北京報(bào)道
導(dǎo)讀
“深度森林模型”理論的最大貢獻(xiàn)可能在于,提出了一種有別于深度神經(jīng)網(wǎng)絡(luò)的深度結(jié)構(gòu),從而打破了業(yè)界對(duì)神經(jīng)網(wǎng)絡(luò)的迷信,為研究者提供了一個(gè)新的思路!
作為本輪人工智能熱潮的關(guān)鍵技術(shù),機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)受到了熱捧。一時(shí)間,人人嘴上掛著深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等詞匯,似乎不談這一話題,便與智能時(shí)代脫節(jié)。
然而,無(wú)論開(kāi)發(fā)者或科技企業(yè),對(duì)深度學(xué)習(xí)恐怕存在一定誤解!叭绻麊(wèn)一下‘什么是深度學(xué)習(xí)’,絕大多數(shù)人的答案都會(huì)是:深度學(xué)習(xí)就是深度神經(jīng)網(wǎng)絡(luò),甚至認(rèn)為‘深度學(xué)習(xí)’就是‘深度神經(jīng)網(wǎng)絡(luò)’的同義詞!痹2018英特爾人工智能大會(huì)上,南京大學(xué)計(jì)算機(jī)系主任、人工智能學(xué)院院長(zhǎng)周志華直言現(xiàn)狀。
這一觀念其實(shí)是片面的。事實(shí)上,當(dāng)前深度學(xué)習(xí)主流的深度神經(jīng)網(wǎng)絡(luò)模型本身,也存在著諸多問(wèn)題!俺詳(shù)據(jù),吃機(jī)器,對(duì)開(kāi)發(fā)者門(mén)檻要求高!碑(dāng)談及當(dāng)前模型痛點(diǎn)時(shí),一位深度學(xué)習(xí)領(lǐng)域相關(guān)開(kāi)發(fā)者向21世紀(jì)經(jīng)濟(jì)報(bào)道記者直言。另一位開(kāi)發(fā)者則告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者,深度神經(jīng)網(wǎng)絡(luò)模型的效果穩(wěn)定性也可能不如預(yù)期。
“Kaggle競(jìng)賽中有各種各樣的任務(wù),但在圖像、視頻、語(yǔ)音之外的很多任務(wù)上,比如訂機(jī)票、訂旅館之類,還是傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)(如隨機(jī)森林或XGBoost)表現(xiàn)更好,尤其是涉及符號(hào)建模、離散建模、混合建模等問(wèn)題!敝苤救A表示,“機(jī)器學(xué)習(xí)界早就很清楚‘沒(méi)有免費(fèi)的午餐’,也即任何一個(gè)模型可能只適用于一部分的任務(wù),而另外一些任務(wù)是不適用的!
這也就意味著,除深度神經(jīng)網(wǎng)絡(luò)模型之外,當(dāng)前企學(xué)研界還有必要探索深度學(xué)習(xí)新的可能性。
痛點(diǎn)頻頻
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)技術(shù)分支。與機(jī)器學(xué)習(xí)其他技術(shù)流派所區(qū)別的是,當(dāng)前以深度神經(jīng)網(wǎng)絡(luò)模型為代表的深度學(xué)習(xí)模型算法中,擁有許多層次,從而構(gòu)成“深度”。
與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)具有其優(yōu)勢(shì)!叭绻詸M軸為數(shù)據(jù)量,縱軸為模型有效性來(lái)看的話,傳統(tǒng)機(jī)器學(xué)習(xí)模型隨著數(shù)據(jù)量的增長(zhǎng)而效果趨于平緩,深度神經(jīng)網(wǎng)絡(luò)模型則隨著數(shù)據(jù)增長(zhǎng)形成更高的有效性!庇⑻貭柛呒(jí)首席工程師、大數(shù)據(jù)技術(shù)全球CTO戴金權(quán)告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者。
之所以模型層級(jí)或說(shuō)“深度”能夠在近年來(lái)取得突破,源于神經(jīng)網(wǎng)絡(luò)中基本計(jì)算單元激活函數(shù)的連續(xù)可微性,導(dǎo)致梯度更加易于計(jì)算,而基于對(duì)梯度的調(diào)整,便可使用BP算法逐層訓(xùn)練出整個(gè)模型。
“2006年以前,人們不知道怎么訓(xùn)練出5層以上的神經(jīng)網(wǎng)絡(luò),根本原因就是層數(shù)高了之后,使用BP算法的梯度就會(huì)消失,無(wú)法繼續(xù)學(xué)習(xí)!敝苤救A介紹道,“后來(lái)Geoffrey Hinton做了很重要的工作,通過(guò)逐層訓(xùn)練來(lái)緩解梯度消失,才使得深層模型能夠被訓(xùn)練出來(lái)!
然而,正是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)模型是一個(gè)層級(jí)多、參數(shù)多的巨大系統(tǒng),因此便存在海量的調(diào)參需求與相當(dāng)?shù)恼{(diào)參計(jì)算!吧踔劣行┘夹g(shù)工程師一天下來(lái),其他的什么都沒(méi)做,只是在調(diào)整參數(shù),這是一個(gè)很常見(jiàn)的情況!鼻笆鲩_(kāi)發(fā)者向21世紀(jì)經(jīng)濟(jì)報(bào)道記者感慨道。
不僅是超量參數(shù)帶來(lái)了調(diào)參難,隨之也形成一系列問(wèn)題!氨热,在做跨任務(wù)(例如從圖像到語(yǔ)音)的時(shí)候,相關(guān)的調(diào)參經(jīng)驗(yàn)基本沒(méi)有借鑒作用,經(jīng)驗(yàn)很難共享,”周志華表示。同時(shí),結(jié)果的可重復(fù)性也非常難,“整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域,深度學(xué)習(xí)的可重復(fù)性是最弱的。哪怕同樣的數(shù)據(jù)和算法,只要參數(shù)設(shè)置不同,結(jié)果就不一樣。”
此外,深度神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度必須是事前指定的,然后才能用BP算法去加以訓(xùn)練。但這個(gè)過(guò)程中存在悖論:在沒(méi)有解決任務(wù)之前,如何預(yù)先判定其復(fù)雜度?“所以實(shí)際上大家通常都是設(shè)置更大的復(fù)雜度!敝苤救A表示。
目前這一模型還存在許多別的問(wèn)題,比如理論分析很困難,需要極大數(shù)據(jù),黑箱模型等等。甚至有開(kāi)發(fā)者向記者坦言,神經(jīng)網(wǎng)絡(luò)模型在有些領(lǐng)域應(yīng)用很好,但在更多的領(lǐng)域,采用這一模型的效果不穩(wěn)定,“如果樣本數(shù)據(jù)量足夠大,這一模型的準(zhǔn)確率是很好的,但通常公司并沒(méi)有那么多數(shù)據(jù),計(jì)算也費(fèi)勁!
新的路徑?
既然深度神經(jīng)網(wǎng)絡(luò)模型存在痛點(diǎn),那么,在對(duì)其進(jìn)行優(yōu)化研究的同時(shí),也不得不令人思考:是否存在其他深度學(xué)習(xí)模型的可能性?
這就涉及到深度學(xué)習(xí)的本質(zhì)問(wèn)題。事實(shí)上,深度神經(jīng)網(wǎng)絡(luò)的最重要的是特征學(xué)習(xí)(表示學(xué)習(xí)),即計(jì)算機(jī)能夠自行學(xué)習(xí)原始數(shù)據(jù)的特征、提取特征并表達(dá)出來(lái),而這背后的核心是逐層處理。“與傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)相比,深度學(xué)習(xí)抽象級(jí)別不同,深度學(xué)習(xí)可能擁有很高級(jí)別的抽象!鼻笆鲩_(kāi)發(fā)者向21世紀(jì)經(jīng)濟(jì)報(bào)道記者解釋道,“計(jì)算出特征之后還會(huì)繼續(xù)計(jì)算特征的特征,最終放到模型里!
另一個(gè)特質(zhì)在于特征的內(nèi)部轉(zhuǎn)換。“例如,決策樹(shù)也是一種逐層處理,但達(dá)不到深度神經(jīng)網(wǎng)絡(luò)的效果,就在于它的復(fù)雜度不夠,同時(shí)始終在同一個(gè)特征空間下進(jìn)行,中間沒(méi)有進(jìn)行任何的特征變化!敝苤救A指出。
此外還需要保證充分的模型復(fù)雜度!爸挥性黾幽P蛷(fù)雜度,學(xué)習(xí)能力才可能得以提升!敝苤救A指出,“逐層加工、特征內(nèi)部變換、充分模型復(fù)雜度,滿足這三條的深度學(xué)習(xí)模型,便能夠取得成功!
就此,周志華嘗試提出深度神經(jīng)網(wǎng)絡(luò)模型之外的方法:深度森林模型。據(jù)介紹,該模型是一個(gè)基于樹(shù)模型的方法,主要借用了集成學(xué)習(xí)中的想法!霸谠S多不同任務(wù)上,它的模型所得結(jié)果可以說(shuō)與深度神經(jīng)網(wǎng)絡(luò)高度接近。特別是在跨任務(wù)中,它的表現(xiàn)非常好,可以用同樣一套參數(shù),不再逐任務(wù)調(diào)參!敝苤救A指出。
“深度神經(jīng)網(wǎng)絡(luò)的底層是以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),進(jìn)而擴(kuò)展層級(jí)深度,深度森林也是類似的概念。”一位南京大學(xué)相關(guān)研究人士向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,“在深度神經(jīng)網(wǎng)絡(luò)模型中,堆疊了大量神經(jīng)元,而深度森林里,每一層神經(jīng)元的位置變?yōu)樯。?shù)據(jù)樣本通過(guò)每個(gè)森林得到一個(gè)預(yù)測(cè)結(jié)果后,將結(jié)果作為下一層的輸入!
這樣做的好處是,每經(jīng)過(guò)一層“森林”,機(jī)器都會(huì)自動(dòng)判斷模型是否收斂,一旦達(dá)到正確性要求,模型就不會(huì)繼續(xù)計(jì)算,“所以模型是可控的!鼻笆鲅芯咳耸肯蛴浾邚(qiáng)調(diào),“深度神經(jīng)網(wǎng)絡(luò)則是必須把層級(jí)定好,然后利用算法求梯度。深度森林不需要優(yōu)先制定層級(jí),走了一定層級(jí)之后看驗(yàn)證效果,好的話就不用往后走了!币虼耍鼘(duì)計(jì)算資源的要求也不大,“在CPU上就可以跑。”
當(dāng)然,作為一個(gè)最新提出的模型,深度森林還在接受各方的討論!熬退惴ū旧矶,雖然在訓(xùn)練效率、可解釋性方面優(yōu)于神經(jīng)網(wǎng)絡(luò),但在超大數(shù)據(jù)下未必能達(dá)到或者超過(guò)深度學(xué)習(xí)中的CNN(卷積神經(jīng)網(wǎng)絡(luò))!币晃粯I(yè)內(nèi)人士向21世紀(jì)經(jīng)濟(jì)報(bào)道記者直言,“不過(guò),這一理論的最大貢獻(xiàn)可能在于,提出了一種有別于深度神經(jīng)網(wǎng)絡(luò)的深度結(jié)構(gòu),從而打破了業(yè)界對(duì)神經(jīng)網(wǎng)絡(luò)的迷信,為研究者提供了一個(gè)新的思路!保ň庉嫞簭垈ベt)