2017年5月25日,由中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)、人民郵電出版社、中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)主辦, 信通傳媒·《大數(shù)據(jù)》承辦的“第二屆大數(shù)據(jù)科學(xué)與工程國(guó)際會(huì)議”在貴陽(yáng)召開(kāi)。中國(guó)科學(xué)院院士徐宗本發(fā)表題為《大數(shù)據(jù)分析的基本科學(xué)問(wèn)題與技術(shù)圖譜》的演講,徐宗本表示,大數(shù)據(jù)分析核心技術(shù)的形勢(shì)是大數(shù)據(jù)算法。
預(yù)計(jì)在未來(lái)很長(zhǎng)時(shí)間,解讀各自領(lǐng)域的數(shù)據(jù)是一個(gè)基本的科學(xué)活動(dòng),這是一個(gè)必然。但是分析大數(shù)據(jù)和處理大數(shù)據(jù)并不簡(jiǎn)單。
首先是多學(xué)科研究,不要以為大數(shù)據(jù)就是單純的某一個(gè)領(lǐng)域。大體上說(shuō),數(shù)據(jù)獲取、數(shù)據(jù)管理本身,包括共享、隱私保護(hù)等等方面以及共贏設(shè)施跟不上都不能解決實(shí)際問(wèn)題;第二是分析,僅僅是計(jì)算機(jī)的平臺(tái)儲(chǔ)存、調(diào)用和處理還不夠滿足需求;第三是數(shù)據(jù)存下來(lái)分析很重要;第四是真正大數(shù)據(jù)產(chǎn)生價(jià)值都需要與其他領(lǐng)域結(jié)合。
徐宗本表示,做大數(shù)據(jù)一定是數(shù)據(jù)為基礎(chǔ),平臺(tái)起支撐,分析為核心,產(chǎn)生是王道。很多人認(rèn)為大數(shù)據(jù)是一個(gè)成熟的技術(shù),然而現(xiàn)在處理目標(biāo),分析目標(biāo)和過(guò)去不一樣了,人們的要求更多,更多地考慮智能決策。在這個(gè)過(guò)程當(dāng)中最根本的挑戰(zhàn),就是傳統(tǒng)的分析數(shù)據(jù)的基本方法論不太適用。
其次,我們不得不面對(duì)的技術(shù)問(wèn)題,第一個(gè)問(wèn)題是分析基礎(chǔ);第二個(gè)問(wèn)題是,計(jì)算結(jié)果要調(diào)用存儲(chǔ),適合與計(jì)算密集結(jié)合。大數(shù)據(jù)要反復(fù)的用,這個(gè)叫數(shù)據(jù)密集型。數(shù)據(jù)密集型和計(jì)算密集型的共存,這是一個(gè)基本的要求,因此我們注意到要有新的架構(gòu)出現(xiàn)以解決此類問(wèn)題;第三個(gè)問(wèn)題是,加工變以后,用什么樣的語(yǔ)言、體系、規(guī)定、組織他的流程。第四個(gè)問(wèn)題,從宏觀角度來(lái)講是原始大數(shù)據(jù)的突變問(wèn)題。
大數(shù)據(jù)分析技術(shù),到底什么是核心技術(shù)呢?一類就是處理技術(shù),一類叫分析技術(shù)。分析技術(shù)的基礎(chǔ)是以模型為基礎(chǔ),以反復(fù)迭代為特征,處理則以邏輯為基礎(chǔ)。
徐宗本指出,大數(shù)據(jù)分析核心技術(shù)的形勢(shì)是大數(shù)據(jù)算法。算法族知道以后就是深度網(wǎng)絡(luò),通過(guò)一層一層展開(kāi)以后就形成了這么一個(gè)網(wǎng)。這個(gè)網(wǎng)絡(luò)同轉(zhuǎn)基因神經(jīng)網(wǎng)絡(luò)相比沒(méi)有任何的差距。比如,現(xiàn)在有深度學(xué)習(xí)的文章如果不是最好的就不可能拿出來(lái),這是真正的解決。
然而如何把一個(gè)模糊的東西變得清晰首先需要建立模型族——模糊的圖象是清晰的圖象經(jīng)過(guò)物理破壞產(chǎn)生的,F(xiàn)在根據(jù)它可以研究數(shù)學(xué),找出一個(gè)方法族,再展開(kāi)研究數(shù)量性,這就是一個(gè)深度學(xué)習(xí)的過(guò)程。
最后,徐宗本總結(jié)到,大數(shù)據(jù)基本的挑戰(zhàn),一個(gè)是分析基礎(chǔ),一個(gè)是計(jì)算技術(shù),一個(gè)是計(jì)算判定。而這也將帶來(lái)研究重心計(jì)算算法和核心算法的研究。