[環(huán)球網(wǎng)科技 記者 樊俊卿]七夕將至,你是否收到過電商店鋪推送的打折促銷短信?平時是否經(jīng)常收到理財、貸款、購房等信息?如果你是蘋果用戶,那你是否有過半夜收到iMessage推送賭場、假貨、股票以及色情信息的經(jīng)歷?
商家給安卓用戶推送廣告信息需要通過移動、聯(lián)通等運營商,運營商會攔截掉一些非法信息,而針對蘋果用戶,商家甚至不法分子則可利用iMessage渠道通過互聯(lián)網(wǎng)直接向用戶推送垃圾信息,目前蘋果公司尚未采取有效的篩選、攔截等手段。
近日有外媒曝光稱,蘋果官方發(fā)布聲明,表示正在探索更先進的機器學(xué)習(xí)模型識別,過濾垃圾信息。
作為人工智能的核心技術(shù),機器學(xué)習(xí)是計算機模擬人類思考方式的一種學(xué)習(xí)行為,它讓計算機變得“聰明伶俐”!盎跈C器學(xué)習(xí)的垃圾信息過濾技術(shù)實際上是一個二元分類過程,機器學(xué)習(xí)模型需回答‘是’或‘不是’,以便將垃圾文本從大量信息中分離出來!北本┱Z言大學(xué)大數(shù)據(jù)與語言教育研究所所長荀恩東教授表示,“首先應(yīng)準(zhǔn)備人工標(biāo)注的數(shù)據(jù),進而構(gòu)建機器學(xué)習(xí)參數(shù)化模型,最后對其訓(xùn)練、測試,直至模型應(yīng)用,解決實際問題!
“目前市場上識別垃圾郵件、短信的機器學(xué)習(xí)模型絕大部分采用的是針對文本顯式特征的分析和提取。”荀恩東解釋,所謂“顯式”特征,是指垃圾信息的關(guān)鍵詞、表達形式、特殊符號、異體字、敏感詞語表達方式等“外在”特征。將這些多元、離散的特征元素匯總,便可構(gòu)成顯式特征列表,進而構(gòu)建模型對垃圾信息進行甄別。
“這種分類方式效率較高、成本較低、所依賴數(shù)據(jù)較少,但也存在適應(yīng)性差,識別精度不高等不足之處!避鞫鳀|指出,如果垃圾信息發(fā)送方掌握了用戶攔截系統(tǒng)的顯式特征列表,便可對垃圾信息的敏感詞匯作出相應(yīng)調(diào)整,變換表達形式,從而有效規(guī)避攔截系統(tǒng)。因此分類器需要實時動態(tài)更新顯式特征列表,即便如此,該列表元素數(shù)量也十分有限,導(dǎo)致分類器過濾效果不佳,精確度不高。
基于顯式特征的分類方式“先天不足”,蘋果公司有可能將目光投向隱式特征分類,即深度學(xué)習(xí)模型。荀恩東表示,深度學(xué)習(xí)模型可對海量數(shù)據(jù)的信息進行深度挖掘,從信息的語義和內(nèi)容上對垃圾信息進行甄別。也就是說,同樣一條推銷短信,深度學(xué)習(xí)模型基于龐大的數(shù)據(jù)庫,可分析出它的多種表達方式,從而做出更加準(zhǔn)確的判斷,僅靠改變文字形式無法逃脫深度學(xué)習(xí)模型的“火眼金睛”。深度學(xué)習(xí)模型省去了前期建立大量顯示特征列表的工作,只需標(biāo)注垃圾、非垃圾信息即可,不僅效率提高,識別精度也得到很大提升。
基于深度學(xué)習(xí)的垃圾信息過濾技術(shù)目前也面臨諸多技術(shù)難點。復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院張軍平教授表示,雖然有大數(shù)據(jù)支撐,深度學(xué)習(xí)模型在很多方面還是無法像人一樣有效分析和理解信息中的內(nèi)容。例如,個別漢字的順序顛倒不一定能影響閱讀,然而深度學(xué)習(xí)模型并沒有人腦這樣“聰明”。另外,組合爆炸問題也是難點之一。垃圾信息涉及領(lǐng)域廣泛,形式變化多端,大數(shù)據(jù)深度學(xué)習(xí)模型可能對已有的垃圾信息有效分類,但面對新出現(xiàn)的垃圾信息可能就會“蒙圈”。
“這需要借助類似長短時記憶網(wǎng)絡(luò)或更新的一些技術(shù),對深度學(xué)習(xí)模型進行定期更新! 張軍平認(rèn)為,還可以考慮自然語言處理中的一些句與句的關(guān)系,進一步完善深度學(xué)習(xí)算法,從而改善其預(yù)測、分類能力。
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書》
2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21》
3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書》
4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》》
5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5G NTN技術(shù)白皮書》
6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解》
7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書》
8、回復(fù)“5GX3”免費領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1》