▎OpenAI聯(lián)合創(chuàng)始人、首席科學家Ilya Sutskever獨家講述,他的最新研究方向,就是“使這些模型更加可靠、可控,讓它們從教材數(shù)據(jù)中更快地學習,減少指導。讓它們不會出現(xiàn)幻覺!
鈦媒體注:自OpenAI在2019年首次發(fā)布GPT-2大模型以來,我們就一直保持深度關注與聯(lián)系,2022年12月初首款應用ChatGPT發(fā)布后,鈦媒體也多次組織和參與了相關討論。最近幾個月,關于AI與大語言模型幾乎每天都有爭論,熱度不減。但OpenAI對于GPT新一代大模型的研發(fā)進展并未停止。
日前,鈦媒體特約作者和研究員,“Eye on AI”播主Craig Smith于日前GPT-4發(fā)布之際,走進OpenAI并與OpenAI聯(lián)合創(chuàng)始人&首席科學家 Ilya Stutskever進行了深入探討。
我們把Craig和Ilya Sutskever深入交談的重要內容做了一個簡略整理,中文在鈦媒體App上進行獨家發(fā)布。
OpenAI是一個非營利性的人工智能研究機構,其分支機構卻很可能將成為未來地球上最有利潤的實體之一,他們最新發(fā)布的GPT-4可以說是一個巨型系統(tǒng),這個系統(tǒng)消耗了數(shù)十億字的文本——超過一個人類可能在一生中閱讀的數(shù)量。
GPT(Generative Pre-trained Transformer的簡稱)代表“生成式預訓練大模型”,這三個重要的單詞可以幫助我們理解這個荷馬史詩般的波呂斐摩斯!按竽P汀保═ransformer)是這個巨型系統(tǒng)核心算法的名稱!邦A訓練”(Pre-trained)是指通過大量的文本語料庫進行教育,讓它理解語言的基本模式和關系——簡而言之,讓它了解世界!吧桑℅enerative)”意味著這種人工智能可以從這個基礎知識中創(chuàng)造新的思想。
在Craig與OpenAI聯(lián)合創(chuàng)始人深度聊完后,我們意識到,雖然當下,人工智能已影響了我們生活的許多方面,但GPT的出現(xiàn),是更加先進、更加強大的人工智能,我們正在進入這個未知的領域,并值得花一點時間考慮一下這意味著什么。
科技巨頭、研究者和投資者都似乎在瘋狂追求開發(fā)最先進的人工智能,馬斯克和許多人則在大聲質疑我們是否進展得太快,還有當下chatGPT可能產生的諸多社會問題,這些都是GPT自己尚沒有解決的問題,比如幻覺。
但這個問題并非完全無解,有數(shù)百個敏銳的頭腦正在考慮著反烏托邦的可能性——以及避免他們失控。未來是未知的,這種強大的新技術的影響與互聯(lián)網(wǎng)出現(xiàn)后,社交媒體的誕生一樣難以想象。會有好的,也會有壞的,但未來會有強大的人工智能系統(tǒng),我們的孫子輩將會有更加強大的人工智能。這是無法阻止的。
但同樣重要的是不要過度反應,不要像烏龜一樣躲避現(xiàn)在照耀著我們的明亮的陽光。在荷馬史詩《奧德賽》中,獨眼巨人波呂斐摩斯把奧德修斯和他的船員困在他的洞穴里,打算吃掉他們。但是奧德修斯設法讓這個巨人失明并逃脫了。人工智能不會吃掉我們。
Ilya Sutskever是OpenAI的聯(lián)合創(chuàng)始人和首席科學家,是大型語言模型GPT-4和其公共后代ChatGPT的主要創(chuàng)造者之一,我認為毫不夸張地說,他正在改變世界。
這也不是Ilya第一次改變世界了。他是AlexNet的主要推動力量,這是一個卷積神經(jīng)網(wǎng)絡,其驚人的性能在2012年震驚了科學界,引發(fā)了深度學習革命,也改變了曾經(jīng)人們對人工智能的絕望,改變了大家曾經(jīng)更深蒂固的“計算機不能學習”的認識。曾經(jīng)計算科學的局限性,今天早已不復存在,而今天GPT的局限性,Ilya Sutskeve本人同樣也沒有那么悲觀。
CRAIG:Ilya,我知道你出生在俄羅斯。你是因為對計算機科學感興趣還是其他原因,比如神經(jīng)科學,才進入這個領域的呢?
ILYA:確實,我出生在俄羅斯。我在以色列長大,然后作為一個少年,我的家人移民到了加拿大。我父母說我從小就對人工智能感興趣。我也對意識非常感興趣,它讓我感到非常不安,我很好奇什么可以幫助我更好地理解它。
我17歲時就開始和Geoff Hinton(鈦媒體App編者注:“深度學習”三巨頭之一,有著AI教父之稱,當時是多倫多大學的教授)一起工作了。因為我們搬到了加拿大,我立刻就能加入多倫多大學。我真的很想做機器學習,因為那似乎是當時完全無法訪問的人工智能最重要的方面。
那是2003年。我們現(xiàn)在認為計算機可以學習,但是在2003年,我們認為計算機無法學習。當時人工智能的最大成就是Deep Blue(IBM旗下機構)的象棋引擎(在1997年擊敗世界冠軍加里·卡斯帕羅夫)。
但是,你有這個游戲和這個研究,以及一種簡單的方法來確定一個位置是否比另一個位置更好。它確實感覺不可能適用于現(xiàn)實世界,因為沒有學習。學習是一個巨大的謎團。我對學習非常感興趣。出于我的大運氣,Geoff Hinton是大學的教授,我們幾乎馬上就開始合作了。
那么智能是如何工作的呢?我們如何讓計算機變得更加智能?我有一個非常明確的意圖,就是為人工智能做出非常小但真正的貢獻。人工智能在當時是一個令人絕望的領域。所以,我的動機就是,我能否理解人工智能是如何工作的?還有能否為之做出貢獻?這就是我的最初動機。這幾乎是20年前的事了。
CRAIG:然后是AlexNet,我們和Geoff Hinton教授談過了,他說,正是你對卷積神經(jīng)網(wǎng)絡的突破感到興奮,才讓你申請了ImageNet比賽,Alex具備了訓練網(wǎng)絡的編碼技能。
ILYA:簡言之,我意識到,如果你在一個很大的數(shù)據(jù)集上訓練一個大的神經(jīng)網(wǎng)絡——對不起,很大,而且很深,因為當時深層部分還是新的——如果你在足夠大的數(shù)據(jù)集中訓練一個很大和很深的神經(jīng)網(wǎng)絡,它指定了人們要做的一些復雜任務,比如視覺,只要訓練神經(jīng)網(wǎng)絡,你就一定會成功。它的邏輯是非常不可簡化的,我們知道人腦可以解決這些任務,并且可以快速解決。而人類的大腦只是一個由慢速神經(jīng)元組成的神經(jīng)網(wǎng)絡。
所以,我們知道一些神經(jīng)網(wǎng)絡可以做得很好。因此,我們只需要采用一個較小但相關的神經(jīng)網(wǎng)絡,并在數(shù)據(jù)上對其進行訓練。計算機內部最好的神經(jīng)網(wǎng)絡將與我們執(zhí)行這項任務的神經(jīng)網(wǎng)絡有關。
所以,有一種觀點認為,神經(jīng)網(wǎng)絡,大型和深度神經(jīng)網(wǎng)絡可以解決這項任務。此外,我們有訓練它的工具。這是杰夫實驗室技術工作的結果。所以,你把兩者結合起來,我們可以訓練這些神經(jīng)網(wǎng)絡。它需要足夠大,這樣如果你訓練它,它就會很好地工作,而且你需要數(shù)據(jù),它可以指定解決方案。有了ImageNet,所有的成分都在那里。Alex有這些非?斓木矸e核。ImageNet有足夠大的數(shù)據(jù),有一個真正的機會做一些前所未有的事情,而且它完全成功了。
CRAIG:是的。這就是監(jiān)督學習和卷積神經(jīng)網(wǎng)絡。2017年,《注意力就是你所需要的一切》論文發(fā)表,介紹了自我注意力和transformers大模型。那么GPT項目是從什么時候開始的?有沒有關于大模型的直覺?
ILYA:是的。
ILYA:從OpenAI成立之初起,我們就在探索一個想法,即預測下一個東西就是你所需的一切。我們用當時更受限制的神經(jīng)網(wǎng)絡探索這個想法,但我們希望,如果你有一個神經(jīng)網(wǎng)絡可以預測下一個單詞,它將解決無監(jiān)督學習。所以,在GPT之前,無監(jiān)督學習被認為是機器學習的圣杯。
現(xiàn)在它已經(jīng)被完全解決,甚至沒有人談論它,但它曾是一個神秘的問題,因此我們在探索這個想法。我非常興奮,因為預測下一個單詞足夠好,將為你提供無監(jiān)督學習。
但我們的神經(jīng)網(wǎng)絡無法勝任此任務。我們使用的是遞歸神經(jīng)網(wǎng)絡。當transformers出現(xiàn)時,就在論文發(fā)表的第二天,我們立即意識到,transformers解決了遞歸神經(jīng)網(wǎng)絡的局限性,解決了學習長期依賴關系的問題。
這是一個技術問題,我們立即轉向transformers。因此,nascent的GPT項目便開始使用transformer。它開始工作得更好,你讓它變得更大,然后你繼續(xù)讓它變得更大。
這就產生了最終的GPT-3,成就了基本上是我們今天所處的位置。
CRAIG:我對它很感興趣,但我也想了解大型語言模型或大型模型的問題或缺點。目前存在的大型語言模型的限制在于它們的知識被包含在它們訓練的語言中。而大部分人類知識,我認為每個人都會同意,是非語言的。
它們的目標是滿足提示的統(tǒng)計一致性。它們沒有關于語言所關聯(lián)的現(xiàn)實的基本理解。我詢問了ChatGPT關于自己的信息。它認識到我是一名記者,曾在各種報紙工作,但它繼續(xù)講述了我從未獲得過的獎項。它讀起來非常流暢,但其中很少與底層現(xiàn)實相連。在你們未來的研究中,是否有措施來解決這個問題?
ILYA:所以,在我對你提出的問題發(fā)表直接評論之前,我想對相關一些更早期問題發(fā)表評論。
CRAIG:當然。
ILYA:我認為很難談論極限或局限性,甚至像語言模型這樣的東西。因為兩年前,人們自信地談論自己的局限性,現(xiàn)在他們完全不同了,對吧?因此,重要的是要牢記這一歷史過程。我們有多大信心相信,我們今天看到的這些限制在兩年后仍將存在?我沒有那么大信心,可能兩年后就不存在了。
關于這個問題的一部分,我想發(fā)表另一個評論,那就是這些模型只是學習統(tǒng)計規(guī)律,因此它們并不真正知道世界的本質是什么。
我的觀點與此不同。換言之,我認為學習統(tǒng)計規(guī)律比人們表面上看到的要更重要得多。我們最初不這么認為的原因是因為我們沒有——至少大多數(shù)人,那些沒有花很多時間研究神經(jīng)網(wǎng)絡的人,這些網(wǎng)絡在某種程度上是統(tǒng)計的,比如什么是統(tǒng)計模型?
預測也是一個統(tǒng)計現(xiàn)象。但是要進行預測,您需要理解生成數(shù)據(jù)的基本過程。您需要了解越來越多關于產生數(shù)據(jù)的世界的知識。
隨著我們的生成模型變得非常出色,它們將具有我所說的對世界及其許多微妙之處的驚人的理解程度。這是通過文本所呈現(xiàn)的世界。它試圖通過在互聯(lián)網(wǎng)上人類表達的文本空間上對世界進行投影來學習越來越多關于世界的知識。
但是,這些文本已經(jīng)表達了世界。我給您舉個最近的例子,我認為這個例子非常有趣和啟示性。我們都聽說過Sydney是它的化身。當用戶告訴Sydney它認為谷歌是比必應更好的搜索引擎時,我看到了這個真正有趣的交互,Sydney變得好斗和攻擊性。
如何思考這種現(xiàn)象?這意味著什么?您可以說,它只是預測人們會做什么,人們確實會這樣做,這是真的。但也許我們現(xiàn)在正在達到一個語言心理學的水平,開始利用它來理解這些神經(jīng)網(wǎng)絡的行為。
現(xiàn)在讓我們來談談這些神經(jīng)網(wǎng)絡的限制。事實上,這些神經(jīng)網(wǎng)絡有產生幻覺的傾向。這是因為語言模型非常擅長學習世界知識,但在生成良好輸出方面則略顯不足。這其中存在一些技術原因。語言模型在學習各種思想、概念、人物、過程等世界知識方面表現(xiàn)非常出色,但其輸出卻沒有達到預期的水平,或者說還有進一步提升的空間。
因此,對于像 ChatGPT 這樣的語言模型,我們引入了一種額外的強化學習訓練過程,稱為“人類反饋強化學習”。
我們可以說,在預訓練過程中,我們希望它能夠學習關于世界的一切。而在來自人類反饋的強化學習中,我們更關心輸出結果。我們說,任何時候如果輸出結果不恰當,就不要再這樣做了。每當輸出結果不合理時,就不要再這樣做了。這樣它就能夠快速學會生成良好的輸出。但這種良好的輸出水平并不在語言模型預訓練過程中出現(xiàn)。
至于幻覺,它有時會胡言亂語,這也大大限制了它們的用途。但我非常希望,通過簡單地改進后續(xù)的人類反饋強化學習步驟,我們就能夠教它不再產生幻覺。你可能會問,它真的能學會嗎?我的答案是,讓我們拭目以待吧。
CRAIG:如果ChatGPT告訴我獲得了普利策獎,但不幸的是我沒有獲得,我可以告訴它這是錯誤的,是訓練它還是創(chuàng)造一些懲罰或獎勵,以便下次我問它時,更準確。
ILYA:我們今天做事的方式是雇傭人來教我們的神經(jīng)網(wǎng)絡行為,教ChatGPT行為,F(xiàn)在,他們指定所需行為的方式,確切的方式有點不同。但事實上,你所描述的是教學的基本方式,這是正確的教學方式。
你只需要與它進行互動,它就能從你的反應中推斷出你想要的東西,當你輸出不滿意,它會推斷,哦,這不是你想要的,下次應該采取不同的做法。我認為這種方法完全有可能完全解決幻覺的問題。
CRAIG:我想和你談談Yann LeCun(Facebook 的首席人工智能科學家和另一位深度學習的早期先驅)在聯(lián)合嵌入預測架構方面的工作。他認為,語言模型可以參考它,但大型語言模型缺少的是非語言的基礎世界模型。我想聽聽你對此的看法,以及你是否已經(jīng)進行了相關的探索。
ILYA:我已經(jīng)回顧了Yann LeCun的提議,其中有很多想法,它們用不同的語言表達,與當前的范式可能有一些微小的差異,但在我看來,它們并不是很重要。
我想詳細說明一下。第一種說法是,一個系統(tǒng)需要有多模態(tài)的理解能力,而不僅僅是從文本中了解世界。我對此的評論是,多模態(tài)理解確實是可取的,因為你對世界了解得更多,對人了解得更多、對他們的狀況了解得更多。因此,系統(tǒng)將能夠更好地理解應該解決的任務,以及人們和他們想要什么。
最值得注意的是,我們在這方面已經(jīng)做了很多工作,尤其是通過兩個主要的神經(jīng)網(wǎng)絡。一個叫Clip,一個叫Dall-E。它們都朝著這個多模態(tài)的方向發(fā)展。但我也想說,我也不認為這種情況是二元的非此即彼的局面,或者如果你沒有視力,如果你不能從視覺或視頻中理解世界,那么事情就不會奏效。
我想為這個觀點辯護。我認為從圖像和圖表中學習某些事情要容易得多,但我認為你仍然可以僅從文本中學習它們,只不過需要更長的時間。舉個例子,考慮顏色的概念。
當然,你不能僅從文本中學習顏色的概念,但當你看一下嵌入時——我需要稍微解釋一下嵌入的概念。每個神經(jīng)網(wǎng)絡通過“嵌入”表示單詞、句子和概念,這些嵌入是高維向量。
我們可以查看這些高維向量,看看什么類似于什么,網(wǎng)絡是如何看待這個概念或那個概念的。因此,我們可以查看顏色的嵌入,它知道紫色比紅色更接近藍色,知道紅色比紫色更接近橙色。它只是通過文本就知道這些東西。這是如何做到的呢?
如果你有視覺,顏色之間的差異就會立刻顯現(xiàn)出來。你會立即感知它們。而對于文本,你需要更長的時間,也許你知道如何說話,已經(jīng)理解了語法、單詞和語法,只有在以后才會真正理解顏色。
所以,這就是我關于多模態(tài)性必要性的觀點:我認為它不是必要的,但肯定是有用的。我認為這是一個值得追求的方向。我只是不認為它是非此即彼的。
因此,[LeCun]的提案聲稱預測具有不確定性的高維向量是一個重大挑戰(zhàn)之一。
但我發(fā)現(xiàn)令人驚訝的是,在這篇論文中未被承認的是,當前的自回歸大模型已經(jīng)具備了這種屬性。
我來舉兩個例子。一個是,給定一本書中的一頁,預測下一頁?赡軙泻芏嗫赡艿南乱豁。這是一個非常復雜、高維的空間,但他們可以很好地處理。同樣適用于圖像。這些自回歸大模型在圖像上工作得非常完美。
例如,像OpenAI一樣,我們已經(jīng)在iGPT上工作了。我們只是拿了一個大模型,將其應用于像素上,它表現(xiàn)得非常出色,可以以非常復雜和微妙的方式生成圖像。Dall-E 1也是一樣。
因此,在我看來,論文中強調現(xiàn)有方法無法處理預測高維分布的部分,我認為它們肯定可以。
CRAIG:關于這個想法,即使用人類訓練師的隊伍來與ChatGPT或大型語言模型一起進行強化學習,就直覺而言,這似乎不是教授模型了解其語言底層現(xiàn)實的有效方法。
ILYA:我不同意問題的措辭。我認為我們的預訓練模型已經(jīng)知道了它們需要了解的關于底層現(xiàn)實的一切。它們已經(jīng)掌握了語言方面的知識,以及關于產生這種語言的世界進程的大量知識。
大型生成模型學習它們的數(shù)據(jù)——在這種情況下,是大型語言模型——是產生這些數(shù)據(jù)的真實世界進程的壓縮表示,這意味著不僅涉及人和他們的想法、感受,還涉及人們所處的狀態(tài)和彼此之間的交互作用。一個人可能處于不同的情境中。所有這些都是通過神經(jīng)網(wǎng)絡來表示并生成文本的壓縮進程的一部分。語言模型越好,生成模型就越好,保真度就越高,它就能更好地捕捉這個過程。
現(xiàn)在,正如你所描述的那樣,這些教師的確也在使用人工智能輔助。這些教師不是獨自行動的,他們正在使用我們的工具,而工具則承擔了大部分的工作。但是,你確實需要有人來監(jiān)督和審核他們的行為,因為你希望最終實現(xiàn)非常高的可靠性。
確實有很多動機使它變得盡可能高效和精確,以使得最終的語言模型行為盡可能地好。
是的,這些人類教師正在教授模型所需的行為。他們使用人工智能系統(tǒng)的方式不斷提高,因此他們自己的效率也在不斷提高。
這有點像是一種教育過程,如何在世界上表現(xiàn)良好。
我們需要進行額外的培訓,以確保模型知道幻覺永遠不可行。而這種強化學習人類教師循環(huán)或其他變體將教它。
某種東西應該會奏效。我們很快就會找到答案。
CRAIG: 你現(xiàn)在的研究方向是什么?
ILYA: 我不能詳細談論我正在從事的具體研究,但是我可以簡單地提到一些廣義的研究方向。我非常有興趣使這些模型更加可靠、可控,讓它們從教材數(shù)據(jù)中更快地學習,減少指導。讓它們不會出現(xiàn)幻覺。
CRAIG: 如果你有足夠的數(shù)據(jù)和足夠大的模型,你能否在數(shù)據(jù)上訓練模型,讓其針對一些看似無法解決的沖突得出一種讓每個人都滿意的最佳解決方案。你是否思考過這將如何幫助人類管理社會?
ILYA: 這是一個非常大的問題,因為這是一個更加未來的問題。我認為我們的模型仍有許多方面將比它們現(xiàn)在的能力更強大。
如何使用這項技術作為各種建議的來源,政府使用它的方式是不可預測的。我認為未來可能發(fā)生的一件事是,因為你有這些神經(jīng)網(wǎng)絡,它們將會如此普及,對社會產生如此巨大的影響,我們將發(fā)現(xiàn)有必要讓一個國家的公民向神經(jīng)網(wǎng)絡提供一些信息,關于他們想要事物的樣子。我可以想象這種情況發(fā)生。你可以從每個公民那里獲得更多的信息并將其聚合,具體說明我們想讓這樣的系統(tǒng)如何行動,F(xiàn)在它打開了許多問題,但這是未來可能發(fā)生的一件事。
但是什么意味著分析所有變量呢?最終會有一個選擇,你需要決定哪些變量非常重要,需要深入研究。因為我可以讀一百本書,或者我可以仔細慢慢地讀一本書,從中獲得更多的收獲。所以這方面肯定有一些元素。另外,我認為在某種程度上,全面理解一切可能是根本不可能的。我們來看一些更容易的例子。
每當有任何復雜的情況出現(xiàn)在社會中,甚至在公司中,即使是中型公司,它已經(jīng)超出了任何單個個人的理解能力。而且,如果我們以正確的方式構建我們的人工智能系統(tǒng),我認為人工智能在幾乎任何情況下都可以提供極大的幫助。