通用人工智能什么時(shí)候?qū)崿F(xiàn),自今年清北強(qiáng)強(qiáng)聯(lián)合舉辦通人工智能實(shí)驗(yàn)班之后,我國(guó)通用人工智能領(lǐng)域的研究開(kāi)始廣受大家的關(guān)注,,大家最好奇的一點(diǎn)是通用人工智能什么時(shí)候才能夠?qū)崿F(xiàn),小編收錄整理了一些信息,供大家參考,。
通用人工智能什么時(shí)候?qū)崿F(xiàn)
在 2015 年,筆者對(duì)通用人工智能何時(shí)能夠?qū)崿F(xiàn)做出了以下預(yù)測(cè):
到 2045 年,,有 10% 的可能性,。
到 2050 年,有 50% 的可能性,。
到 2070 年,,有 90% 的可能性,。
現(xiàn)在已經(jīng)是 2020 年了,筆者將預(yù)測(cè)更新為如下:
到 2035 年,,有 10% 的可能性,。
到 2045 年,有 50% 的可能性,。
到 2070 年,,有 90% 的可能性。
筆者將 90% 的可能性的年份保持不變,,但將其他一切都調(diào)得更快了?,F(xiàn)在,如果你想知道筆者為什么選擇這些特定的年份,,以及為什么筆者用 10 年而不是 5 年或 15 年來(lái)改變,,你將會(huì)失望的。因?yàn)檫@些都是筆者靠直覺(jué)進(jìn)行預(yù)測(cè)的,。重要的是為什么筆者的部分想法發(fā)生了變化——你可以在這個(gè)基礎(chǔ)上,,選擇自己的時(shí)間軸進(jìn)行調(diào)整。
讓筆者們先從簡(jiǎn)單的部分開(kāi)始,。
筆者應(yīng)該更不確定
如果說(shuō),,筆者從來(lái)沒(méi)有對(duì)機(jī)器學(xué)習(xí)的研究感到驚訝,那將是一件不可思議的怪事,。從歷史上看,,預(yù)測(cè)一個(gè)研究領(lǐng)域的發(fā)展軌跡是很難的。如果筆者從來(lái)沒(méi)感到驚訝,,筆者會(huì)認(rèn)為這是由于筆者個(gè)人沒(méi)有考慮足夠大的想法所致,。
同時(shí),當(dāng)筆者回想起過(guò)去的五年,,筆者相信筆者比平常更感到驚訝,。并不是所有的事情都朝著積極的方向發(fā)展。無(wú)監(jiān)督學(xué)習(xí)比筆者想象的要好得多,。深度強(qiáng)化學(xué)習(xí)比筆者預(yù)期的要好一些,。而遷移學(xué)習(xí)比筆者想的要慢一些。綜合起來(lái),,筆者決定擴(kuò)大結(jié)果的分配范圍,,所以,現(xiàn)在筆者把 35 年的時(shí)間分配到 10% ~ 90% 的時(shí)間間隔,,而不是 25 年,。
筆者還注意到,筆者在 2015 年的預(yù)測(cè)將 10% ~ 50% 放在 5 年的范圍內(nèi),,50% 到 90% 放在 20 年的范圍內(nèi),。通用人工智能是一個(gè)長(zhǎng)尾事件,,確實(shí)有可能永遠(yuǎn)不可行,但 5 ~ 20 的拆分顯然是不科學(xué)的,。筆者正在相應(yīng)地調(diào)整,。
現(xiàn)在,,筆者們到了最難的部分,。為什么筆者選擇將 10% 和 50% 的年份更靠近現(xiàn)在呢?
筆者沒(méi)有考慮到更好的工具
三年前,,筆者曾和一個(gè)人聊天,,他提到 通用人工智能沒(méi)有“火警警報(bào)”。筆者告訴他們,,筆者知道 Eliezer Yudkowsky 寫(xiě)了另一篇關(guān)于通用人工智能的文章,,筆者還注意到 Facebook 的朋友們分享了這篇文章,但筆者還沒(méi)有來(lái)得及閱讀,。他們將這篇文章總結(jié)為:“通用人工智能何時(shí)發(fā)生,,永遠(yuǎn)不會(huì)很明顯。即使是在它發(fā)生前幾年,,人們也會(huì)認(rèn)為通用人工智能還很遙遠(yuǎn),。等到大家都認(rèn)識(shí)到人工智能安全是世界上最重要的問(wèn)題時(shí),就已經(jīng)太晚了,。
筆者的反應(yīng)是,,“好吧,這和筆者從 Facebook 的時(shí)間軸上得到的信息相符,。就在費(fèi)米參加曼哈頓計(jì)劃前幾年,,筆者就已經(jīng)知道 費(fèi)米預(yù)測(cè)核連鎖反應(yīng)很可能是不可能 的。最近,,Rémi Coulom 表示,,超人類的圍棋程序大約還有 10 年時(shí)間,一年后才出現(xiàn) 最初的可能跡象,,兩年后,,AlphaGo 正式問(wèn)世。筆者也已經(jīng)知道人工智能安全的 常識(shí)>) 觀點(diǎn),。”筆者覺(jué)得這篇文章不值得花時(shí)間去閱讀,。
(如果你還沒(méi)有聽(tīng)過(guò)這些常識(shí)的爭(zhēng)論,下面是簡(jiǎn)短版:大多人認(rèn)為人工智能安全是值得的,,即使沒(méi)有人公開(kāi)這么說(shuō),,因?yàn)槊總€(gè)人都可能擔(dān)心,如果他們主張采取激烈行動(dòng),,其他人就會(huì)說(shuō)他們瘋了,。即使每個(gè)人都同意,,這種情況也可能發(fā)生,因?yàn)樗麄儾恢烂總€(gè)人都同意,。)
幾年后,,出于無(wú)聊,筆者重新閱讀了這篇文章,,現(xiàn)在筆者得向 Facebook 上那些只分享歷史事件和常識(shí)的好友們抱怨了,。盡管那篇帖子的總結(jié)是正確的,但是,,筆者發(fā)現(xiàn)有用的想法都在總結(jié)之外,。筆者是那么信任你,你就不能把泡沫過(guò)濾掉嗎,?你怎么可以這樣讓筆者失望呢,?
那篇“火警警報(bào)”的帖子中的一部分提出了一些假設(shè),解釋了為什么人們聲稱通用人工智能是不可能的,。其中一個(gè)假設(shè)是,,研究人員過(guò)于關(guān)注使用現(xiàn)有工具進(jìn)行工作的難度,并將這種難度推斷到未來(lái),,得出結(jié)論:筆者們永遠(yuǎn)不可能創(chuàng)造出通用人工智能,,因?yàn)楝F(xiàn)有的工具還不夠好。這是個(gè)槽糕的論點(diǎn),,因?yàn)槟愕耐茢嘁残枰紤]到研究工具也隨著時(shí)間的推移而改進(jìn),。
“工具”的意思有點(diǎn)模糊。一個(gè)明顯的例子是筆者們的編碼庫(kù),。在過(guò)去,,人們用 Caffe、MATLAB 和 Theano 來(lái)編寫(xiě)神經(jīng)網(wǎng)絡(luò),,而現(xiàn)在主要是 TensorFlow 和 PyTorch,。一個(gè)不太明顯的例子是用于計(jì)算機(jī)視覺(jué)的特征工程。最后一次有人談?wù)撚?jì)算機(jī)視覺(jué)的 SIFT 特征 是什么時(shí)候,?那是好多年以前,,它們現(xiàn)在已經(jīng)過(guò)時(shí)了。但特征工程并沒(méi)有消失,,只是變成了 卷積神經(jīng)網(wǎng)絡(luò) 的架構(gòu)調(diào)優(yōu),。對(duì)于計(jì)算機(jī)視覺(jué)研究者來(lái)說(shuō),SIFT 特征是老舊的工具,,卷積神經(jīng)網(wǎng)絡(luò)則是嶄新的工具,,而計(jì)算機(jī)視覺(jué)是被更好的工具所強(qiáng)化的應(yīng)用。
然而對(duì)筆者來(lái)說(shuō),筆者并不是計(jì)算機(jī)視覺(jué)專家,。筆者認(rèn)為用于控制的機(jī)器學(xué)習(xí)是一個(gè)更有趣的問(wèn)題,。但是,在基于圖像的環(huán)境中,,你必須進(jìn)行計(jì)算機(jī)視覺(jué)來(lái)進(jìn)行控制,,如果你想處理現(xiàn)實(shí)世界,基于圖像的輸入是最好的選擇,。所以對(duì)筆者來(lái)說(shuō),,計(jì)算機(jī)視覺(jué)是工具,機(jī)器人是應(yīng)用,,計(jì)算機(jī)視覺(jué)的進(jìn)步推動(dòng)了許多有前途的機(jī)器人學(xué)習(xí)成果,。
[AlexNet](https://en.wikipedia.org/wiki/AlexNet) 自動(dòng)學(xué)習(xí)的過(guò)濾器,,而 AlexNet 本身已被更好的工具 [ResNet](https://en.wikipedia.org/wiki/Residual_neural_network) 淘汰了,。
筆者是研究工具的大力支持者。筆者認(rèn)為就平均而言,,人們低估了它們的影響力,。因此,在閱讀了人們不能正確預(yù)測(cè)工具改進(jìn)的假設(shè)之后,,筆者進(jìn)行了思考,,認(rèn)為自己也沒(méi)有正確地解釋它。那應(yīng)該被砍掉幾年,。
在機(jī)器學(xué)習(xí)更多的經(jīng)驗(yàn)方面,,進(jìn)展的明顯組成部分是你的想法和計(jì)算預(yù)算,但也有一些不那么明顯的,,比如,,你的編碼和調(diào)試技能,以及你使用計(jì)算機(jī)的能力,。如果代碼沒(méi)有使用所有可用的處理器,,那么每臺(tái)計(jì)算機(jī)有多少個(gè)處理器就并不重要。有很多令人驚訝的機(jī)器學(xué)習(xí)應(yīng)用,,主要的增值來(lái)自己于更好的數(shù)據(jù)管理和數(shù)據(jù)匯總,,因?yàn)檫@些工具可以騰出決策時(shí)間來(lái)做其他事情。
一般來(lái)說(shuō),,每個(gè)人的研究工具都有一定的缺陷,。研究是為了做一些新的事情,自然也就會(huì)發(fā)現(xiàn)新的問(wèn)題,,為了解決三個(gè)月前還不存在的問(wèn)題,,人們就做出了完美的工具,這不太可能,。因此,,你現(xiàn)在的研究工具總是會(huì)讓人感覺(jué)不太好用,,你就不應(yīng)該用它來(lái)爭(zhēng)論什么時(shí)間軸的問(wèn)題。
研究棧有很多部分,,整個(gè)棧中有不斷的改進(jìn),,而且這些改進(jìn)中的大多數(shù)都有乘法效應(yīng)。乘數(shù)因素可以非常強(qiáng)大,。一個(gè)簡(jiǎn)單的例子是,,要獲得 10 倍的更好結(jié)果,你可以通過(guò)范式轉(zhuǎn)換將一件事改進(jìn) 10 倍,,或者可以將 10 件不同的事情 改進(jìn) 1.26 倍,,它們加起來(lái)可以得到 10 倍的總體改進(jìn)。后者同樣具有變革性,,但可能要容易得多,,特別是你讓 10 位擁有不同技能的專家為了一個(gè)共同目標(biāo)而合作的時(shí)候。這就是企業(yè)如何成就一件事情的秘訣,。
半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)正變得越來(lái)越好
從歷史上來(lái)看,,無(wú)監(jiān)督學(xué)習(xí)一直處于這種奇怪的位置,它顯然是正確的學(xué)習(xí)方式,,但如果你想讓某件東西盡快發(fā)揮作用,,這也完全是在浪費(fèi)時(shí)間。
一方面,,人類學(xué)習(xí)的大多數(shù)東西都沒(méi)有標(biāo)簽,,所以機(jī)器學(xué)習(xí)系統(tǒng)也不應(yīng)該需要什么標(biāo)簽。另一方面,,2015 年的深度學(xué)習(xí)熱潮主要是由帶標(biāo)簽的大型數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)所推動(dòng)的,。當(dāng)時(shí),Richard Socher 在推特上發(fā)布了一條引人入目的 推文:
與其花一個(gè)月的時(shí)間去琢磨一個(gè)無(wú)監(jiān)督機(jī)器學(xué)習(xí)的問(wèn)題,,還不如用一個(gè)禮拜的時(shí)間給一些數(shù)據(jù)貼上標(biāo)簽,,然后訓(xùn)練一個(gè)分類器。
—— Richard Socher (@RichardSocher),,2017 年 3 月 10 日
筆者不會(huì)說(shuō)無(wú)監(jiān)督學(xué)習(xí)一直沒(méi)用,。在 2010 年,人們普遍認(rèn)為,,深度學(xué)習(xí)在開(kāi)始監(jiān)督式學(xué)習(xí)之前,,應(yīng)該先經(jīng)過(guò)一個(gè)無(wú)監(jiān)督的預(yù)訓(xùn)練步驟。參見(jiàn) Erhan 等人在 JMLR 2010 發(fā)表的論文《為什么無(wú)監(jiān)督的預(yù)訓(xùn)練有助于深度學(xué)習(xí),?》(Why Does Unsupervised Pre-training Help Deep Learning?),。2015 年,像 GloVe 和 word2vec 這樣的自筆者監(jiān)督詞向量可以自動(dòng)學(xué)習(xí)詞匯之間的有趣關(guān)系。作為一個(gè) 2015 年左右開(kāi)始機(jī)器學(xué)習(xí)的人,,這些無(wú)監(jiān)督學(xué)習(xí)的成功感覺(jué)就像是規(guī)則的例外,。大多數(shù)其他應(yīng)用都依賴于標(biāo)簽。預(yù)訓(xùn)練的 ImageNet 特征是最接近一般行為的東西,,這些特征是通過(guò)監(jiān)督式學(xué)習(xí)從頭開(kāi)始學(xué)習(xí)的,。
筆者一直都認(rèn)為,無(wú)監(jiān)督學(xué)習(xí)是未來(lái)的趨勢(shì),,也是正確的方式,,只要筆者們弄清楚如何去實(shí)現(xiàn)。但是,,伙計(jì),,筆者們已經(jīng)花了很長(zhǎng)時(shí)間來(lái)嘗試實(shí)現(xiàn)。這讓筆者對(duì)過(guò)去幾個(gè)月的半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的論文印象深刻,。Momentum Contrast(He 等人,,VCPR 2020)相當(dāng)不錯(cuò),SimCLR(Chen 等人,,ICML 2020)在此基礎(chǔ)上有所改進(jìn),,Bootstrap Your Own Latent(Grill,、Strub,、Altché、Tallec,、Richemond 等人,,2020 年)在此基礎(chǔ)上也有所改進(jìn),然后是 GPT-3,,這個(gè)筆者待會(huì)兒再講,。
當(dāng)筆者在思考是什么讓機(jī)器學(xué)習(xí)變得困難時(shí),趨勢(shì)線指向更大的模型和更大的標(biāo)記數(shù)據(jù)集,。它們現(xiàn)在還在指那個(gè)方向,。筆者的結(jié)論是,未來(lái)的機(jī)器學(xué)習(xí)進(jìn)展將受到標(biāo)簽要求的瓶頸,。定義一個(gè) 10 倍大的模型很容易,,而訓(xùn)練一個(gè) 10 倍大的模型卻更難,但它并不需要 10 倍多的人來(lái)工作,。獲得 10 倍的標(biāo)簽就可以了,。是的,數(shù)據(jù)標(biāo)簽工具會(huì)越來(lái)越好,,Amazon Mechanical Turk 非常受歡迎,,甚至有一些創(chuàng)業(yè)公司的使命就是提供快速的數(shù)據(jù)標(biāo)簽服務(wù)。但標(biāo)簽本質(zhì)上就是關(guān)于人類偏好的問(wèn)題,這就很使它難逃脫人類的勞動(dòng),。
強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)功能也有類似的問(wèn)題,。原則上,在你定義什么是成功后,,模型就會(huì)找到解決方案,。實(shí)際上,你需要一個(gè)人來(lái)檢查模型是否正在“黑掉”獎(jiǎng)勵(lì),,或者你的獎(jiǎng)勵(lì)函數(shù)是由人類評(píng)級(jí)者隱形定義的,,這就變成了同樣的標(biāo)簽問(wèn)題。
帶標(biāo)簽的大型數(shù)據(jù)集不會(huì)平白無(wú)故地出現(xiàn),。它們需要深思熟慮的,、持續(xù)的努力才能產(chǎn)生。ImageNet 能夠在 CVPR 2019 上獲得時(shí)間測(cè)試獎(jiǎng) 不是沒(méi)有原因的——那篇論文的作者發(fā)表并完成了這項(xiàng)工作,。如果機(jī)器學(xué)習(xí)需要更大的標(biāo)記數(shù)據(jù)集來(lái)推動(dòng)性能,,并且模型不斷以數(shù)量級(jí)保持增長(zhǎng),那么你就會(huì)到達(dá)一個(gè)這樣的臨界點(diǎn),,取得進(jìn)展所需的人類監(jiān)督量將是瘋狂的,。
(這甚至還沒(méi)有涉及到標(biāo)簽不完美的問(wèn)題。筆者們發(fā)現(xiàn),,在流行的基準(zhǔn)測(cè)試中使用的許多有標(biāo)簽的數(shù)據(jù)集就包含了大量的偏見(jiàn),。這并不奇怪,但現(xiàn)在它已經(jīng)越來(lái)越接近常識(shí),,用自由放任的標(biāo)簽系統(tǒng)構(gòu)建一個(gè)大型數(shù)據(jù)集,,將不再可行。)
好吧,,嗯,,如果 10 倍的標(biāo)簽是個(gè)問(wèn)題,那有沒(méi)有辦法繞過(guò)這個(gè)問(wèn)題呢,?一種方法是,,如果你不需要 10 倍的標(biāo)簽來(lái)訓(xùn)練一個(gè) 10 倍大的模型。關(guān)于這方面的信息挺復(fù)雜的,。一篇標(biāo)度律(Scaling law)的論文(Hestness 等人,,2017 年)建議模型大小隨數(shù)據(jù)集大小次線性(sublinearly)增長(zhǎng)。
筆者們期望擬合一個(gè)數(shù)據(jù)集的模型參數(shù)的數(shù)量應(yīng)該遵循 $s(m) \propto \alpha m^{\beta_p}$,,其中 $s(m)$ 是一個(gè)擬合一個(gè)大小為 $m$ 的訓(xùn)練集所需的模型大小,。
不同的問(wèn)題設(shè)置具有不同的悉數(shù),圖像分類遵循 $\beta_p=0.573$ 冪定律,,而語(yǔ)言建模遵循 $\beta_p \approx 0.72$ 線,。
圖像分類趨勢(shì)線(左)和語(yǔ)言建模趨勢(shì)線(右)([來(lái)源:Hestity 等人,,2017 年](https://arxiv.org/abs/1712.00409))
反過(guò)來(lái)說(shuō),這意味著數(shù)據(jù)集大小應(yīng)隨模型大小呈超線性增長(zhǎng):10 倍大的圖像分類模型應(yīng)該使用 $10^{1/0.573} = 55.6$ 倍的數(shù)據(jù),!那真是個(gè)可怕的消息?。?/p>
但是,,Kuplan 和 Candlish 在 2020 年發(fā)表的論文 卻提出了相反的關(guān)系:數(shù)據(jù)集的大小應(yīng)該隨著模型的大小而增長(zhǎng),。他們只研究語(yǔ)言建模,但是在論文的第 6.3 節(jié)指出:
為控制過(guò)擬合,,第 4 節(jié)的結(jié)果暗示筆者們應(yīng)該將數(shù)據(jù)集的大小擴(kuò)展為 $D \propto N^{0.74}$,,其中 $D$ 是數(shù)據(jù)集大小,$N$ 是模型大小,。
與 $D \propto N^{1/0.72}$ 的 Hestness 結(jié)果相比,,這顯得很奇怪。數(shù)據(jù)集應(yīng)該比模型增長(zhǎng)得快還是慢呢,?
這兩個(gè)數(shù)字之間存在差異的原因是,,Kaplan 結(jié)果是在假設(shè)固定的計(jì)算預(yù)算的情況下得出的。他們發(fā)現(xiàn)的一個(gè)關(guān)鍵結(jié)果是,,在短時(shí)間內(nèi)訓(xùn)練一個(gè)非常大的模型比訓(xùn)練一個(gè)較小的模型來(lái)收斂效率更高,。同時(shí),據(jù)筆者所知,,Hestness 結(jié)果總是使用訓(xùn)練過(guò)的模型來(lái)收斂,。
來(lái)源:[Kaplan 和 Candlish,2020 年](https://arxiv.org/abs/2001.08361)
這有點(diǎn)離題了,,但是輸入數(shù)字之后,,筆者們得到模型大小每增加 10 倍,數(shù)據(jù)集大小就需要增加 4 到 50 倍,。讓筆者們假設(shè) 4 倍的方面要大方。對(duì)于標(biāo)簽需求而言,,4 倍的系數(shù)肯定要比 10 倍的系數(shù)好很多,,但仍然是很多。
進(jìn)入無(wú)監(jiān)督學(xué)習(xí),,這些方法正在變得越來(lái)越好,,“標(biāo)簽”的意義正朝著更容易獲得的方向發(fā)展。GPT-3 是在一堆網(wǎng)絡(luò)抓取數(shù)據(jù)上進(jìn)行訓(xùn)練的,,雖然也需要一些輸入處理,,但在進(jìn)入模型訓(xùn)練之前,它并不需要人工驗(yàn)證文本的每一句話,。在足夠大的規(guī)模下,,盡管看起來(lái)你的標(biāo)簽是嘈雜的,,數(shù)據(jù)是混亂的,但這都是可以的,。
這里有很大的潛力,。如果你有 $N$ 個(gè)無(wú)監(jiān)督的例子,那么 $N$ 個(gè)帶標(biāo)簽的例子會(huì)更好,,但要記住,,標(biāo)簽是需要花費(fèi)很多精力的。標(biāo)記數(shù)據(jù)集的大小受你所能承擔(dān)的監(jiān)督的限制,,并且你可以用同樣的工作量獲得更多的無(wú)標(biāo)簽數(shù)據(jù),。
很多有關(guān)大數(shù)據(jù)的炒作都是由一些情節(jié)驅(qū)動(dòng)的,這些情節(jié)顯示數(shù)據(jù)的創(chuàng)造速度比摩爾定律還快,。大肆炒作最終還是失敗了,,因?yàn)闊o(wú)知的高管不明白這一點(diǎn):擁有數(shù)據(jù)與擁有有用的機(jī)器學(xué)習(xí)并不是一回事??捎脭?shù)據(jù)的真實(shí)數(shù)量要少得多,。這引起了研究界的哄笑,但如果無(wú)監(jiān)督學(xué)習(xí)變得更好,,甚至垃圾數(shù)據(jù)也變得稍微有用的話,,那么筆者們就會(huì)成為笑柄。
無(wú)監(jiān)督學(xué)習(xí)已經(jīng)足夠好了嗎,?當(dāng)然沒(méi)有,,100% 絕對(duì)沒(méi)有。這比筆者預(yù)期的要近,。筆者希望看到更多的論文使用與目標(biāo)任務(wù)無(wú)關(guān)的數(shù)據(jù)源,,以及更多的“ImageNet 時(shí)刻”,通過(guò)“站在別人 GPU 時(shí)間的肩膀上”來(lái)構(gòu)建應(yīng)用,。
GPT-3 的結(jié)果在質(zhì)量上比筆者預(yù)期的要好
在人們開(kāi)始擺弄 GPT-3 之前,,筆者已經(jīng)更新了筆者的時(shí)間軸估計(jì),但 GPT-3 是促使筆者寫(xiě)下本文解釋原因的動(dòng)機(jī),。
筆者們?cè)?GPT-3 上看到的是,,語(yǔ)言是一個(gè)非常靈活的輸入空間。人們?cè)缇椭肋@一點(diǎn)了,。筆者認(rèn)識(shí)一位從事自然語(yǔ)言處理的教授,,他說(shuō),語(yǔ)言理解是一項(xiàng)人工智能完成的任務(wù),,因?yàn)橐慌_(tái)假設(shè)的機(jī)器完全理解并且回答所有的問(wèn)題,,就像人類一樣。也有人認(rèn)為,,壓縮是智能的代表,。正如 Hutter Prize 網(wǎng)站上所論述的那樣,,要壓縮數(shù)據(jù),就必須識(shí)別數(shù)據(jù)中的模式,,如果你把模式識(shí)別看作是智能的一個(gè)關(guān)鍵組成部分,,那么更好的壓縮器應(yīng)該更智能。
需要說(shuō)明的是,,這些并不是自然語(yǔ)言處理研究界的普遍觀點(diǎn),!關(guān)于 語(yǔ)言理解究竟意味著什么 這一問(wèn)題,人們展開(kāi)了激烈的爭(zhēng)論,。筆者之所以提到它們,,是因?yàn)檫@些觀點(diǎn)都是嚴(yán)肅的人所持有的,而 GPT-3 的結(jié)果支持這些觀點(diǎn),。
GPT-3 有很多東西,,但它的核心是一個(gè)系統(tǒng),它使用大量的訓(xùn)練時(shí)間,,將一個(gè)非常大的文本預(yù)料壓縮成一組較小的 Transformer>) 權(quán)重,。最終的結(jié)果展示了一個(gè)令人驚訝的知識(shí)廣度,可以縮小到許多不同的任務(wù)中,,只要你能將這個(gè)任務(wù)變成文本的提示,,以種子模型的輸出。它是有缺陷,,但技術(shù)演示的廣度是有點(diǎn)荒謬的,。同樣值得注意的是,大多數(shù)這種行為都是由于善于預(yù)測(cè)文本的下一個(gè)標(biāo)記而產(chǎn)生的,。
這個(gè)成功是上一節(jié)(更好的無(wú)監(jiān)督學(xué)習(xí))的一個(gè)具體例子,,也是第一部分(更好的工具)的標(biāo)志。盡管在故事生成中有很多有趣的東西,,但筆者最感興趣的是 代碼生成演示,。它們看起來(lái)就像是“Do What I Mean”編程接口的早期跡象。
這太讓人興奮了,。使用 GPT-3,,筆者構(gòu)建了一個(gè)布局生成器,你只需在其中描述任何你想要的布局,,它就會(huì)為你生成 JSX 代碼。
如果現(xiàn)有的技術(shù)演示可以提高 5 倍,,那么,,如果它們變成了具體細(xì)節(jié)變成的關(guān)鍵生產(chǎn)力助推器,筆者也不會(huì)感到驚訝,。目前,,系統(tǒng)設(shè)計(jì),、代碼驗(yàn)證和調(diào)試很可能都是由人工來(lái)完成的,但很多編程都是在代碼內(nèi)“著色”,。即使是低水平的功能也可能會(huì)改變游戲規(guī)則,,就像 2000 年前的搜索引擎一樣。AltaVista 在 1998 年的訪問(wèn)量排名第 11,,肯定比 Google/Bing/DuckDuckGo 現(xiàn)在能做的還要糟糕,。
筆者們可以看到,代碼生成有用的一個(gè)具體方式是用于機(jī)器學(xué)習(xí)工作,。比如 神經(jīng)結(jié)構(gòu)搜索 和 黑盒超參數(shù)優(yōu)化,。圍繞通用人工智能的常見(jiàn)爭(zhēng)論之一是 智能爆炸,而這類黑盒方法被視為一種潛在的智能爆炸機(jī)制,。但是,,它們長(zhǎng)期以來(lái)一直存在一個(gè)關(guān)鍵的限制:即使你假定計(jì)算量是無(wú)限的,也必須有人實(shí)現(xiàn)代碼,,從實(shí)驗(yàn)參數(shù)到最終性能提供一個(gè)干凈 API,。可探索的搜索空間從根本上受到人類所認(rèn)為的搜索空間維度的限制,。如果你不設(shè)想搜索空間的一部分,,機(jī)器學(xué)習(xí)就不能對(duì)它進(jìn)行探索。
機(jī)器人學(xué)習(xí)中的域隨機(jī)化也存在同樣的問(wèn)題,。這是筆者對(duì) OpenAI Rubik Cube 結(jié)果 的主要批評(píng),。這篇論文讀起來(lái)像是一年來(lái)對(duì) Rubik Cube 域隨機(jī)化搜索空間的發(fā)現(xiàn),而不是任何可泛化的機(jī)器人學(xué)習(xí)課程,。最終的結(jié)果是基于一個(gè)從大量隨機(jī)模擬中學(xué)習(xí)泛化的模型,,但這個(gè)模型之所以能達(dá)到這個(gè)效果,是因?yàn)槿藗兓ㄙM(fèi)了大量的精力來(lái)確定哪些隨機(jī)化值得實(shí)施,。
現(xiàn)在想象一下,,每當(dāng)你在模擬器中發(fā)現(xiàn)一個(gè)未知的新未知時(shí),你可以非??焖俚貙?shí)現(xiàn)代碼的更改,,將它添加到你的域隨機(jī)化搜索空間。嗯,,這些方法看起來(lái)確實(shí)比較有前途,。
GPT-3 當(dāng)然也存在一些問(wèn)題。它有一個(gè)固定的注意力窗口,。它沒(méi)有辦法從試圖預(yù)測(cè)下一個(gè)文本字符的過(guò)程中學(xué)習(xí)任何它還沒(méi)有學(xué)到的東西,。要確定它知道什么,需要學(xué)習(xí)如何提示 GPT-3 給出你想要的輸出,,而不是所有簡(jiǎn)單的提示都能奏效,。最后,,它沒(méi)有意圖或代理的概念。它就是下一個(gè)詞的預(yù)測(cè)器,。這就是它的全部,,筆者猜想,試圖改變它的訓(xùn)練損失以增加意圖或代理,,將比聽(tīng)起來(lái)要困難得多,。(而在筆者看來(lái)已經(jīng)相當(dāng)困難了!永遠(yuǎn)不要低估一個(gè)工作中的機(jī)器學(xué)習(xí)研究項(xiàng)目的慣性,。)
但是,,這又一次讓筆者想起了很多早期的搜索引擎。當(dāng)筆者還是個(gè)孩子的時(shí)候,,為了讓更好的搜索結(jié)果出現(xiàn)的頻率更高,,筆者被教導(dǎo)如何組織搜索查詢關(guān)鍵詞。要避免使用簡(jiǎn)短的詞,,將重要的關(guān)鍵詞放在前面,,不要輸入完整的句子。筆者們之所以這樣處理,,是因?yàn)樗氖找媸侵档玫?。GPT-3 可能與之類似。
筆者現(xiàn)在期望計(jì)算將發(fā)揮更大的作用,,并看到模型的發(fā)展空間
出于筆者不想在本文中談及的原因,,筆者不喜歡這樣的論點(diǎn),即人們對(duì)人腦進(jìn)行計(jì)算估計(jì),,采用摩爾定律曲線,,推斷出這兩條曲線,然后宣布通用人工智能將在兩條曲線相交時(shí)發(fā)生,。筆者認(rèn)為他們把討論過(guò)于簡(jiǎn)單化了,。
然而,不可否認(rèn)的是,,在機(jī)器學(xué)習(xí)進(jìn)程中,,計(jì)算扮演著重要的角色。但人工智能的能力有多少是由更好的硬件讓筆者們擴(kuò)展現(xiàn)有模型驅(qū)動(dòng)的,,又有多少是由新的機(jī)器學(xué)習(xí)理念驅(qū)動(dòng)的呢,?這是一個(gè)復(fù)雜的問(wèn)題,特別是因?yàn)閮烧卟⒎仟?dú)立的,。新的想法可以讓硬件得到更好的利用,,而更多的硬件可以讓你嘗試更多的想法。筆者在 2015 年對(duì)這種可怕的簡(jiǎn)化的猜測(cè)是,,通用人工智能進(jìn)步的 50% 將來(lái)自計(jì)算,,50% 將來(lái)自更好的算法。在 2015 年的模型之間缺失了幾樣?xùn)|西,,還有一些東西將“通用”放在了通用人工智能中,。筆者不相信依靠更多的計(jì)算能解決這個(gè)問(wèn)題。
從那以后,,有很多成功的例子都是由擴(kuò)大模型來(lái)實(shí)現(xiàn)的,,筆者現(xiàn)在認(rèn)為這個(gè)平衡更像是 65% 的計(jì)算,35% 的算法,。筆者懷疑許多類似人類的學(xué)習(xí)行為可能只是更大模型的突顯特性,。筆者還懷疑,許多人類認(rèn)為是“智能的”,、“有意的”事物,,其實(shí)都不是。筆者們只是想認(rèn)為自己是聰明的,、有意識(shí)的,。筆者們不是,機(jī)器學(xué)習(xí)模型需要跨越的門(mén)檻也沒(méi)有筆者們想象的那么高,。
如果計(jì)算發(fā)揮了更大的作用,,那么時(shí)間軸就會(huì)加快。機(jī)器學(xué)習(xí)理念的瓶頸是機(jī)器學(xué)習(xí)社區(qū)的規(guī)模和發(fā)展,,而更快的硬件是由全球消費(fèi)者對(duì)硬件的需求推動(dòng)的,。后者是一股更強(qiáng)大的力量。
讓筆者們先回到 GPT-3,。GPT-3 并不是你可以構(gòu)造最大的 Transformer,,因此,有理由建造更大的 Transformer,。如果將大型 Transformer 的性能標(biāo)度為 2 數(shù)量級(jí)(15 億個(gè)參數(shù)用于 GPT-2,,1750 億個(gè)參數(shù)用于 GPT-3),那么再標(biāo)度為 2 數(shù)量級(jí)也不會(huì)太奇怪,。當(dāng)然,,也可能不會(huì)。(Kaplan 等人,,2020 年)標(biāo)度律應(yīng)該從參數(shù) $10^{12}$ 開(kāi)始相互矛盾,。這與 GPT-3 相差不到 1 個(gè)數(shù)量級(jí)。不過(guò),,這并不意味著該模式將停止改進(jìn),。這只是意味著它會(huì)以不同的速度提高。筆者不認(rèn)為有什么好的理由可以證明筆者們應(yīng)該相信一個(gè) 100 倍的模型在質(zhì)量上不會(huì)有什么不同。
尤其是你轉(zhuǎn)向多模態(tài)學(xué)習(xí)(multi-modal learning)的時(shí)候,,更是如此,。專注于 GPT-3 的文本生成是遺漏了主要的情節(jié)線程。如果你相信 傳言,,OpenAI 一直致力于將音頻和視頻數(shù)據(jù)納入他們的大型模型中,。到目前為止,他們的研究產(chǎn)出與此一致,。MuseNet 是一個(gè)基于大型 Transformer 的音頻生成模型,。最近的 Image GPT 是針對(duì)圖像的生成模型,也是基于大型 Transformer 的,。
MuseNet 問(wèn)世時(shí),,是不是當(dāng)時(shí)最先進(jìn)的音頻合成技術(shù)?不是,。Image GPT 是圖像生成的最新技術(shù)嗎,?也不是。專門(mén)針對(duì)音頻和圖像生成的模型架構(gòu)比 MuseNet 和 Image GPT 做得更好,。若專注于這一點(diǎn),,就忽略了 OpenAI 所要表達(dá)的觀點(diǎn):一個(gè)足夠大的 Transformer 并非最先進(jìn)的,但它在這些截然不同的數(shù)據(jù)格式上做得足夠好,。還有比 MuseNet 更好的模型,,但它仍然足夠支持一些愚蠢但也許有用的音頻完成。
如果你已經(jīng)證明一個(gè)大型 Transformer 可以單獨(dú)處理音頻,、圖像和文本,,為什么不去試試同時(shí)對(duì)這三個(gè)進(jìn)行測(cè)試呢?據(jù)推測(cè),,如果所有的模態(tài)都經(jīng)過(guò)類似的神經(jīng)網(wǎng)絡(luò)架構(gòu),,大概這種多模態(tài)學(xué)習(xí)將會(huì)更容易,而他們的研究表明,,Transformer 的工作足以成為這種架構(gòu),。
OpenAI 可以利用他們已經(jīng)擁有的關(guān)于大型 Transformer 的任何直覺(jué),這一點(diǎn)很有幫助,。一旦加入其他數(shù)據(jù)流,,肯定會(huì)有足夠的數(shù)據(jù)來(lái)訓(xùn)練更大的無(wú)監(jiān)督模型。當(dāng)然,,你也可以只使用文本,,但你也可以使用所有的網(wǎng)絡(luò)文本,所有的視頻和所有的音頻,。只要你能夠擴(kuò)展到足夠大的規(guī)模,,就不應(yīng)該有什么取舍。
大型 Transformer 會(huì)是筆者們將使用的最后一個(gè)模型架構(gòu)嗎?不,,也許不是,。它們目前的一些弱點(diǎn)似乎難以解決。但筆者確實(shí)看到了它們的發(fā)展空間,,可以做得比目前更多,。模型架構(gòu)只會(huì)越來(lái)越好,所以擴(kuò)展現(xiàn)有模型的能力一定是 10 年或 20 年后,,更強(qiáng)的模型架構(gòu)的擴(kuò)展版本所能實(shí)現(xiàn)的下限。現(xiàn)在可能發(fā)生的事情已經(jīng)很有趣了,,但也略微讓人擔(dān)憂,。
整體局勢(shì)
在“You and Your Research”(《你和你的研究》中,Richard Hamming 曾提出一條著名的建議:“你所在的領(lǐng)域中,,重要問(wèn)題是什么,?為什么你不去研究它們?”當(dāng)然,,通用人工智能是機(jī)器學(xué)習(xí)最重要的問(wèn)題之一,。
那么,對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),,這個(gè)問(wèn)題的自然版本是,,“需要解決哪些問(wèn)題,才能實(shí)現(xiàn)通用人工智能,?”你希望這個(gè)領(lǐng)域在到達(dá)那里的路上會(huì)遇到哪些路標(biāo),,這些路標(biāo)之間的路徑有多少不確定性?
筆者覺(jué)得更多的路標(biāo)開(kāi)始成為焦點(diǎn),。如果你問(wèn) 2015 年的筆者,,筆者們將如何開(kāi)發(fā)通用人工智能?筆者會(huì)告訴你,,筆者根本就不知道怎么弄,。在筆者認(rèn)為與人類智力水平有關(guān)的任何挑戰(zhàn)上,筆者不認(rèn)為筆者們?nèi)〉昧耸裁从幸饬x的進(jìn)展,。但是,,如果你問(wèn) 2020 年的筆者,如何開(kāi)發(fā)通用人工智能,,盡管筆者仍然看到很大的差距,,假設(shè)你很幸運(yùn),筆者對(duì)如何實(shí)現(xiàn)通用人工智能有所了解,。這對(duì)筆者來(lái)說(shuō)是最大的轉(zhuǎn)變,。
對(duì)于大規(guī)模統(tǒng)計(jì)機(jī)器學(xué)習(xí)對(duì)人工智能的意義,人們一直存在分歧。深度學(xué)習(xí)的反對(duì)者不能否認(rèn)大型統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型非常有用,,但深度學(xué)習(xí)的擁護(hù)者也不能否認(rèn)它們非常昂貴,。指出最先進(jìn)的模型需要多少計(jì)算量,這是一個(gè)悠久的傳統(tǒng),。來(lái)看看這張照片,,在李世石在與 AlphaGo 比賽圍棋時(shí),就在 Twitter 上流轉(zhuǎn)開(kāi)來(lái)了,。
像這樣的論點(diǎn)很好地將討論引向模型與人類相比不足之處,,并且戳中筆者們現(xiàn)有的模型可能存在的根本性缺陷,但筆者覺(jué)得這些論點(diǎn)還是過(guò)于以人為中心了,。筆者們對(duì)人類如何學(xué)習(xí)的理解還不完全,,但筆者們還是接管了這個(gè)星球。同樣,,筆者們不需要對(duì)“理解”或“知識(shí)”的含義達(dá)成細(xì)粒度上的一致,,人工智能系統(tǒng)就能對(duì)世界產(chǎn)生深遠(yuǎn)的影響。筆者們也不必打造像人類一樣學(xué)習(xí)的人工智能系統(tǒng),。如果它們能夠完成大多數(shù)人類水平的任務(wù),,那么剩下的工作就是由經(jīng)濟(jì)學(xué)來(lái)完成,不管這些系統(tǒng)是否是按照筆者們自己的形象制造的,。
竭力拒絕
關(guān)于通用人工智能的爭(zhēng)論總是有點(diǎn)混亂,,因?yàn)槿藗冊(cè)谥匾氖虑樯希兄娜徊煌男拍?。一個(gè)有用的做法是,,假設(shè)通用人工智能在短期內(nèi)是可能的,確定在那個(gè)假設(shè)的未來(lái)可能是真實(shí)的,,然后評(píng)估它聽(tīng)起來(lái)是否合理,。
這與提出通用人工智能不可能發(fā)生的理由是截然不同的,因?yàn)橛泻芏嗬碛烧f(shuō)明通用人工智能不會(huì)出現(xiàn),。但是,,為什么會(huì)出現(xiàn)通用人工智能,也有大量的理由,。這項(xiàng)練習(xí)是要把更多精力放在后者上,,并且看看對(duì)所有事情都說(shuō)“No”是多么的困難。這有助于你將注意力集中在真正重要的論點(diǎn)上,。
讓筆者試試看吧,。如果通用人工智能很快成為可能的話,這可能會(huì)如何發(fā)生呢,?嗯,,這不需要更多的新想法,。它很可能是基于現(xiàn)有模型的擴(kuò)展,因?yàn)楣P者認(rèn)為,,該領(lǐng)域沒(méi)有太多時(shí)間進(jìn)行全面的范式轉(zhuǎn)換,。而且,它還需要大量的資金,,因?yàn)樗枰谝?guī)?;?guī)?;枰Y金,。
也許有人開(kāi)發(fā)了一個(gè)應(yīng)用或工具什么的,使用的模型是 GPT-3 的尺寸或更大的尺寸,,那是一個(gè)巨大的生產(chǎn)力倍增器,。想象一下,第一臺(tái)計(jì)算機(jī),、Lotus Notes 或 Microsoft Excel 是怎么接管商業(yè)世界的。記住,,是工具推動(dòng)了進(jìn)步,!如果你的代碼速度加快 2 倍,那可能就是研究產(chǎn)出的 1.5 倍,。上移或下移取決于實(shí)現(xiàn)過(guò)程中遇到瓶頸的頻率,。
如果這種生產(chǎn)力的提升有足夠的價(jià)值,使經(jīng)濟(jì)效益得以實(shí)現(xiàn),,而且一旦考慮推理和訓(xùn)練成本,,就能賺取凈利潤(rùn),那么就有生意可做了:從字面上說(shuō),,大公司為你的工具買單,。向客戶付費(fèi)會(huì)帶動(dòng)更多的資金和投資,從而為更多的硬件買單,,從而使訓(xùn)練規(guī)模更大,。在云計(jì)算中,你購(gòu)買多余的硬件來(lái)預(yù)測(cè)消費(fèi)者需求的激增,,然后出售對(duì)額外硬件的訪問(wèn)權(quán)來(lái)賺錢(qián),。在這種情況下,你購(gòu)買多余的硬件來(lái)預(yù)測(cè)消費(fèi)者推理需求的峰值,,然后將多余的算力提供給研究人員,,看看他們會(huì)得出什么結(jié)果。
這種機(jī)制已經(jīng)開(kāi)始發(fā)揮作用了,。你可能認(rèn)得下圖所示的芯片,。
上圖是第一個(gè) TPU 的照片,,正如 [Google 博客')(https://cloud.google.com/blog/products/gcp/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu) 中解釋的那樣:
盡管 Google 早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)打造特殊應(yīng)用集成電路(Application-Specific Integrated Circuit,ASIC),,但在 2013 年,,情況變得緊迫起來(lái)。這時(shí)筆者們才意識(shí)到,,神經(jīng)網(wǎng)絡(luò)快速增長(zhǎng)的計(jì)算需求可能需要筆者們將運(yùn)營(yíng)的數(shù)據(jù)中心數(shù)量增加一倍,。
Google 需要在生產(chǎn)中運(yùn)行更多的神經(jīng)網(wǎng)絡(luò)。這帶動(dòng)了更多的硬件投資,。幾年后,,筆者們現(xiàn)在發(fā)展到了 TPU v3,有傳言稱,,F(xiàn)acebook 正在招聘人員為 AR 技術(shù)定制芯片,。因此,硬件需求的故事不僅僅是可信的,,而且很可能是真實(shí)的,。如果你可以擴(kuò)展到做一些不切實(shí)際的事情,那么就會(huì)激發(fā)研究和需求,,使其變得切實(shí)可行,。
在此基礎(chǔ)上,筆者們假設(shè)跨模態(tài)學(xué)習(xí)結(jié)果比預(yù)期的規(guī)?;瘜W(xué)習(xí)更容易,。與 GPT-3 相似的涌現(xiàn)性出現(xiàn)了。目標(biāo)跟蹤和 物理直覺(jué) 被證明是自然發(fā)生的現(xiàn)象,,只需從圖像中學(xué)習(xí),,不需要直接的環(huán)境交互或體現(xiàn)。通過(guò)更多的調(diào)整,,更大的模型,,甚至更多的數(shù)據(jù),你最終會(huì)得到一個(gè)豐富的圖像,。文本和音頻的特征空間,。從頭開(kāi)始訓(xùn)練任何同喜很快就會(huì)變得不可思議。你為什么要這樣做,?
在幾個(gè)領(lǐng)域中,,先前的大部分工作都已經(jīng)過(guò)時(shí)了,如視覺(jué)的 SIFT 特征,、機(jī)器翻譯的 分析樹(shù),,以及語(yǔ)音識(shí)別的 音素 解碼步驟等。深度學(xué)習(xí)已經(jīng)扼殺了這些方法,。那些對(duì)這些技術(shù)一無(wú)所知的人正在研究神經(jīng)網(wǎng)絡(luò),,在這三個(gè)領(lǐng)域都取得了最先進(jìn)的成果,。這有點(diǎn)讓人感到難過(guò),因?yàn)橛行┻^(guò)時(shí)的想法,,確實(shí)對(duì)筆者們理解語(yǔ)言和語(yǔ)音的方式進(jìn)行了很酷的分解,,但事實(shí)就是如此。
隨著模型變得越來(lái)越大,,并不斷顯示出改進(jìn)的性能,,研究結(jié)合了一部分方法,這些方法已被證明可通過(guò)計(jì)算進(jìn)行擴(kuò)展,。同樣,,這種情況在深度學(xué)習(xí)中也發(fā)生過(guò),并且仍然在發(fā)生,。當(dāng)許多領(lǐng)域使用同一套技術(shù)時(shí),,你會(huì)得到更多的知識(shí)共享,這將推動(dòng)更好的研究,。CNN 對(duì)于考慮臨近值有很強(qiáng)的先驗(yàn)性,。它們最初用于圖像識(shí)別,但現(xiàn)在對(duì)基因組學(xué)(Nature Genetics,,2019 年),,以及音樂(lè)生成(van den Oord 等人,2016 年)都有影響,。Transformer 是一種序列模型,最早用于語(yǔ)言建模,。后來(lái)它們被用于視頻理解(Sun 等人,,2019 年)。這種趨勢(shì)可能還會(huì)繼續(xù)下去,。機(jī)器學(xué)習(xí)已經(jīng)達(dá)到了這樣的一個(gè)地步,,將某件事物描述為“深度學(xué)習(xí)”實(shí)際上是沒(méi)喲爻的,因?yàn)槎鄬痈兄呀?jīng)與足夠多的領(lǐng)域結(jié)合在一起,,你無(wú)需在指定任何東西,。也許過(guò)五年以后,筆者們會(huì)有一個(gè)新的流行詞取代“深度學(xué)習(xí)”,。
如果這個(gè)模型擅長(zhǎng)語(yǔ)言,、語(yǔ)音和視覺(jué)數(shù)據(jù),那么,,人類有哪些“傳感器”輸入是這個(gè)模型所沒(méi)有的,?無(wú)非就是與物理化體現(xiàn)掛鉤的傳感器,比如味覺(jué),、觸覺(jué)等,。筆者們能說(shuō)智能在這些刺激上遇到了瓶頸嗎,?當(dāng)然可以,但筆者卻不認(rèn)為是這樣,。你可以說(shuō)只需要文字就可以假裝成人類,。
在上述的場(chǎng)景中,有很多事情要做好,。多模態(tài)學(xué)習(xí)必須奏效,。行為需要繼續(xù)從規(guī)模擴(kuò)展中出現(xiàn),因?yàn)檠芯咳藛T的時(shí)間主要是投入到幫助你實(shí)現(xiàn)規(guī)?;南敕ㄖ?,而不是歸納先驗(yàn)。硬件效率必須與時(shí)俱進(jìn),,這包括清潔能源發(fā)電和修復(fù)不斷增加的硬件集群,。總的來(lái)說(shuō),,必須要做好的事情很多,,這讓筆者覺(jué)得不太可能,但還是有值得認(rèn)真對(duì)待的可能性,。
筆者在筆者的故事中看到最有可能的問(wèn)題是,,對(duì)于語(yǔ)言以外的任何東西,無(wú)監(jiān)督學(xué)習(xí)可能會(huì)更加困難,。記住,,在 2015 年,無(wú)監(jiān)督學(xué)習(xí)為筆者們提供了用于語(yǔ)言的詞向量,,而對(duì)于圖像卻沒(méi)有取得什么好的成績(jī),。一個(gè)合理的假設(shè)是,語(yǔ)言的組合特性使得它非常適合于無(wú)監(jiān)督學(xué)習(xí),,而這在其他輸入模式中是不適用的,。如果這是真的,筆者可能因?yàn)檫^(guò)分關(guān)注成功而高估了研究,。
正式由于這些原因,,筆者只是將筆者的估計(jì)調(diào)整了幾年。筆者并不認(rèn)為 GPT-3 本身就是一個(gè)從根本上調(diào)整筆者所認(rèn)為是可能的,。筆者認(rèn)為遷移學(xué)習(xí)比預(yù)期的要難也是一個(gè)障礙,。但在網(wǎng)上,筆者看到的大多數(shù)理由都是加速筆者的估計(jì),,而不是放慢它們,。
以上是有關(guān)通用人工智能什么時(shí)候?qū)崿F(xiàn)的相關(guān)內(nèi)容,希望對(duì)伙伴們有所幫助,,想要了解更多資訊,,請(qǐng)繼續(xù)關(guān)注可圈可點(diǎn)網(wǎng)站,。