通用人工智能什么時(shí)候?qū)崿F(xiàn),,自今年清北強(qiáng)強(qiáng)聯(lián)合舉辦通人工智能實(shí)驗(yàn)班之后,,我國通用人工智能領(lǐng)域的研究開始廣受大家的關(guān)注,大家最好奇的一點(diǎn)是通用人工智能什么時(shí)候才能夠?qū)崿F(xiàn),,小編收錄整理了一些信息,,供大家參考。
通用人工智能什么時(shí)候?qū)崿F(xiàn)
在 2015 年,,筆者對(duì)通用人工智能何時(shí)能夠?qū)崿F(xiàn)做出了以下預(yù)測:
到 2045 年,,有 10% 的可能性。
到 2050 年,,有 50% 的可能性,。
到 2070 年,有 90% 的可能性,。
現(xiàn)在已經(jīng)是 2020 年了,,筆者將預(yù)測更新為如下:
到 2035 年,有 10% 的可能性,。
到 2045 年,,有 50% 的可能性,。
到 2070 年,有 90% 的可能性,。
筆者將 90% 的可能性的年份保持不變,,但將其他一切都調(diào)得更快了。現(xiàn)在,,如果你想知道筆者為什么選擇這些特定的年份,,以及為什么筆者用 10 年而不是 5 年或 15 年來改變,你將會(huì)失望的,。因?yàn)檫@些都是筆者靠直覺進(jìn)行預(yù)測的,。重要的是為什么筆者的部分想法發(fā)生了變化——你可以在這個(gè)基礎(chǔ)上,選擇自己的時(shí)間軸進(jìn)行調(diào)整,。
讓筆者們先從簡單的部分開始,。
筆者應(yīng)該更不確定
如果說,筆者從來沒有對(duì)機(jī)器學(xué)習(xí)的研究感到驚訝,,那將是一件不可思議的怪事,。從歷史上看,預(yù)測一個(gè)研究領(lǐng)域的發(fā)展軌跡是很難的,。如果筆者從來沒感到驚訝,,筆者會(huì)認(rèn)為這是由于筆者個(gè)人沒有考慮足夠大的想法所致。
同時(shí),,當(dāng)筆者回想起過去的五年,,筆者相信筆者比平常更感到驚訝。并不是所有的事情都朝著積極的方向發(fā)展,。無監(jiān)督學(xué)習(xí)比筆者想象的要好得多,。深度強(qiáng)化學(xué)習(xí)比筆者預(yù)期的要好一些。而遷移學(xué)習(xí)比筆者想的要慢一些,。綜合起來,,筆者決定擴(kuò)大結(jié)果的分配范圍,所以,,現(xiàn)在筆者把 35 年的時(shí)間分配到 10% ~ 90% 的時(shí)間間隔,,而不是 25 年。
筆者還注意到,,筆者在 2015 年的預(yù)測將 10% ~ 50% 放在 5 年的范圍內(nèi),,50% 到 90% 放在 20 年的范圍內(nèi)。通用人工智能是一個(gè)長尾事件,,確實(shí)有可能永遠(yuǎn)不可行,,但 5 ~ 20 的拆分顯然是不科學(xué)的。筆者正在相應(yīng)地調(diào)整,。
現(xiàn)在,,筆者們到了最難的部分,。為什么筆者選擇將 10% 和 50% 的年份更靠近現(xiàn)在呢?
筆者沒有考慮到更好的工具
三年前,,筆者曾和一個(gè)人聊天,,他提到 通用人工智能沒有“火警警報(bào)”。筆者告訴他們,,筆者知道 Eliezer Yudkowsky 寫了另一篇關(guān)于通用人工智能的文章,,筆者還注意到 Facebook 的朋友們分享了這篇文章,但筆者還沒有來得及閱讀,。他們將這篇文章總結(jié)為:“通用人工智能何時(shí)發(fā)生,,永遠(yuǎn)不會(huì)很明顯。即使是在它發(fā)生前幾年,,人們也會(huì)認(rèn)為通用人工智能還很遙遠(yuǎn),。等到大家都認(rèn)識(shí)到人工智能安全是世界上最重要的問題時(shí),就已經(jīng)太晚了,。
筆者的反應(yīng)是,“好吧,,這和筆者從 Facebook 的時(shí)間軸上得到的信息相符,。就在費(fèi)米參加曼哈頓計(jì)劃前幾年,筆者就已經(jīng)知道 費(fèi)米預(yù)測核連鎖反應(yīng)很可能是不可能 的,。最近,,Rémi Coulom 表示,超人類的圍棋程序大約還有 10 年時(shí)間,,一年后才出現(xiàn) 最初的可能跡象,,兩年后,AlphaGo 正式問世,。筆者也已經(jīng)知道人工智能安全的 常識(shí)>) 觀點(diǎn),。”筆者覺得這篇文章不值得花時(shí)間去閱讀。
(如果你還沒有聽過這些常識(shí)的爭論,,下面是簡短版:大多人認(rèn)為人工智能安全是值得的,,即使沒有人公開這么說,因?yàn)槊總€(gè)人都可能擔(dān)心,,如果他們主張采取激烈行動(dòng),,其他人就會(huì)說他們瘋了。即使每個(gè)人都同意,,這種情況也可能發(fā)生,,因?yàn)樗麄儾恢烂總€(gè)人都同意。)
幾年后,,出于無聊,,筆者重新閱讀了這篇文章,,現(xiàn)在筆者得向 Facebook 上那些只分享歷史事件和常識(shí)的好友們抱怨了。盡管那篇帖子的總結(jié)是正確的,,但是,,筆者發(fā)現(xiàn)有用的想法都在總結(jié)之外。筆者是那么信任你,,你就不能把泡沫過濾掉嗎,?你怎么可以這樣讓筆者失望呢?
那篇“火警警報(bào)”的帖子中的一部分提出了一些假設(shè),,解釋了為什么人們聲稱通用人工智能是不可能的,。其中一個(gè)假設(shè)是,研究人員過于關(guān)注使用現(xiàn)有工具進(jìn)行工作的難度,,并將這種難度推斷到未來,,得出結(jié)論:筆者們永遠(yuǎn)不可能創(chuàng)造出通用人工智能,因?yàn)楝F(xiàn)有的工具還不夠好,。這是個(gè)槽糕的論點(diǎn),,因?yàn)槟愕耐茢嘁残枰紤]到研究工具也隨著時(shí)間的推移而改進(jìn)。
“工具”的意思有點(diǎn)模糊,。一個(gè)明顯的例子是筆者們的編碼庫,。在過去,人們用 Caffe,、MATLAB 和 Theano 來編寫神經(jīng)網(wǎng)絡(luò),,而現(xiàn)在主要是 TensorFlow 和 PyTorch。一個(gè)不太明顯的例子是用于計(jì)算機(jī)視覺的特征工程,。最后一次有人談?wù)撚?jì)算機(jī)視覺的 SIFT 特征 是什么時(shí)候,?那是好多年以前,它們現(xiàn)在已經(jīng)過時(shí)了,。但特征工程并沒有消失,,只是變成了 卷積神經(jīng)網(wǎng)絡(luò) 的架構(gòu)調(diào)優(yōu)。對(duì)于計(jì)算機(jī)視覺研究者來說,,SIFT 特征是老舊的工具,,卷積神經(jīng)網(wǎng)絡(luò)則是嶄新的工具,而計(jì)算機(jī)視覺是被更好的工具所強(qiáng)化的應(yīng)用,。
然而對(duì)筆者來說,,筆者并不是計(jì)算機(jī)視覺專家。筆者認(rèn)為用于控制的機(jī)器學(xué)習(xí)是一個(gè)更有趣的問題,。但是,,在基于圖像的環(huán)境中,你必須進(jìn)行計(jì)算機(jī)視覺來進(jìn)行控制,,如果你想處理現(xiàn)實(shí)世界,,基于圖像的輸入是最好的選擇,。所以對(duì)筆者來說,計(jì)算機(jī)視覺是工具,,機(jī)器人是應(yīng)用,,計(jì)算機(jī)視覺的進(jìn)步推動(dòng)了許多有前途的機(jī)器人學(xué)習(xí)成果。
[AlexNet](https://en.wikipedia.org/wiki/AlexNet) 自動(dòng)學(xué)習(xí)的過濾器,,而 AlexNet 本身已被更好的工具 [ResNet](https://en.wikipedia.org/wiki/Residual_neural_network) 淘汰了,。
筆者是研究工具的大力支持者。筆者認(rèn)為就平均而言,,人們低估了它們的影響力,。因此,在閱讀了人們不能正確預(yù)測工具改進(jìn)的假設(shè)之后,,筆者進(jìn)行了思考,,認(rèn)為自己也沒有正確地解釋它。那應(yīng)該被砍掉幾年,。
在機(jī)器學(xué)習(xí)更多的經(jīng)驗(yàn)方面,,進(jìn)展的明顯組成部分是你的想法和計(jì)算預(yù)算,但也有一些不那么明顯的,,比如,,你的編碼和調(diào)試技能,以及你使用計(jì)算機(jī)的能力,。如果代碼沒有使用所有可用的處理器,那么每臺(tái)計(jì)算機(jī)有多少個(gè)處理器就并不重要,。有很多令人驚訝的機(jī)器學(xué)習(xí)應(yīng)用,,主要的增值來自己于更好的數(shù)據(jù)管理和數(shù)據(jù)匯總,因?yàn)檫@些工具可以騰出決策時(shí)間來做其他事情,。
一般來說,,每個(gè)人的研究工具都有一定的缺陷。研究是為了做一些新的事情,,自然也就會(huì)發(fā)現(xiàn)新的問題,,為了解決三個(gè)月前還不存在的問題,人們就做出了完美的工具,,這不太可能,。因此,你現(xiàn)在的研究工具總是會(huì)讓人感覺不太好用,,你就不應(yīng)該用它來爭論什么時(shí)間軸的問題,。
研究棧有很多部分,整個(gè)棧中有不斷的改進(jìn),,而且這些改進(jìn)中的大多數(shù)都有乘法效應(yīng),。乘數(shù)因素可以非常強(qiáng)大,。一個(gè)簡單的例子是,要獲得 10 倍的更好結(jié)果,,你可以通過范式轉(zhuǎn)換將一件事改進(jìn) 10 倍,,或者可以將 10 件不同的事情 改進(jìn) 1.26 倍,它們加起來可以得到 10 倍的總體改進(jìn),。后者同樣具有變革性,,但可能要容易得多,特別是你讓 10 位擁有不同技能的專家為了一個(gè)共同目標(biāo)而合作的時(shí)候,。這就是企業(yè)如何成就一件事情的秘訣,。
半監(jiān)督和無監(jiān)督學(xué)習(xí)正變得越來越好
從歷史上來看,無監(jiān)督學(xué)習(xí)一直處于這種奇怪的位置,,它顯然是正確的學(xué)習(xí)方式,,但如果你想讓某件東西盡快發(fā)揮作用,這也完全是在浪費(fèi)時(shí)間,。
一方面,,人類學(xué)習(xí)的大多數(shù)東西都沒有標(biāo)簽,所以機(jī)器學(xué)習(xí)系統(tǒng)也不應(yīng)該需要什么標(biāo)簽,。另一方面,,2015 年的深度學(xué)習(xí)熱潮主要是由帶標(biāo)簽的大型數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)所推動(dòng)的。當(dāng)時(shí),,Richard Socher 在推特上發(fā)布了一條引人入目的 推文:
與其花一個(gè)月的時(shí)間去琢磨一個(gè)無監(jiān)督機(jī)器學(xué)習(xí)的問題,,還不如用一個(gè)禮拜的時(shí)間給一些數(shù)據(jù)貼上標(biāo)簽,然后訓(xùn)練一個(gè)分類器,。
—— Richard Socher (@RichardSocher),,2017 年 3 月 10 日
筆者不會(huì)說無監(jiān)督學(xué)習(xí)一直沒用。在 2010 年,,人們普遍認(rèn)為,,深度學(xué)習(xí)在開始監(jiān)督式學(xué)習(xí)之前,應(yīng)該先經(jīng)過一個(gè)無監(jiān)督的預(yù)訓(xùn)練步驟,。參見 Erhan 等人在 JMLR 2010 發(fā)表的論文《為什么無監(jiān)督的預(yù)訓(xùn)練有助于深度學(xué)習(xí),?》(Why Does Unsupervised Pre-training Help Deep Learning?)。2015 年,,像 GloVe 和 word2vec 這樣的自筆者監(jiān)督詞向量可以自動(dòng)學(xué)習(xí)詞匯之間的有趣關(guān)系,。作為一個(gè) 2015 年左右開始機(jī)器學(xué)習(xí)的人,這些無監(jiān)督學(xué)習(xí)的成功感覺就像是規(guī)則的例外,。大多數(shù)其他應(yīng)用都依賴于標(biāo)簽,。預(yù)訓(xùn)練的 ImageNet 特征是最接近一般行為的東西,這些特征是通過監(jiān)督式學(xué)習(xí)從頭開始學(xué)習(xí)的。
筆者一直都認(rèn)為,,無監(jiān)督學(xué)習(xí)是未來的趨勢,,也是正確的方式,只要筆者們弄清楚如何去實(shí)現(xiàn),。但是,,伙計(jì),筆者們已經(jīng)花了很長時(shí)間來嘗試實(shí)現(xiàn),。這讓筆者對(duì)過去幾個(gè)月的半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的論文印象深刻,。Momentum Contrast(He 等人,VCPR 2020)相當(dāng)不錯(cuò),,SimCLR(Chen 等人,,ICML 2020)在此基礎(chǔ)上有所改進(jìn),Bootstrap Your Own Latent(Grill,、Strub,、Altché、Tallec,、Richemond 等人,,2020 年)在此基礎(chǔ)上也有所改進(jìn),然后是 GPT-3,,這個(gè)筆者待會(huì)兒再講,。
當(dāng)筆者在思考是什么讓機(jī)器學(xué)習(xí)變得困難時(shí),趨勢線指向更大的模型和更大的標(biāo)記數(shù)據(jù)集,。它們現(xiàn)在還在指那個(gè)方向,。筆者的結(jié)論是,未來的機(jī)器學(xué)習(xí)進(jìn)展將受到標(biāo)簽要求的瓶頸,。定義一個(gè) 10 倍大的模型很容易,,而訓(xùn)練一個(gè) 10 倍大的模型卻更難,但它并不需要 10 倍多的人來工作,。獲得 10 倍的標(biāo)簽就可以了。是的,,數(shù)據(jù)標(biāo)簽工具會(huì)越來越好,,Amazon Mechanical Turk 非常受歡迎,甚至有一些創(chuàng)業(yè)公司的使命就是提供快速的數(shù)據(jù)標(biāo)簽服務(wù),。但標(biāo)簽本質(zhì)上就是關(guān)于人類偏好的問題,,這就很使它難逃脫人類的勞動(dòng)。
強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)功能也有類似的問題,。原則上,,在你定義什么是成功后,模型就會(huì)找到解決方案。實(shí)際上,,你需要一個(gè)人來檢查模型是否正在“黑掉”獎(jiǎng)勵(lì),,或者你的獎(jiǎng)勵(lì)函數(shù)是由人類評(píng)級(jí)者隱形定義的,這就變成了同樣的標(biāo)簽問題,。
帶標(biāo)簽的大型數(shù)據(jù)集不會(huì)平白無故地出現(xiàn),。它們需要深思熟慮的、持續(xù)的努力才能產(chǎn)生,。ImageNet 能夠在 CVPR 2019 上獲得時(shí)間測試獎(jiǎng) 不是沒有原因的——那篇論文的作者發(fā)表并完成了這項(xiàng)工作,。如果機(jī)器學(xué)習(xí)需要更大的標(biāo)記數(shù)據(jù)集來推動(dòng)性能,并且模型不斷以數(shù)量級(jí)保持增長,,那么你就會(huì)到達(dá)一個(gè)這樣的臨界點(diǎn),,取得進(jìn)展所需的人類監(jiān)督量將是瘋狂的。
(這甚至還沒有涉及到標(biāo)簽不完美的問題,。筆者們發(fā)現(xiàn),,在流行的基準(zhǔn)測試中使用的許多有標(biāo)簽的數(shù)據(jù)集就包含了大量的偏見。這并不奇怪,,但現(xiàn)在它已經(jīng)越來越接近常識(shí),,用自由放任的標(biāo)簽系統(tǒng)構(gòu)建一個(gè)大型數(shù)據(jù)集,將不再可行,。)
好吧,,嗯,如果 10 倍的標(biāo)簽是個(gè)問題,,那有沒有辦法繞過這個(gè)問題呢,?一種方法是,如果你不需要 10 倍的標(biāo)簽來訓(xùn)練一個(gè) 10 倍大的模型,。關(guān)于這方面的信息挺復(fù)雜的,。一篇標(biāo)度律(Scaling law)的論文(Hestness 等人,2017 年)建議模型大小隨數(shù)據(jù)集大小次線性(sublinearly)增長,。
筆者們期望擬合一個(gè)數(shù)據(jù)集的模型參數(shù)的數(shù)量應(yīng)該遵循 $s(m) \propto \alpha m^{\beta_p}$,,其中 $s(m)$ 是一個(gè)擬合一個(gè)大小為 $m$ 的訓(xùn)練集所需的模型大小。
不同的問題設(shè)置具有不同的悉數(shù),,圖像分類遵循 $\beta_p=0.573$ 冪定律,,而語言建模遵循 $\beta_p \approx 0.72$ 線。
圖像分類趨勢線(左)和語言建模趨勢線(右)([來源:Hestity 等人,,2017 年](https://arxiv.org/abs/1712.00409))
反過來說,,這意味著數(shù)據(jù)集大小應(yīng)隨模型大小呈超線性增長:10 倍大的圖像分類模型應(yīng)該使用 $10^{1/0.573} = 55.6$ 倍的數(shù)據(jù)!那真是個(gè)可怕的消息??!
但是,Kuplan 和 Candlish 在 2020 年發(fā)表的論文 卻提出了相反的關(guān)系:數(shù)據(jù)集的大小應(yīng)該隨著模型的大小而增長。他們只研究語言建模,,但是在論文的第 6.3 節(jié)指出:
為控制過擬合,,第 4 節(jié)的結(jié)果暗示筆者們應(yīng)該將數(shù)據(jù)集的大小擴(kuò)展為 $D \propto N^{0.74}$,其中 $D$ 是數(shù)據(jù)集大小,,$N$ 是模型大小,。
與 $D \propto N^{1/0.72}$ 的 Hestness 結(jié)果相比,這顯得很奇怪,。數(shù)據(jù)集應(yīng)該比模型增長得快還是慢呢,?
這兩個(gè)數(shù)字之間存在差異的原因是,Kaplan 結(jié)果是在假設(shè)固定的計(jì)算預(yù)算的情況下得出的,。他們發(fā)現(xiàn)的一個(gè)關(guān)鍵結(jié)果是,,在短時(shí)間內(nèi)訓(xùn)練一個(gè)非常大的模型比訓(xùn)練一個(gè)較小的模型來收斂效率更高。同時(shí),,據(jù)筆者所知,,Hestness 結(jié)果總是使用訓(xùn)練過的模型來收斂。
來源:[Kaplan 和 Candlish,,2020 年](https://arxiv.org/abs/2001.08361)
這有點(diǎn)離題了,,但是輸入數(shù)字之后,筆者們得到模型大小每增加 10 倍,,數(shù)據(jù)集大小就需要增加 4 到 50 倍,。讓筆者們假設(shè) 4 倍的方面要大方。對(duì)于標(biāo)簽需求而言,,4 倍的系數(shù)肯定要比 10 倍的系數(shù)好很多,,但仍然是很多。
進(jìn)入無監(jiān)督學(xué)習(xí),,這些方法正在變得越來越好,,“標(biāo)簽”的意義正朝著更容易獲得的方向發(fā)展。GPT-3 是在一堆網(wǎng)絡(luò)抓取數(shù)據(jù)上進(jìn)行訓(xùn)練的,,雖然也需要一些輸入處理,,但在進(jìn)入模型訓(xùn)練之前,它并不需要人工驗(yàn)證文本的每一句話,。在足夠大的規(guī)模下,,盡管看起來你的標(biāo)簽是嘈雜的,數(shù)據(jù)是混亂的,,但這都是可以的。
這里有很大的潛力,。如果你有 $N$ 個(gè)無監(jiān)督的例子,,那么 $N$ 個(gè)帶標(biāo)簽的例子會(huì)更好,但要記住,標(biāo)簽是需要花費(fèi)很多精力的,。標(biāo)記數(shù)據(jù)集的大小受你所能承擔(dān)的監(jiān)督的限制,,并且你可以用同樣的工作量獲得更多的無標(biāo)簽數(shù)據(jù)。
很多有關(guān)大數(shù)據(jù)的炒作都是由一些情節(jié)驅(qū)動(dòng)的,,這些情節(jié)顯示數(shù)據(jù)的創(chuàng)造速度比摩爾定律還快,。大肆炒作最終還是失敗了,因?yàn)闊o知的高管不明白這一點(diǎn):擁有數(shù)據(jù)與擁有有用的機(jī)器學(xué)習(xí)并不是一回事,??捎脭?shù)據(jù)的真實(shí)數(shù)量要少得多。這引起了研究界的哄笑,,但如果無監(jiān)督學(xué)習(xí)變得更好,,甚至垃圾數(shù)據(jù)也變得稍微有用的話,那么筆者們就會(huì)成為笑柄,。
無監(jiān)督學(xué)習(xí)已經(jīng)足夠好了嗎,?當(dāng)然沒有,100% 絕對(duì)沒有,。這比筆者預(yù)期的要近,。筆者希望看到更多的論文使用與目標(biāo)任務(wù)無關(guān)的數(shù)據(jù)源,以及更多的“ImageNet 時(shí)刻”,,通過“站在別人 GPU 時(shí)間的肩膀上”來構(gòu)建應(yīng)用,。
GPT-3 的結(jié)果在質(zhì)量上比筆者預(yù)期的要好
在人們開始擺弄 GPT-3 之前,筆者已經(jīng)更新了筆者的時(shí)間軸估計(jì),,但 GPT-3 是促使筆者寫下本文解釋原因的動(dòng)機(jī),。
筆者們?cè)?GPT-3 上看到的是,語言是一個(gè)非常靈活的輸入空間,。人們?cè)缇椭肋@一點(diǎn)了,。筆者認(rèn)識(shí)一位從事自然語言處理的教授,他說,,語言理解是一項(xiàng)人工智能完成的任務(wù),,因?yàn)橐慌_(tái)假設(shè)的機(jī)器完全理解并且回答所有的問題,就像人類一樣,。也有人認(rèn)為,,壓縮是智能的代表。正如 Hutter Prize 網(wǎng)站上所論述的那樣,,要壓縮數(shù)據(jù),,就必須識(shí)別數(shù)據(jù)中的模式,如果你把模式識(shí)別看作是智能的一個(gè)關(guān)鍵組成部分,,那么更好的壓縮器應(yīng)該更智能,。
需要說明的是,,這些并不是自然語言處理研究界的普遍觀點(diǎn)!關(guān)于 語言理解究竟意味著什么 這一問題,,人們展開了激烈的爭論,。筆者之所以提到它們,是因?yàn)檫@些觀點(diǎn)都是嚴(yán)肅的人所持有的,,而 GPT-3 的結(jié)果支持這些觀點(diǎn),。
GPT-3 有很多東西,但它的核心是一個(gè)系統(tǒng),,它使用大量的訓(xùn)練時(shí)間,,將一個(gè)非常大的文本預(yù)料壓縮成一組較小的 Transformer>) 權(quán)重。最終的結(jié)果展示了一個(gè)令人驚訝的知識(shí)廣度,,可以縮小到許多不同的任務(wù)中,,只要你能將這個(gè)任務(wù)變成文本的提示,以種子模型的輸出,。它是有缺陷,,但技術(shù)演示的廣度是有點(diǎn)荒謬的。同樣值得注意的是,,大多數(shù)這種行為都是由于善于預(yù)測文本的下一個(gè)標(biāo)記而產(chǎn)生的,。
這個(gè)成功是上一節(jié)(更好的無監(jiān)督學(xué)習(xí))的一個(gè)具體例子,也是第一部分(更好的工具)的標(biāo)志,。盡管在故事生成中有很多有趣的東西,,但筆者最感興趣的是 代碼生成演示。它們看起來就像是“Do What I Mean”編程接口的早期跡象,。
這太讓人興奮了,。使用 GPT-3,筆者構(gòu)建了一個(gè)布局生成器,,你只需在其中描述任何你想要的布局,,它就會(huì)為你生成 JSX 代碼。
如果現(xiàn)有的技術(shù)演示可以提高 5 倍,,那么,,如果它們變成了具體細(xì)節(jié)變成的關(guān)鍵生產(chǎn)力助推器,筆者也不會(huì)感到驚訝,。目前,,系統(tǒng)設(shè)計(jì)、代碼驗(yàn)證和調(diào)試很可能都是由人工來完成的,,但很多編程都是在代碼內(nèi)“著色”,。即使是低水平的功能也可能會(huì)改變游戲規(guī)則,就像 2000 年前的搜索引擎一樣,。AltaVista 在 1998 年的訪問量排名第 11,,肯定比 Google/Bing/DuckDuckGo 現(xiàn)在能做的還要糟糕,。
筆者們可以看到,代碼生成有用的一個(gè)具體方式是用于機(jī)器學(xué)習(xí)工作,。比如 神經(jīng)結(jié)構(gòu)搜索 和 黑盒超參數(shù)優(yōu)化。圍繞通用人工智能的常見爭論之一是 智能爆炸,,而這類黑盒方法被視為一種潛在的智能爆炸機(jī)制,。但是,它們長期以來一直存在一個(gè)關(guān)鍵的限制:即使你假定計(jì)算量是無限的,,也必須有人實(shí)現(xiàn)代碼,,從實(shí)驗(yàn)參數(shù)到最終性能提供一個(gè)干凈 API??商剿鞯乃阉骺臻g從根本上受到人類所認(rèn)為的搜索空間維度的限制,。如果你不設(shè)想搜索空間的一部分,機(jī)器學(xué)習(xí)就不能對(duì)它進(jìn)行探索,。
機(jī)器人學(xué)習(xí)中的域隨機(jī)化也存在同樣的問題,。這是筆者對(duì) OpenAI Rubik Cube 結(jié)果 的主要批評(píng)。這篇論文讀起來像是一年來對(duì) Rubik Cube 域隨機(jī)化搜索空間的發(fā)現(xiàn),,而不是任何可泛化的機(jī)器人學(xué)習(xí)課程,。最終的結(jié)果是基于一個(gè)從大量隨機(jī)模擬中學(xué)習(xí)泛化的模型,但這個(gè)模型之所以能達(dá)到這個(gè)效果,,是因?yàn)槿藗兓ㄙM(fèi)了大量的精力來確定哪些隨機(jī)化值得實(shí)施,。
現(xiàn)在想象一下,每當(dāng)你在模擬器中發(fā)現(xiàn)一個(gè)未知的新未知時(shí),,你可以非??焖俚貙?shí)現(xiàn)代碼的更改,將它添加到你的域隨機(jī)化搜索空間,。嗯,,這些方法看起來確實(shí)比較有前途。
GPT-3 當(dāng)然也存在一些問題,。它有一個(gè)固定的注意力窗口,。它沒有辦法從試圖預(yù)測下一個(gè)文本字符的過程中學(xué)習(xí)任何它還沒有學(xué)到的東西。要確定它知道什么,,需要學(xué)習(xí)如何提示 GPT-3 給出你想要的輸出,,而不是所有簡單的提示都能奏效。最后,,它沒有意圖或代理的概念,。它就是下一個(gè)詞的預(yù)測器。這就是它的全部,,筆者猜想,,試圖改變它的訓(xùn)練損失以增加意圖或代理,,將比聽起來要困難得多。(而在筆者看來已經(jīng)相當(dāng)困難了,!永遠(yuǎn)不要低估一個(gè)工作中的機(jī)器學(xué)習(xí)研究項(xiàng)目的慣性,。)
但是,這又一次讓筆者想起了很多早期的搜索引擎,。當(dāng)筆者還是個(gè)孩子的時(shí)候,,為了讓更好的搜索結(jié)果出現(xiàn)的頻率更高,筆者被教導(dǎo)如何組織搜索查詢關(guān)鍵詞,。要避免使用簡短的詞,,將重要的關(guān)鍵詞放在前面,不要輸入完整的句子,。筆者們之所以這樣處理,,是因?yàn)樗氖找媸侵档玫摹PT-3 可能與之類似,。
筆者現(xiàn)在期望計(jì)算將發(fā)揮更大的作用,,并看到模型的發(fā)展空間
出于筆者不想在本文中談及的原因,筆者不喜歡這樣的論點(diǎn),,即人們對(duì)人腦進(jìn)行計(jì)算估計(jì),,采用摩爾定律曲線,推斷出這兩條曲線,,然后宣布通用人工智能將在兩條曲線相交時(shí)發(fā)生,。筆者認(rèn)為他們把討論過于簡單化了。
然而,,不可否認(rèn)的是,,在機(jī)器學(xué)習(xí)進(jìn)程中,計(jì)算扮演著重要的角色,。但人工智能的能力有多少是由更好的硬件讓筆者們擴(kuò)展現(xiàn)有模型驅(qū)動(dòng)的,,又有多少是由新的機(jī)器學(xué)習(xí)理念驅(qū)動(dòng)的呢?這是一個(gè)復(fù)雜的問題,,特別是因?yàn)閮烧卟⒎仟?dú)立的,。新的想法可以讓硬件得到更好的利用,而更多的硬件可以讓你嘗試更多的想法,。筆者在 2015 年對(duì)這種可怕的簡化的猜測是,,通用人工智能進(jìn)步的 50% 將來自計(jì)算,50% 將來自更好的算法,。在 2015 年的模型之間缺失了幾樣?xùn)|西,,還有一些東西將“通用”放在了通用人工智能中。筆者不相信依靠更多的計(jì)算能解決這個(gè)問題,。
從那以后,,有很多成功的例子都是由擴(kuò)大模型來實(shí)現(xiàn)的,,筆者現(xiàn)在認(rèn)為這個(gè)平衡更像是 65% 的計(jì)算,35% 的算法,。筆者懷疑許多類似人類的學(xué)習(xí)行為可能只是更大模型的突顯特性,。筆者還懷疑,許多人類認(rèn)為是“智能的”,、“有意的”事物,,其實(shí)都不是。筆者們只是想認(rèn)為自己是聰明的,、有意識(shí)的。筆者們不是,,機(jī)器學(xué)習(xí)模型需要跨越的門檻也沒有筆者們想象的那么高,。
如果計(jì)算發(fā)揮了更大的作用,那么時(shí)間軸就會(huì)加快,。機(jī)器學(xué)習(xí)理念的瓶頸是機(jī)器學(xué)習(xí)社區(qū)的規(guī)模和發(fā)展,,而更快的硬件是由全球消費(fèi)者對(duì)硬件的需求推動(dòng)的。后者是一股更強(qiáng)大的力量,。
讓筆者們先回到 GPT-3,。GPT-3 并不是你可以構(gòu)造最大的 Transformer,因此,,有理由建造更大的 Transformer,。如果將大型 Transformer 的性能標(biāo)度為 2 數(shù)量級(jí)(15 億個(gè)參數(shù)用于 GPT-2,1750 億個(gè)參數(shù)用于 GPT-3),,那么再標(biāo)度為 2 數(shù)量級(jí)也不會(huì)太奇怪,。當(dāng)然,也可能不會(huì),。(Kaplan 等人,,2020 年)標(biāo)度律應(yīng)該從參數(shù) $10^{12}$ 開始相互矛盾。這與 GPT-3 相差不到 1 個(gè)數(shù)量級(jí),。不過,,這并不意味著該模式將停止改進(jìn)。這只是意味著它會(huì)以不同的速度提高,。筆者不認(rèn)為有什么好的理由可以證明筆者們應(yīng)該相信一個(gè) 100 倍的模型在質(zhì)量上不會(huì)有什么不同,。
尤其是你轉(zhuǎn)向多模態(tài)學(xué)習(xí)(multi-modal learning)的時(shí)候,更是如此,。專注于 GPT-3 的文本生成是遺漏了主要的情節(jié)線程,。如果你相信 傳言,OpenAI 一直致力于將音頻和視頻數(shù)據(jù)納入他們的大型模型中,。到目前為止,,他們的研究產(chǎn)出與此一致,。MuseNet 是一個(gè)基于大型 Transformer 的音頻生成模型。最近的 Image GPT 是針對(duì)圖像的生成模型,,也是基于大型 Transformer 的,。
MuseNet 問世時(shí),是不是當(dāng)時(shí)最先進(jìn)的音頻合成技術(shù),?不是,。Image GPT 是圖像生成的最新技術(shù)嗎?也不是,。專門針對(duì)音頻和圖像生成的模型架構(gòu)比 MuseNet 和 Image GPT 做得更好,。若專注于這一點(diǎn),就忽略了 OpenAI 所要表達(dá)的觀點(diǎn):一個(gè)足夠大的 Transformer 并非最先進(jìn)的,,但它在這些截然不同的數(shù)據(jù)格式上做得足夠好,。還有比 MuseNet 更好的模型,但它仍然足夠支持一些愚蠢但也許有用的音頻完成,。
如果你已經(jīng)證明一個(gè)大型 Transformer 可以單獨(dú)處理音頻,、圖像和文本,為什么不去試試同時(shí)對(duì)這三個(gè)進(jìn)行測試呢,?據(jù)推測,,如果所有的模態(tài)都經(jīng)過類似的神經(jīng)網(wǎng)絡(luò)架構(gòu),大概這種多模態(tài)學(xué)習(xí)將會(huì)更容易,,而他們的研究表明,,Transformer 的工作足以成為這種架構(gòu)。
OpenAI 可以利用他們已經(jīng)擁有的關(guān)于大型 Transformer 的任何直覺,,這一點(diǎn)很有幫助,。一旦加入其他數(shù)據(jù)流,肯定會(huì)有足夠的數(shù)據(jù)來訓(xùn)練更大的無監(jiān)督模型,。當(dāng)然,,你也可以只使用文本,但你也可以使用所有的網(wǎng)絡(luò)文本,,所有的視頻和所有的音頻,。只要你能夠擴(kuò)展到足夠大的規(guī)模,就不應(yīng)該有什么取舍,。
大型 Transformer 會(huì)是筆者們將使用的最后一個(gè)模型架構(gòu)嗎,?不,也許不是,。它們目前的一些弱點(diǎn)似乎難以解決,。但筆者確實(shí)看到了它們的發(fā)展空間,可以做得比目前更多。模型架構(gòu)只會(huì)越來越好,,所以擴(kuò)展現(xiàn)有模型的能力一定是 10 年或 20 年后,,更強(qiáng)的模型架構(gòu)的擴(kuò)展版本所能實(shí)現(xiàn)的下限。現(xiàn)在可能發(fā)生的事情已經(jīng)很有趣了,,但也略微讓人擔(dān)憂,。
整體局勢
在“You and Your Research”(《你和你的研究》中,Richard Hamming 曾提出一條著名的建議:“你所在的領(lǐng)域中,,重要問題是什么,?為什么你不去研究它們?”當(dāng)然,,通用人工智能是機(jī)器學(xué)習(xí)最重要的問題之一,。
那么,對(duì)于機(jī)器學(xué)習(xí)來說,,這個(gè)問題的自然版本是,,“需要解決哪些問題,才能實(shí)現(xiàn)通用人工智能,?”你希望這個(gè)領(lǐng)域在到達(dá)那里的路上會(huì)遇到哪些路標(biāo),這些路標(biāo)之間的路徑有多少不確定性,?
筆者覺得更多的路標(biāo)開始成為焦點(diǎn),。如果你問 2015 年的筆者,筆者們將如何開發(fā)通用人工智能,?筆者會(huì)告訴你,,筆者根本就不知道怎么弄。在筆者認(rèn)為與人類智力水平有關(guān)的任何挑戰(zhàn)上,,筆者不認(rèn)為筆者們?nèi)〉昧耸裁从幸饬x的進(jìn)展,。但是,如果你問 2020 年的筆者,,如何開發(fā)通用人工智能,,盡管筆者仍然看到很大的差距,假設(shè)你很幸運(yùn),,筆者對(duì)如何實(shí)現(xiàn)通用人工智能有所了解,。這對(duì)筆者來說是最大的轉(zhuǎn)變。
對(duì)于大規(guī)模統(tǒng)計(jì)機(jī)器學(xué)習(xí)對(duì)人工智能的意義,,人們一直存在分歧,。深度學(xué)習(xí)的反對(duì)者不能否認(rèn)大型統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型非常有用,但深度學(xué)習(xí)的擁護(hù)者也不能否認(rèn)它們非常昂貴,。指出最先進(jìn)的模型需要多少計(jì)算量,,這是一個(gè)悠久的傳統(tǒng)。來看看這張照片,在李世石在與 AlphaGo 比賽圍棋時(shí),,就在 Twitter 上流轉(zhuǎn)開來了,。
像這樣的論點(diǎn)很好地將討論引向模型與人類相比不足之處,并且戳中筆者們現(xiàn)有的模型可能存在的根本性缺陷,,但筆者覺得這些論點(diǎn)還是過于以人為中心了,。筆者們對(duì)人類如何學(xué)習(xí)的理解還不完全,但筆者們還是接管了這個(gè)星球,。同樣,,筆者們不需要對(duì)“理解”或“知識(shí)”的含義達(dá)成細(xì)粒度上的一致,人工智能系統(tǒng)就能對(duì)世界產(chǎn)生深遠(yuǎn)的影響,。筆者們也不必打造像人類一樣學(xué)習(xí)的人工智能系統(tǒng),。如果它們能夠完成大多數(shù)人類水平的任務(wù),那么剩下的工作就是由經(jīng)濟(jì)學(xué)來完成,,不管這些系統(tǒng)是否是按照筆者們自己的形象制造的,。
竭力拒絕
關(guān)于通用人工智能的爭論總是有點(diǎn)混亂,因?yàn)槿藗冊(cè)谥匾氖虑樯?,有著迥然不同的信念,。一個(gè)有用的做法是,假設(shè)通用人工智能在短期內(nèi)是可能的,,確定在那個(gè)假設(shè)的未來可能是真實(shí)的,,然后評(píng)估它聽起來是否合理。
這與提出通用人工智能不可能發(fā)生的理由是截然不同的,,因?yàn)橛泻芏嗬碛烧f明通用人工智能不會(huì)出現(xiàn),。但是,為什么會(huì)出現(xiàn)通用人工智能,,也有大量的理由,。這項(xiàng)練習(xí)是要把更多精力放在后者上,并且看看對(duì)所有事情都說“No”是多么的困難,。這有助于你將注意力集中在真正重要的論點(diǎn)上,。
讓筆者試試看吧。如果通用人工智能很快成為可能的話,,這可能會(huì)如何發(fā)生呢,?嗯,這不需要更多的新想法,。它很可能是基于現(xiàn)有模型的擴(kuò)展,,因?yàn)楣P者認(rèn)為,該領(lǐng)域沒有太多時(shí)間進(jìn)行全面的范式轉(zhuǎn)換,。而且,,它還需要大量的資金,,因?yàn)樗枰谝?guī)模化,,而規(guī)?;枰Y金。
也許有人開發(fā)了一個(gè)應(yīng)用或工具什么的,,使用的模型是 GPT-3 的尺寸或更大的尺寸,,那是一個(gè)巨大的生產(chǎn)力倍增器。想象一下,,第一臺(tái)計(jì)算機(jī),、Lotus Notes 或 Microsoft Excel 是怎么接管商業(yè)世界的。記住,,是工具推動(dòng)了進(jìn)步,!如果你的代碼速度加快 2 倍,那可能就是研究產(chǎn)出的 1.5 倍,。上移或下移取決于實(shí)現(xiàn)過程中遇到瓶頸的頻率,。
如果這種生產(chǎn)力的提升有足夠的價(jià)值,使經(jīng)濟(jì)效益得以實(shí)現(xiàn),,而且一旦考慮推理和訓(xùn)練成本,,就能賺取凈利潤,那么就有生意可做了:從字面上說,,大公司為你的工具買單,。向客戶付費(fèi)會(huì)帶動(dòng)更多的資金和投資,從而為更多的硬件買單,,從而使訓(xùn)練規(guī)模更大。在云計(jì)算中,,你購買多余的硬件來預(yù)測消費(fèi)者需求的激增,,然后出售對(duì)額外硬件的訪問權(quán)來賺錢。在這種情況下,,你購買多余的硬件來預(yù)測消費(fèi)者推理需求的峰值,,然后將多余的算力提供給研究人員,看看他們會(huì)得出什么結(jié)果,。
這種機(jī)制已經(jīng)開始發(fā)揮作用了,。你可能認(rèn)得下圖所示的芯片。
上圖是第一個(gè) TPU 的照片,,正如 [Google 博客')(https://cloud.google.com/blog/products/gcp/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu) 中解釋的那樣:
盡管 Google 早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)打造特殊應(yīng)用集成電路(Application-Specific Integrated Circuit,,ASIC),但在 2013 年,,情況變得緊迫起來,。這時(shí)筆者們才意識(shí)到,神經(jīng)網(wǎng)絡(luò)快速增長的計(jì)算需求可能需要筆者們將運(yùn)營的數(shù)據(jù)中心數(shù)量增加一倍。
Google 需要在生產(chǎn)中運(yùn)行更多的神經(jīng)網(wǎng)絡(luò),。這帶動(dòng)了更多的硬件投資,。幾年后,筆者們現(xiàn)在發(fā)展到了 TPU v3,,有傳言稱,,F(xiàn)acebook 正在招聘人員為 AR 技術(shù)定制芯片。因此,,硬件需求的故事不僅僅是可信的,,而且很可能是真實(shí)的。如果你可以擴(kuò)展到做一些不切實(shí)際的事情,,那么就會(huì)激發(fā)研究和需求,,使其變得切實(shí)可行。
在此基礎(chǔ)上,,筆者們假設(shè)跨模態(tài)學(xué)習(xí)結(jié)果比預(yù)期的規(guī)?;瘜W(xué)習(xí)更容易。與 GPT-3 相似的涌現(xiàn)性出現(xiàn)了,。目標(biāo)跟蹤和 物理直覺 被證明是自然發(fā)生的現(xiàn)象,,只需從圖像中學(xué)習(xí),不需要直接的環(huán)境交互或體現(xiàn),。通過更多的調(diào)整,,更大的模型,甚至更多的數(shù)據(jù),,你最終會(huì)得到一個(gè)豐富的圖像,。文本和音頻的特征空間。從頭開始訓(xùn)練任何同喜很快就會(huì)變得不可思議,。你為什么要這樣做,?
在幾個(gè)領(lǐng)域中,先前的大部分工作都已經(jīng)過時(shí)了,,如視覺的 SIFT 特征,、機(jī)器翻譯的 分析樹,以及語音識(shí)別的 音素 解碼步驟等,。深度學(xué)習(xí)已經(jīng)扼殺了這些方法,。那些對(duì)這些技術(shù)一無所知的人正在研究神經(jīng)網(wǎng)絡(luò),在這三個(gè)領(lǐng)域都取得了最先進(jìn)的成果,。這有點(diǎn)讓人感到難過,,因?yàn)橛行┻^時(shí)的想法,確實(shí)對(duì)筆者們理解語言和語音的方式進(jìn)行了很酷的分解,,但事實(shí)就是如此,。
隨著模型變得越來越大,,并不斷顯示出改進(jìn)的性能,研究結(jié)合了一部分方法,,這些方法已被證明可通過計(jì)算進(jìn)行擴(kuò)展,。同樣,這種情況在深度學(xué)習(xí)中也發(fā)生過,,并且仍然在發(fā)生,。當(dāng)許多領(lǐng)域使用同一套技術(shù)時(shí),你會(huì)得到更多的知識(shí)共享,,這將推動(dòng)更好的研究,。CNN 對(duì)于考慮臨近值有很強(qiáng)的先驗(yàn)性。它們最初用于圖像識(shí)別,,但現(xiàn)在對(duì)基因組學(xué)(Nature Genetics,,2019 年),以及音樂生成(van den Oord 等人,,2016 年)都有影響,。Transformer 是一種序列模型,最早用于語言建模,。后來它們被用于視頻理解(Sun 等人,,2019 年)。這種趨勢可能還會(huì)繼續(xù)下去,。機(jī)器學(xué)習(xí)已經(jīng)達(dá)到了這樣的一個(gè)地步,,將某件事物描述為“深度學(xué)習(xí)”實(shí)際上是沒喲爻的,因?yàn)槎鄬痈兄呀?jīng)與足夠多的領(lǐng)域結(jié)合在一起,,你無需在指定任何東西,。也許過五年以后,筆者們會(huì)有一個(gè)新的流行詞取代“深度學(xué)習(xí)”,。
如果這個(gè)模型擅長語言,、語音和視覺數(shù)據(jù),那么,,人類有哪些“傳感器”輸入是這個(gè)模型所沒有的?無非就是與物理化體現(xiàn)掛鉤的傳感器,,比如味覺,、觸覺等。筆者們能說智能在這些刺激上遇到了瓶頸嗎,?當(dāng)然可以,,但筆者卻不認(rèn)為是這樣。你可以說只需要文字就可以假裝成人類,。
在上述的場景中,,有很多事情要做好,。多模態(tài)學(xué)習(xí)必須奏效。行為需要繼續(xù)從規(guī)模擴(kuò)展中出現(xiàn),,因?yàn)檠芯咳藛T的時(shí)間主要是投入到幫助你實(shí)現(xiàn)規(guī)?;南敕ㄖ校皇菤w納先驗(yàn),。硬件效率必須與時(shí)俱進(jìn),,這包括清潔能源發(fā)電和修復(fù)不斷增加的硬件集群??偟膩碚f,,必須要做好的事情很多,這讓筆者覺得不太可能,,但還是有值得認(rèn)真對(duì)待的可能性,。
筆者在筆者的故事中看到最有可能的問題是,對(duì)于語言以外的任何東西,,無監(jiān)督學(xué)習(xí)可能會(huì)更加困難,。記住,在 2015 年,,無監(jiān)督學(xué)習(xí)為筆者們提供了用于語言的詞向量,,而對(duì)于圖像卻沒有取得什么好的成績。一個(gè)合理的假設(shè)是,,語言的組合特性使得它非常適合于無監(jiān)督學(xué)習(xí),,而這在其他輸入模式中是不適用的。如果這是真的,,筆者可能因?yàn)檫^分關(guān)注成功而高估了研究,。
正式由于這些原因,筆者只是將筆者的估計(jì)調(diào)整了幾年,。筆者并不認(rèn)為 GPT-3 本身就是一個(gè)從根本上調(diào)整筆者所認(rèn)為是可能的,。筆者認(rèn)為遷移學(xué)習(xí)比預(yù)期的要難也是一個(gè)障礙。但在網(wǎng)上,,筆者看到的大多數(shù)理由都是加速筆者的估計(jì),,而不是放慢它們。
以上是有關(guān)通用人工智能什么時(shí)候?qū)崿F(xiàn)的相關(guān)內(nèi)容,,希望對(duì)伙伴們有所幫助,,想要了解更多資訊,請(qǐng)繼續(xù)關(guān)注可圈可點(diǎn)網(wǎng)站,。