谷歌(gē)Gorila強化(huà)學習(xí)體(tǐ)系解析_IT新聞

【編者按】本文(wén)根據ICML 2015第二天David&nbαΩπ₽sp;Silver和(hé)Arun N♣↔αair的(de)演講整理(lǐ)。David Silver是(shì)谷歌(gē)DeepMind強化(huà)學習(xí)團λε♠↑隊的(de)主管，Arun Nair來(lái)自(zì)D γeepmind應用(yòng)團隊，演講的(de÷ε<)主題是(shì)谷歌(gē)強化(huà)學習(xí₽"∏)體(tǐ)系Gorila，分(fēn)别從(cóng)學術(shù)研究和∑←(hé)實際應用(yòng)的(de)角度來(lái)解析。

Gorila (General Reinforcement≤♦↓↓ Learning Architectu‍‌ε♣re)

在5月(yuè)份聖地(dì)亞哥(gē)舉辦的(de)I∏÷CLR（International ✘σβ;Conference on Learning ™≤;Representations）會(huì)議δ↕(yì)上(shàng)，Silver對(duì↕‌)同一(yī)主題做(zuò)了(le)主題演講，但(dàn)那(nà)次演講更注重強化(huà' ←)學習(xí)（RL）的(de)普遍利益，而不₽≠(bù)是(shì)Gorila本身(s£€↓hēn)。

總的(de)來(lái)說(shuō)，↓ 在前饋監督學習(xí)和(hé)無監督強化(huà)學習(xí≤§σλ)方面，Gorila是(shì)Jeff Dean∞→₩等人(rén)開(kāi)發的(de)著名的≠£Ω(de)DistBelief的(de)一(yī)般化(huà)。

什(shén)麽是(shì)強化(huà)學習(xí)？

從(cóng)ML（機(jī)器(qì)學習(x✔↑≤í)）的(de)角度來(lái)看(kàn)，強化(huà)學習₽<δ‌(xí)（Reinforcement Learning）比監督式學習(xí)有(yǒu)某些(xiē)更優秀的(de)特點，∞'但(dàn)也(yě)很(hěn)難成功地(dì)實現(xiàn)它。監督或σ↓Ω半監督學習(xí)取決于兩個(gè)關鍵特性：

有(yǒu)良好(hǎo)标記的(de)數®✔♥π(shù)據來(lái)告訴你(nǐ)訓練階段中的(deδ<♥☆)網絡是(shì)否正确工(gōng)作(zuò)。标記的(de)數(s→ &™hù)據往往很(hěn)難得(de)到(dào)，而且得(de€ε÷β)到(dào)大(dà)規模标記數(shù)據是(sε©♦≠hì)需要(yào)昂貴的(de)支出，因為(wèi)我們需要(yào)人(r♣'∑én)工(gōng)為(wèi)數(shù)據打标簽。
有(yǒu)一(yī)個(gè)定義良好(hǎo)的(de)× ¥→教師(shī)模塊（Teacher module），并能(néng)夠構建λ β你(nǐ)的(de)目标函數(shù)，用(y¶πòng)這(zhè)樣的(de)方式，你(nǐ)甚至可(kě★÷)以有(yǒu)一(yī)個(gè)教師(shī)模₹≥¶塊。

在無監督學習(xí)中，沒有(yǒu)類别标簽和(hé)&ldqu<∏o;教師(shī)”。最常見(jiàn)的(de)無監督學習(xí€<↕™)的(de)例子(zǐ)是(shì)，在沒有(yǒu)外(wài)×β✔界幫助的(de)情況下(xià)，算(suàn)法可(kě)以根據數(s™©∑λhù)據集的(de)本質特征進行(xíng)聚類。

強化(huà)學習(xí)（RL）和(hé)監督學習(xí)、無監™>→督學習(xí)都(dōu)不(bù)同。RL從(§£cóng)另一(yī)個(gè)角度考慮問(wèn>♠)題，一(yī)個(gè)網絡是(shì)否可(kě)以在現(x ♦iàn)在通(tōng)過采取一(yī)個(gè)或多(duō)個(gè)≠↔動作(zuò)并在将來(lái)有(yǒu)所回報(bào)或者付出（潛在×γ±←的(de)遙遠(yuǎn)的(de)，即t步之後的(de'×≤)步驟）。這(zhè)種延遲的(de)獎勵方案更難訓練因為(wèi)我們∑÷☆可(kě)能(néng)有(yǒu)大(dàΩ∞)量的(de)t步需要(yào)回滾，而且我們同樣需要(yào)解決債¶₽ε權轉讓的(de)問(wèn)題，也(yě)就(jiγ✔ù)是(shì)把網絡選擇的(de)多(d≠£&→uō)個(gè)動作(zuò)和(hé)實現(x✔π∞iàn)目标結合起來(lái)。這(zhè)沒有(yǒu)教師(sh δ≤®ī)模塊也(yě)沒有(yǒu)多(duγ€ō)少(shǎo)标記的(de)數(shù)據，我們隻需要(yào)能(n×♠★×éng)夠測量環境中動作(zuò)的(de)結果。

從(cóng)數(shù)學意義上(sh•£↕≤àng)來(lái)說(shuō)，對(duì)于一(yī)個(gè)給定的(<≠∏♣de)環境狀态（包含動作(zuò)action），網絡需要(yào)選擇最好(hǎo)的(de)aλ ₽✘ction，去(qù)學習(xí)最好(hǎo)的(de)策略從( &cóng)而得(de)到(dào)最好(hǎo)的(de)結★>果。比如(rú)求解Q learning/貝爾曼≠∞最優方程（來(lái)自(zì)動态規劃派）。

可(kě)視(shì)化(huà)最簡單的(d× e)方法是(shì)玩(wán)視(sh→±'ì)頻(pín)遊戲（這(zhè)也(yě)是(shì)确保←≥主流媒體(tǐ)覆蓋面豐富的(de)一(yī®)種很(hěn)棒的(de)方式）。:) ‌♠DeepMind團隊使用(yòng)49款遊戲♥γΩ♥（包括Atari 2600&nbπδεsp;- Seaquest，Tennis，B®φ¥oxing等）來(lái)訓練網絡。

關于Gorila

來(lái)自(zì)于David&nb§≈≥↑sp;Silver2015年(nián)在ICML大(€♥✘§dà)會(huì)上(shàng)介紹強化(huà)學↕>$習(xí)的(de)示意圖（已獲得(de)試用(yòng)§≈∑許可(kě)）

我對(duì)Gorila感興趣的(de)地(dì ★>)方是(shì)，它與Dean的(de)MapRe$☆γ duce或者Chang的(de)BigTab•±le有(yǒu)多(duō)少(shǎo)相'γ≥(xiàng)似之處。在這(zhè)兩種情況下(xià)，一(yī)個(gè₹γ♠)很(hěn)艱難的(de)問(wèn)題✔≠（有(yǒu)效利用(yòng)異構計(jì)算(suàn)集群對(duì)✔✔ε非常大(dà)數(shù)據集的(de)存儲和(hé×Ω")查詢）以起初從(cóng)未有(yǒu)過的 ↓£(de)規模和(hé)水(shuǐ)平被新的(de)設計(jì§")良好(hǎo)的(de)網絡解決了(le)。

Gorila的(de)四個(gè)關鍵組件(jiàn)：

Actor（有(yǒu)許多(duō)Actor，它們與遊戲玩(wán)£™Ω家(jiā)、服務用(yòng)戶等相(xiàng)對(du♥δ★σì)應）
Replay memory （這(zhè)是(shì‍§₽™)一(yī)個(gè)關鍵組件(jiàn)，提高(gāo)了(le) ↔RL系統的(de)性能(néng)，并且使得(de)₩γ₹Q learning任務得(de)到(dào£π)學習(xí)）
Learner（并行(xíng)，所以可(kě)以産生(shēn↓÷≈g)比之前叠代更多(duō)的(de)梯度漸變）
Q網絡或模型本身(shēn)（分(fēn)布式使用(yòn≠✘$‌g)DistBelief，DistBelief可(kě)以并行(xíπ∏‍ng)處理(lǐ)更多(duō)的(de)網絡）

啓示

所有(yǒu)這(zhè)一(yī)切的(de)意義是(shì) ¶'相(xiàng)當明(míng)顯的(d®™∏☆e)，但(dàn)是(shì)他(tā)們的(de)重β'要(yào)性仍值得(de)一(yī)提：

小(xiǎo)組的(de)報(bào)告中，性能(néng)和(hé)挂ε↓✔鐘(zhōng)訓練時(shí)間(jiān)（在49款Ata£>ri遊戲中，v2在41款遊戲中打敗了(le)v1（自(zì)然☆π©•DQN），在其中的(de)25款遊戲中，他(tā)們分(fēn)≠♥‍≈别以22×2倍、11×5倍勝過★¥γ人(rén)類玩(wán)家(jiā)）顯著加快(kuài)。訓練時(sh☆ <≠í)間(jiān)從(cóng)2周降至1天。因此，從(c÷ ♣óng)非常基本研究到(dào)二輪叠代的(de)"✘λ>速度是(shì)快(kuài)的(de)（按我的(de)•€≈δ測算(suàn)，不(bù)足一(yī)年(nián)）。
谷歌(gē)正在圍繞ML建設相(xiàng)同的©'(de)基礎架構，因為(wèi)他(tā)們面臨著(zhe)其他¶✔$(tā)問(wèn)題（Gorila用(yò£±φ∑ng)于強化(huà)學習(xí)，MapReduce€↑♠負責并行(xíng)處理(lǐ)，BigTable則用(yòng)β★₩來(lái)數(shù)據存儲）。曆史經驗告訴我們，遲早會(huì)"<¶有(yǒu)開(kāi)源化(huà)，而且在軟件(ji •♦àn)中使用(yòng)強化(huà)學習(xí)将是(shì)常事(₹Ω<shì)（然而現(xiàn)在它還(hái♣→)很(hěn)深奧，甚至在深度學習(xí)社區(qū)£ ✔中也(yě)如(rú)此）。
随著(zhe)Gorila的(de)推進，強化(huà)學習(xí)Ωπ'←有(yǒu)著(zhe)比視(shì)頻(pín)遊戲和(h↔★é)系統更為(wèi)廣泛的(de)實際應Ω¶用(yòng)潛力。如(rú)果你(nǐ)想象我們都(dōu)是(s§ hì)谷歌(gē)服務（YouTube，AdWords等）中的(de)演員♦'≠←(yuán)或者主演，那(nà)麽使用(yòng)RL為(wèi)我挑選最↓®≤合适的(de)廣告、向我推薦新的(de)內(nèi)容等将會(huì)變的§•≤(de)相(xiàng)當現(xiàn)實。

最後，Silver和(hé)Nair提到(dào)了(le)®₹将要(yào)發表的(de)論文(wén)，一(♠♠♥ yī)旦發表，我将馬上(shàng)提供鏈接。

太原APP解決方案

APP定制(zhì)開(kāi)發

手機(jī)網站(zhàn)

手機(jī)用(yòng)戶已超越傳統PC用(yòng)戶，移動商機(jī) ↑來(lái)襲！龍光(guāng)志(zhì)遠(yuǎn)科(kē)技(j≤★ì)為(wèi)您研發手機(jī)網站(zhàn)，符合百度四星标準，>★♣ 更适合網絡營銷。

關于我們

聯系我們

電(diàn)話(huà)： 2895597 地(dì)址：山β✔∏(shān)西(xī)省太原市(shì)許坦東(dō§±Ωng)街(jiē)錦東(dōng)國(guó)際a座29層

【小(xiǎo)編推薦】谷歌(gē)Gorila強←÷化(huà)學習(xí)體(tǐ)系解析