【小(xiǎo)編推薦】谷歌(gē)Gorila強←÷化(huà)學習(xí)體(tǐ)系解析

2015-07-24   | ₽₽¥λ;  發布者:梁國(guó)芳&nb↓¥∏sp;  | &nbs♣©≥p; 查看(kàn):3320次

IT新聞
 【編者按】本文(wén)根據ICML 2015第二天David&nbαΩπ₽sp;Silver和(hé)Arun N♣↔αair的(de)演講整理(lǐ)。David Silver是(shì)谷歌(gē)DeepMind強化(huà)學習(xí)團λε♠↑隊的(de)主管,Arun Nair來(lái)自(zì)D   γeepmind應用(yòng)團隊,演講的(de÷ε<)主題是(shì)谷歌(gē)強化(huà)學習(xí₽"∏)體(tǐ)系Gorila,分(fēn)别從(cóng)學術(shù)研究和∑←(hé)實際應用(yòng)的(de)角度來(lái)解析。

Gorila (General Reinforcement≤♦↓↓ Learning Architectu‍‌ε♣re) 

在5月(yuè)份聖地(dì)亞哥(gē)舉辦的(de)I∏÷CLR(International ✘σβ;Conference on Learning ™≤;Representations)會(huì)議δ↕(yì)上(shàng),Silver對(duì↕‌)同一(yī)主題做(zuò)了(le)主題演講,但(dàn)那(nà)次演講更注重強化(huà' ←)學習(xí)(RL)的(de)普遍利益,而不​₽≠(bù)是(shì)Gorila本身(s£€↓hēn)。

總的(de)來(lái)說(shuō),↓ 在前饋監督學習(xí)和(hé)無監督強化(huà)學習(xí≤§σλ)方面,Gorila是(shì)Jeff Dean∞→₩等人(rén)開(kāi)發的(de)著名的≠£Ω(de)DistBelief的(de)一(yī)般化(huà)。

什(shén)麽是(shì)強化(huà)學習(xí)?

從(cóng)ML(機(jī)器(qì)學習(x✔↑≤í))的(de)角度來(lái)看(kàn),強化(huà)學習₽<δ‌(xí)(Reinforcement Learning)比監督式學習(xí)有(yǒu)某些(xiē)更優秀的(de)特點,∞'但(dàn)也(yě)很(hěn)難成功地(dì)實現(xiàn)它。監督或σ↓Ω半監督學習(xí)取決于兩個(gè)關鍵特性:

 

  1. 有(yǒu)良好(hǎo)标記的(de)數®✔♥π(shù)據來(lái)告訴你(nǐ)訓練階段中的(deδ<♥☆)網絡是(shì)否正确工(gōng)作(zuò)。标記的(de)數(s→ &™hù)據往往很(hěn)難得(de)到(dào),而且得(de€ε÷β)到(dào)大(dà)規模标記數(shù)據是(sε©♦≠hì)需要(yào)昂貴的(de)支出,因為(wèi)我們需要(yào)人(r♣'∑én)工(gōng)為(wèi)數(shù)據打标簽。
  2. 有(yǒu)一(yī)個(gè)定義良好(hǎo)的(de)× ¥→教師(shī)模塊(Teacher module),并能(néng)夠構建λ β你(nǐ)的(de)目标函數(shù),用(y¶πòng)這(zhè)樣的(de)方式,你(nǐ)甚至可(kě★÷)以有(yǒu)一(yī)個(gè)教師(shī)模₹≥¶塊。

 

在無監督學習(xí)中,沒有(yǒu)類别标簽和(hé)&ldqu<∏o;教師(shī)”。最常見(jiàn)的(de)無監督學習(xí€<↕™)的(de)例子(zǐ)是(shì),在沒有(yǒu)外(wài)×β✔界幫助的(de)情況下(xià),算(suàn)法可(kě)以根據數(s™©∑λhù)據集的(de)本質特征進行(xíng)聚類。

強化(huà)學習(xí)(RL)和(hé)監督學習(xí)、無監™>→督學習(xí)都(dōu)不(bù)同。RL從(§£cóng)另一(yī)個(gè)角度考慮問(wèn>♠)題,一(yī)個(gè)網絡是(shì)否可(kě)以在現(x  ♦iàn)在通(tōng)過采取一(yī)個(gè)或多(duō)個(gè)≠↔動作(zuò)并在将來(lái)有(yǒu)所回報(bào)或者付出(潛在×γ±←的(de)遙遠(yuǎn)的(de),即t步之後的(de'×≤)步驟)。這(zhè)種延遲的(de)獎勵方案更難訓練因為(wèi)我們∑÷☆可(kě)能(néng)有(yǒu)大(dàΩ∞)量的(de)t步需要(yào)回滾,而且我們同樣需要(yào)解決債¶₽ε權轉讓的(de)問(wèn)題,也(yě)就(jiγ✔ù)是(shì)把網絡選擇的(de)多(d≠£&→uō)個(gè)動作(zuò)和(hé)實現(x✔π∞iàn)目标結合起來(lái)。這(zhè)沒有(yǒu)教師(sh δ≤®ī)模塊也(yě)沒有(yǒu)多(duγ€ō)少(shǎo)标記的(de)數(shù)據,我們隻需要(yào)能(n×♠★×éng)夠測量環境中動作(zuò)的(de)結果。

從(cóng)數(shù)學意義上(sh•£↕≤àng)來(lái)說(shuō),對(duì)于一(yī)個(gè)給定的(<≠∏♣de)環境狀态(包含動作(zuò)action)​​,網絡需要(yào)選擇最好(hǎo)的(de)aλ ₽✘ction,去(qù)學習(xí)最好(hǎo)的(de)策略從( &cóng)而得(de)到(dào)最好(hǎo)的(de)結★>果。比如(rú)求解Q learning/貝爾曼≠∞最優方程(來(lái)自(zì)動态規劃派)

可(kě)視(shì)化(huà)最簡單的(d× e)方法是(shì)玩(wán)視(sh→±'ì)頻(pín)遊戲(這(zhè)也(yě)是(shì)确保←≥主流媒體(tǐ)覆蓋面豐富的(de)一(yī®​)種很(hěn)棒的(de)方式)。:) ‌♠DeepMind團隊使用(yòng)49款遊戲♥γΩ♥(包括Atari 2600&nbπδεsp;- Seaquest,Tennis,B®φ¥oxing等)來(lái)訓練網絡。

關于Gorila

 

來(lái)自(zì)于David&nb§≈≥↑sp;Silver2015年(nián)在ICML大(€♥✘§dà)會(huì)上(shàng)介紹強化(huà)學↕>$習(xí)的(de)示意圖(已獲得(de)試用(yòng)§≈∑許可(kě))

我對(duì)Gorila感興趣的(de)地(dì ​★>)方是(shì),它與Dean的(de)MapRe$☆γ duce或者Chang的(de)BigTab•±le有(yǒu)多(duō)少(shǎo)相'γ≥(xiàng)似之處。在這(zhè)兩種情況下(xià),一(yī)個(gè₹γ♠)很(hěn)艱難的(de)問(wèn)題✔≠​(有(yǒu)效利用(yòng)異構計(jì)算(suàn)集群對(duì)✔✔ε非常大(dà)數(shù)據集的(de)存儲和(hé×Ω")查詢)以起初從(cóng)未有(yǒu)過的 ↓£(de)規模和(hé)水(shuǐ)平被新的(de)設計(jì§")良好(hǎo)的(de)網絡解決了(le)。

Gorila的(de)四個(gè)關鍵組件(jiàn):

 

 

啓示

所有(yǒu)這(zhè)一(yī)切的(de)意義是(shì) ¶'相(xiàng)當明(míng)顯的(d®™∏☆e),但(dàn)是(shì)他(tā)們的(de)重β'要(yào)性仍值得(de)一(yī)提:

 

  1. 小(xiǎo)組的(de)報(bào)告中,性能(néng)和(hé)挂ε↓✔鐘(zhōng)訓練時(shí)間(jiān)(在49款Ata£>ri遊戲中,v2在41款遊戲中打敗了(le)v1(自(zì)然☆π©•DQN),在其中的(de)25款遊戲中,他(tā)們分(fēn)≠♥‍≈别以22×2倍、11×5倍勝過★¥γ人(rén)類玩(wán)家(jiā))顯著加快(kuài)。訓練時(sh☆ <≠í)間(jiān)從(cóng)2周降至1天。因此,從(c÷ ♣óng)非常基本研究到(dào)二輪叠代的(de)"✘λ>速度是(shì)快(kuài)的(de)(按我的(de)•€≈δ測算(suàn),不(bù)足一(yī)年(nián))。
  2. 谷歌(gē)正在圍繞ML建設相(xiàng)同的©'(de)基礎架構,因為(wèi)他(tā)們面臨著(zhe)其他¶✔$(tā)問(wèn)題(Gorila用(yò£±φ∑ng)于強化(huà)學習(xí),MapReduce€↑♠負責并行(xíng)處理(lǐ),BigTable則用(yòng)β★₩來(lái)數(shù)據存儲)。曆史經驗告訴我們,遲早會(huì)"<¶有(yǒu)開(kāi)源化(huà),而且在軟件(ji •♦àn)中使用(yòng)強化(huà)學習(xí)将是(shì)常事(₹Ω<shì)(然而現(xiàn)在它還(hái♣→)很(hěn)深奧,甚至在深度學習(xí)社區(qū)£ ✔中也(yě)如(rú)此)。
  3. 随著(zhe)Gorila的(de)推進,強化(huà)學習(xí)Ωπ'←有(yǒu)著(zhe)比視(shì)頻(pín)遊戲和(h↔★é)系統更為(wèi)廣泛的(de)實際應Ω¶用(yòng)潛力。如(rú)果你(nǐ)想象我們都(dōu)是(s§ hì)谷歌(gē)服務(YouTube,AdWords等)中的(de)演員♦'≠←(yuán)或者主演,那(nà)麽使用(yòng)RL為(wèi)我挑選最↓®≤合适的(de)廣告、向我推薦新的(de)內(nèi)容等将會(huì)變的§•≤(de)相(xiàng)當現(xiàn)實。

 

最後,Silver和(hé)Nair提到(dào)了(le)®₹​将要(yào)發表的(de)論文(wén),一(♠♠♥ yī)旦發表,我将馬上(shàng)提供鏈接。