actor critic中文翻譯,actor critic是什么意思,actor critic發(fā)音、用法及例句
- 內(nèi)容導(dǎo)航:
- 1、actor critic
- 2、6. Actor-Critic算法
1、actor critic
actor critic發(fā)音
英: 美:
actor critic中文意思翻譯
常見釋義:
演員評論家
actor critic雙語使用場景
1、Other career options with this degree include professional actor or dancer, theater manager, storyteller, stunt person, make-up artist, drama critic, and choreographer.───這一學(xué)位的其他就業(yè)選擇包括成為專業(yè)演員或舞者、劇院經(jīng)理、短篇小說作家、特技替身演員、化妝師、戲劇評論家和舞蹈指導(dǎo)。
2、His interpretation of psychology involves an "actor," the brain's decision-making center, and a "critic," which continually provides commentary on the actor's decisions.───他的心理學(xué)解釋涉及“演員”,大腦的決策中心,和一個“評論家”,不斷對演員的決定提供評論。
3、Like a hammy actor," wrote New York Times critic Anthony Tommasini on November 27, Lang Lang "has a penchant for interpretive exaggeration."───就像一位幽默劇演員,”《紐約時報》的樂評家安東尼·托馬西尼在11月27日的文章如此寫道,朗朗“的演奏具有強烈而夸張的表現(xiàn)意味?!?/p>
actor critic相似詞語短語
1、achondritic───痛風(fēng)性
2、form critic───形式評論家
3、antirachitic───抗佝僂病的
4、art critic───藝術(shù)評論家
5、antarthritic───adj.[藥]抗關(guān)節(jié)炎的;n.關(guān)節(jié)炎治療劑
6、antiarthritic───adj.抗關(guān)節(jié)炎的;n.抗關(guān)節(jié)炎藥
7、anthracitic───adj.無煙煤的;似無煙煤的
2、6. Actor-Critic算法
本文主要介紹如下幾個內(nèi)容:
首先我們還是回顧一下之前提到的REINFORCE算法:
在這個算法的第二步驟里面我們引入了“reward to go”這一項,該 表示了從當前的時間步t開始,所有的reward的期望之和。
我們可以把這個由casuality引出的期望稱之為“true expected reward-to-go”, 之所以我們這里考慮的是期望,是因為我們在實際中每個trajectory采樣出來都是不一樣的,我們需要把這不同的采樣結(jié)果進行最后的平均以求期望。
優(yōu)勢函數(shù)(Advantage function)
我們在policy gradient的方法中為了降低variance,也考慮過引入一個基線來減少梯度的方差。這里我們更進一步一點,我們使用 代替原來的"reward to go",并且使用值函數(shù)(V function)去代替原來的baseline,這樣我們就有了新的估計值,即優(yōu)勢函數(shù)。
與原始版本的baseline相比,原來的估計是無偏估計,但是在單個采樣估計中具有很高的方差(variance),現(xiàn)在使用了優(yōu)勢函數(shù)之后可以降低方差。他們的比較如下圖:
三個函數(shù)的比較:Q, V and A
在模型擬合的階段,我們需要去評估結(jié)果,這個時候就要考慮去擬合Q, V 還是A。他們之間是有密切關(guān)系的:
其中對于Q函數(shù)他是在已經(jīng)確定了 的情況下,并且已經(jīng)產(chǎn)生了 ,即我們可以寫為:
既然他們是有關(guān)系的,那么我們在實際使用的時候只需要計算一個期望函數(shù) .
對于如何去評估一個Policy是好是壞,我們從 的定義可以知道,強化學(xué)習(xí)的目標函數(shù)其實就是這個值關(guān)于初始狀態(tài) 的期望值。
這里有兩種Monte Carlo的方法來評估:
第一種是在一個sample里面累積 reward,第二種還考慮了多個sample的平均。
我們從上面的第一種簡單得到 的方法中得到了訓(xùn)練數(shù)據(jù),我們就可以把評估的問題轉(zhuǎn)換成了一個監(jiān)督學(xué)習(xí)的問題:
形式化理解為,我們用同一個函數(shù)去擬合了很多很多的樣本。
上面使用的方法會有很高的方差,在實際中我們是用一種近似的方式去減少方差:
這里我們是直接使用了之前的V值( )去近似,然后得到了訓(xùn)練數(shù)據(jù)的樣本 ,這種方式稱之為bootstrap。
有了前面的基礎(chǔ),介紹了如何去擬合 ,計算優(yōu)勢函數(shù)我們就能夠?qū)С鯝ctor-critic算法,
上面的actor-critic算法里第一步還需要采樣一整個trajectory。想要變成每次只采樣一個狀態(tài)就需要先引入Discount factors的概念。
因為值函數(shù)V的定義是當前狀態(tài)以后所有反饋值的和,在有限步長的任務(wù)中沒有問題,但是如果是一個無限步長的任務(wù),那么這個值有可能是無限大的。因此需要引入一個折損系數(shù) ,它的意義在于讓離當前狀態(tài)比較近的反饋值更重要,而離得比較遠的可能不那么看重.
上面舉了個例子,在機器人做操作這種episodic tasks的時候是有限步長的就不需要discount factor,但是另外一種continuous任務(wù),就不需要設(shè)定episodic所以這種情況加入discount factor就很重要。
加入了Dicount factor,我們對應(yīng)的目標函數(shù)也變化:
這種情況下MC policy gradients有兩種選擇:
第一種是直接從當前時間t開始加系數(shù) ,而第二種是從最開始t=1就開始加系數(shù) 。然后再通過利用causasity去掉 之前的反饋值。這樣最終兩種寫法的系數(shù)還是有一些差別。
一般情況下兩種方式有兩種不同的解釋和應(yīng)用場景。第二種寫法是對應(yīng)著帶有死亡狀態(tài)的MDP形式。系數(shù)從第一步就開始加入,這就意味著這種寫法更在意從頭開始的動作,對于往后的動作給的關(guān)注更少。
而第一種寫法是從時刻t開始加系數(shù),也就是說它會一直在意從當前時刻開始的動作。這種形式一般用在一直連續(xù)運動的場景里。
第一種寫法實際上不是一個正確的加了discount factor后的寫法。它相當于是對平均反饋值加了一個系數(shù)來減小方差,它去除掉那些距離太遠的反饋值的影響,因為可能太遠了已經(jīng)沒有了意義。當然這樣會是平均反饋的有偏估計。
第一種寫法實際中更常用,也就是作為減小方差的方式。而第二種寫法能夠向我們解釋在經(jīng)典的場景里discount factor的意義。
加入了discount factors之后的actor-critic算法可以采用對每個狀態(tài)進行采用的形式,這樣就有了online形式的算法,兩種算法對比如下
在實際實現(xiàn)actor-critic算法的時候可以選擇兩種結(jié)構(gòu)。一種是讓策略函數(shù)與值函數(shù)分別訓(xùn)練。這樣做可能比較簡單而且穩(wěn)定,但是這樣就不能共享一些提取特征的網(wǎng)絡(luò)層。第二種是兩種函數(shù)共享一部分網(wǎng)絡(luò),這樣就能夠共享前面提取特征的部分。
實際中如果實現(xiàn)一個online形式的算法,最好的做法并不是對每一個狀態(tài)都做一次更新,而是得到足夠多的樣本里作為一個batch來更新。因為這樣能夠減小更新的方差。而實現(xiàn)這樣的方式也有兩種,一種是同步的一種是異步的。
我們把AC和PG對比一下,AC一般會因為有critic所以有更低的方差,但是如果critic不好那么他的bias會很大。PG是沒有bias的,但是他的方差很高。把他們結(jié)合在一起就能產(chǎn)生比較好的unbias,低方差的算法。
之前用到作為baseline的函數(shù)一直都是V,實際上Q也能夠作為baseline。只不過這樣做實際上得到的不是一個advantage函數(shù),在期望上得到一個期望為0的函數(shù)。因為減小了這部分的值,就能夠減小對應(yīng)部分的方差。
但是期望為0直接帶入得不到目標函數(shù)的梯度值,因此計算梯度值的時候還需要把 以期望的形式修正回來,這樣目標函數(shù)梯度值的期望與原來保持一致
目前我們有兩種得到advantage函數(shù)的形式,一種 是bootstrap的,有更低的方差,但是有比較高的偏差。第二種是蒙特卡洛采樣減去估計值的 ,這樣做沒有偏差,但是方差比較大。因此我們需要想辦法把這兩種結(jié)合起來。
我們可以使用n-step和Eligibility trace的方法來改善。
使用n-step的直覺如下圖:
本站其他內(nèi)容推薦
1、raven larynx unjustified tetrameter herself champaign tremor fromage simon-pure son-in-law
2、操練做某事英文(practice doing sth中文翻譯,practice doing sth是什么意思,practice doing sth發(fā)音、用法及例句)
3、lesson翻譯(lesson中文翻譯,lesson是什么意思,lesson發(fā)音、用法及例句)
4、服務(wù)員服務(wù)流程及服務(wù)細節(jié),餐廳服務(wù)員工作流程
7、題[ tí ],題字的拼音,部首,意思,題字的筆順,筆畫順序怎么寫
8、才疏學(xué)淺的近義詞是什么,才疏學(xué)淺的近義詞,才疏學(xué)淺是什么意思,才疏學(xué)淺的同義詞
9、numeration是什么意思,numeration中文翻譯,numeration怎么讀、發(fā)音、用法及例句
10、情節(jié)劇的英文,英語,melodrame是什么意思,melodrame中文翻譯,melodrame怎么讀、發(fā)音、用法及例句
版權(quán)聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權(quán),不承擔相關(guān)法律責(zé)任,不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。