當前位置： > 投稿>正文

actor critic中文翻譯，actor critic是什么意思，actor critic發(fā)音、用法及例句

2025-09-02 投稿

內(nèi)容導(dǎo)航：
1、actor critic
2、6. Actor-Critic算法

1、actor critic

actor critic發(fā)音

英：　　美：

actor critic中文意思翻譯

常見釋義：

演員評論家

actor critic雙語使用場景

1、Other career options with this degree include professional actor or dancer, theater manager, storyteller, stunt person, make-up artist, drama critic, and choreographer.───這一學(xué)位的其他就業(yè)選擇包括成為專業(yè)演員或舞者、劇院經(jīng)理、短篇小說作家、特技替身演員、化妝師、戲劇評論家和舞蹈指導(dǎo)。

2、His interpretation of psychology involves an "actor," the brain's decision-making center, and a "critic," which continually provides commentary on the actor's decisions.───他的心理學(xué)解釋涉及“演員”，大腦的決策中心，和一個“評論家”，不斷對演員的決定提供評論。

3、Like a hammy actor," wrote New York Times critic Anthony Tommasini on November 27, Lang Lang "has a penchant for interpretive exaggeration."───就像一位幽默劇演員，”《紐約時報》的樂評家安東尼·托馬西尼在11月27日的文章如此寫道，朗朗“的演奏具有強烈而夸張的表現(xiàn)意味?！?/p>

actor critic相似詞語短語

1、achondritic───痛風(fēng)性

2、form critic───形式評論家

3、antirachitic───抗佝僂病的

4、art critic───藝術(shù)評論家

5、antarthritic───adj.[藥]抗關(guān)節(jié)炎的；n.關(guān)節(jié)炎治療劑

6、antiarthritic───adj.抗關(guān)節(jié)炎的；n.抗關(guān)節(jié)炎藥

7、anthracitic───adj.無煙煤的；似無煙煤的

2、6. Actor-Critic算法

本文主要介紹如下幾個內(nèi)容：

首先我們還是回顧一下之前提到的REINFORCE算法：

在這個算法的第二步驟里面我們引入了“reward to go”這一項，該表示了從當前的時間步t開始，所有的reward的期望之和。

我們可以把這個由casuality引出的期望稱之為“true expected reward-to-go”，之所以我們這里考慮的是期望，是因為我們在實際中每個trajectory采樣出來都是不一樣的，我們需要把這不同的采樣結(jié)果進行最后的平均以求期望。

優(yōu)勢函數(shù)（Advantage function）

我們在policy gradient的方法中為了降低variance，也考慮過引入一個基線來減少梯度的方差。這里我們更進一步一點，我們使用代替原來的"reward to go"，并且使用值函數(shù)（V function）去代替原來的baseline,這樣我們就有了新的估計值，即優(yōu)勢函數(shù)。

與原始版本的baseline相比，原來的估計是無偏估計，但是在單個采樣估計中具有很高的方差（variance），現(xiàn)在使用了優(yōu)勢函數(shù)之后可以降低方差。他們的比較如下圖：

三個函數(shù)的比較：Q, V and A

在模型擬合的階段，我們需要去評估結(jié)果，這個時候就要考慮去擬合Q, V 還是A。他們之間是有密切關(guān)系的：

其中對于Q函數(shù)他是在已經(jīng)確定了的情況下，并且已經(jīng)產(chǎn)生了 ,即我們可以寫為:

既然他們是有關(guān)系的，那么我們在實際使用的時候只需要計算一個期望函數(shù) .

對于如何去評估一個Policy是好是壞，我們從的定義可以知道，強化學(xué)習(xí)的目標函數(shù)其實就是這個值關(guān)于初始狀態(tài) 的期望值。

這里有兩種Monte Carlo的方法來評估：

第一種是在一個sample里面累積 reward，第二種還考慮了多個sample的平均。

我們從上面的第一種簡單得到的方法中得到了訓(xùn)練數(shù)據(jù)，我們就可以把評估的問題轉(zhuǎn)換成了一個監(jiān)督學(xué)習(xí)的問題：

形式化理解為，我們用同一個函數(shù)去擬合了很多很多的樣本。

上面使用的方法會有很高的方差，在實際中我們是用一種近似的方式去減少方差：

這里我們是直接使用了之前的V值（）去近似，然后得到了訓(xùn)練數(shù)據(jù)的樣本 ,這種方式稱之為bootstrap。

有了前面的基礎(chǔ)，介紹了如何去擬合，計算優(yōu)勢函數(shù)我們就能夠?qū)С鯝ctor-critic算法，

上面的actor-critic算法里第一步還需要采樣一整個trajectory。想要變成每次只采樣一個狀態(tài)就需要先引入Discount factors的概念。

因為值函數(shù)V的定義是當前狀態(tài)以后所有反饋值的和，在有限步長的任務(wù)中沒有問題，但是如果是一個無限步長的任務(wù)，那么這個值有可能是無限大的。因此需要引入一個折損系數(shù) ，它的意義在于讓離當前狀態(tài)比較近的反饋值更重要，而離得比較遠的可能不那么看重.

上面舉了個例子，在機器人做操作這種episodic tasks的時候是有限步長的就不需要discount factor，但是另外一種continuous任務(wù)，就不需要設(shè)定episodic所以這種情況加入discount factor就很重要。

加入了Dicount factor，我們對應(yīng)的目標函數(shù)也變化：

這種情況下MC policy gradients有兩種選擇：

第一種是直接從當前時間t開始加系數(shù) ，而第二種是從最開始t=1就開始加系數(shù) 。然后再通過利用causasity去掉之前的反饋值。這樣最終兩種寫法的系數(shù)還是有一些差別。

一般情況下兩種方式有兩種不同的解釋和應(yīng)用場景。第二種寫法是對應(yīng)著帶有死亡狀態(tài)的MDP形式。系數(shù)從第一步就開始加入，這就意味著這種寫法更在意從頭開始的動作，對于往后的動作給的關(guān)注更少。

而第一種寫法是從時刻t開始加系數(shù)，也就是說它會一直在意從當前時刻開始的動作。這種形式一般用在一直連續(xù)運動的場景里。

第一種寫法實際上不是一個正確的加了discount factor后的寫法。它相當于是對平均反饋值加了一個系數(shù)來減小方差，它去除掉那些距離太遠的反饋值的影響，因為可能太遠了已經(jīng)沒有了意義。當然這樣會是平均反饋的有偏估計。

第一種寫法實際中更常用，也就是作為減小方差的方式。而第二種寫法能夠向我們解釋在經(jīng)典的場景里discount factor的意義。

加入了discount factors之后的actor-critic算法可以采用對每個狀態(tài)進行采用的形式，這樣就有了online形式的算法，兩種算法對比如下

在實際實現(xiàn)actor-critic算法的時候可以選擇兩種結(jié)構(gòu)。一種是讓策略函數(shù)與值函數(shù)分別訓(xùn)練。這樣做可能比較簡單而且穩(wěn)定，但是這樣就不能共享一些提取特征的網(wǎng)絡(luò)層。第二種是兩種函數(shù)共享一部分網(wǎng)絡(luò)，這樣就能夠共享前面提取特征的部分。

實際中如果實現(xiàn)一個online形式的算法，最好的做法并不是對每一個狀態(tài)都做一次更新，而是得到足夠多的樣本里作為一個batch來更新。因為這樣能夠減小更新的方差。而實現(xiàn)這樣的方式也有兩種，一種是同步的一種是異步的。

我們把AC和PG對比一下，AC一般會因為有critic所以有更低的方差，但是如果critic不好那么他的bias會很大。PG是沒有bias的，但是他的方差很高。把他們結(jié)合在一起就能產(chǎn)生比較好的unbias,低方差的算法。

之前用到作為baseline的函數(shù)一直都是V，實際上Q也能夠作為baseline。只不過這樣做實際上得到的不是一個advantage函數(shù)，在期望上得到一個期望為0的函數(shù)。因為減小了這部分的值，就能夠減小對應(yīng)部分的方差。

但是期望為0直接帶入得不到目標函數(shù)的梯度值，因此計算梯度值的時候還需要把以期望的形式修正回來，這樣目標函數(shù)梯度值的期望與原來保持一致

目前我們有兩種得到advantage函數(shù)的形式，一種是bootstrap的，有更低的方差，但是有比較高的偏差。第二種是蒙特卡洛采樣減去估計值的，這樣做沒有偏差，但是方差比較大。因此我們需要想辦法把這兩種結(jié)合起來。

我們可以使用n-step和Eligibility trace的方法來改善。

使用n-step的直覺如下圖：

2、操練做某事英文（practice doing sth中文翻譯，practice doing sth是什么意思，practice doing sth發(fā)音、用法及例句）

3、lesson翻譯（lesson中文翻譯，lesson是什么意思，lesson發(fā)音、用法及例句）

4、服務(wù)員服務(wù)流程及服務(wù)細節(jié)，餐廳服務(wù)員工作流程

5、絨的筆順，絨字筆畫順序，絨字怎么寫

6、漸漸的漸怎么寫，漸的筆順，漸字筆畫順序，漸字怎么寫

7、題[ tí ]，題字的拼音，部首，意思，題字的筆順，筆畫順序怎么寫

8、才疏學(xué)淺的近義詞是什么，才疏學(xué)淺的近義詞，才疏學(xué)淺是什么意思，才疏學(xué)淺的同義詞

9、numeration是什么意思，numeration中文翻譯，numeration怎么讀、發(fā)音、用法及例句

10、情節(jié)劇的英文，英語，melodrame是什么意思，melodrame中文翻譯，melodrame怎么讀、發(fā)音、用法及例句

11、sublingua是什么意思，sublingua中文翻譯，sublingua怎么讀、發(fā)音、用法及例句

版權(quán)聲明: 本站僅提供信息存儲空間服務(wù)，旨在傳遞更多信息，不擁有所有權(quán)，不承擔相關(guān)法律責(zé)任，不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。