基于值學(xué)習(xí)與策略梯度的深度強(qiáng)化學(xué)習(xí)在核工程領(lǐng)域的適配性分析
原子能科學(xué)技術(shù)
頁(yè)數(shù): 11 2024-08-06
摘要: 深度強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)端到端處理,將高維度的原始輸入數(shù)據(jù)直接轉(zhuǎn)化為輸出動(dòng)作。深度強(qiáng)化學(xué)習(xí)按照間接和直接的策略優(yōu)化方式,主要可分為基于值學(xué)習(xí)和基于策略梯度的兩類方法。二者因原理不同,在解決問(wèn)題的能力和適用場(chǎng)景上存在差異。核領(lǐng)域中的決策問(wèn)題狀態(tài)參數(shù)維度高,同時(shí)決策參數(shù)與狀態(tài)參數(shù)之間存在強(qiáng)非線性關(guān)系,是深度強(qiáng)化學(xué)習(xí)的潛在應(yīng)用場(chǎng)景。本文從強(qiáng)化學(xué)習(xí)的基本原理出發(fā),歸納了基于值學(xué)習(xí)和基于策略... (共11頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)