逆強(qiáng)化學(xué)習(xí)算法、理論與應(yīng)用研究綜述
自動化學(xué)報
頁數(shù): 20 2024-03-21
摘要: 隨著高維特征表示與逼近能力的提高,強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)在博弈與優(yōu)化決策、智能駕駛等現(xiàn)實(shí)問題中的應(yīng)用也取得顯著進(jìn)展.然而強(qiáng)化學(xué)習(xí)在智能體與環(huán)境的交互中存在人工設(shè)計(jì)獎勵函數(shù)難的問題,因此研究者提出了逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning, IRL)這一研究方向.如何從專家演示中學(xué)習(xí)獎勵函數(shù)和進(jìn)行策略優(yōu)化是... (共20頁)