강화학습 썸네일형 리스트형 Actor Critic, Baseline 정리 Actor Critic $$ \nabla_{\theta}J(\theta)= \mathbb{E}_{\pi{\theta}}[\nabla_{\theta}\log\pi_{\theta}(s,a)Q^{\pi_{\theta}}(s,a)] $$ 지난번 Policy Gradient Post에서 Policy Gradient는 $$$ Q^{\pi_{\theta}}(s,a) $$$를 사용하여 구할 수 있다고 하였다. 이 때 Monte-Carlo를 사용하기 때문에 high-variance 문제가 생겨납니다. 이를 해결하기 위한 방법 중 하나가 $$$ Q^{\pi_{\theta}}(s,a) $$$를 직접적으로 사용하지 않고, 또 다른 function으로 approximation하여 Q-function을 만들고, policy는 이.. 더보기 Policy Gradient 정리 RL은 크게 Value 기반 방식과 Policy 기반 방식이 존재한다. Value 방식은 Q값이 가장 클 것으로 예상되는 행동을 취하는 방식이며, policy는 value 함수가 아닌 policy 자체를 학습하는 방식이다. Policy 기반 RL의 장단점 Policy 방식은 Value 방식에 비해 다음과 같은 장점과 단점을 가진다. 장점 convergence를 더 잘한다. value 방식의 경우, value function의 값이 약간만 달라져도 policy는 크게 변하게 된다. 그렇기에 value 방식은 unstable 하다. high-dimensional 하거나 continuous action spaces에서 더 효율적이다. 만약 value 방식이라면 탐색 과정 중에 Q 값의 최대값을 추정해야 한다... 더보기 이전 1 다음