본문 바로가기

Policy Gradient 정리 RL은 크게 Value 기반 방식과 Policy 기반 방식이 존재한다. Value 방식은 Q값이 가장 클 것으로 예상되는 행동을 취하는 방식이며, policy는 value 함수가 아닌 policy 자체를 학습하는 방식이다. Policy 기반 RL의 장단점 Policy 방식은 Value 방식에 비해 다음과 같은 장점과 단점을 가진다. 장점 convergence를 더 잘한다. value 방식의 경우, value function의 값이 약간만 달라져도 policy는 크게 변하게 된다. 그렇기에 value 방식은 unstable 하다. high-dimensional 하거나 continuous action spaces에서 더 효율적이다. 만약 value 방식이라면 탐색 과정 중에 Q 값의 최대값을 추정해야 한다... 더보기
자유로운 플레이어의 행동과 정적인 세상 링크 Free player movement and static worlds 게임은 플레이가 자유롭게 움직일 수 있는 열린 세상과 플롯이 진행됨에 따라 바뀌는 세상을 가질 수 있습니다. 만약 2가지 전부 가지고 있다면, 플레이어는 대부분의 게임의 컨텐츠를 놓치게 됩니다. 여기에 이것을 다루기 위한 여러 접근법이 있습니다. 일단 저는 RPG에서 스카이림 문제에 대해 생각해봤습니다. 스카이림에서 가장 먼저 발견되는 것은 크고 무서운 용들이 돌아왔다는 것입니다. 그리고 주요 줄거리는 그런 용들의 귀환에 대한 것입니다. 그러나 유저가 흥미를 위해 할 만한 수많은 퀘스트가 있습니다. 실제로, 용과의 만남 후 가장 가까운 마을로 빠져나갔을 때 가장 먼저 일어난 일은 반지를 전달하는 퀘스트와 대검을 만드는 과정 모두를.. 더보기
로그라이크 게임 만들기(1) 예전부터 게임 제작을 해보고 싶었는데, 맨날 미루고 미루기만 하는거 같아서, 이번 기회에 한번 그나마 간단한 로그라이크 게임을 만들어 보려고 한다. 적절한 강좌도 하나 발견했고, 초기 설정 부분도 무사히 넘겨서 이번 기회에 한번 도전해봅니다. 내용은 간단해서 조금만 프로그래밍 알면 웃고 넘어갈 정도이지만, 쉽게쉽게 해서, 아무 것도 모르는 사람도 할 수 있게 해보겠습니다. 일단 수준은 그래도 프로그래밍 책 한 두권은 읽은 수준으로 하고, 기본 베이스는 c++이지만, 뭐 제가 c++개념을 완전 활용하는 편이 아니라서, 클래스 개념만 안다면, c만 알아도 될 듯합니다. 제가 보고 한 강좌는 http://www.kathekonta.com/rlguide/ 인데, 간단해서 좋더라고요. 그런데 해보니 라이브러리가 .. 더보기