강화학습 개요에 앞서 머신러닝에 대해 살펴보도록 하겠습니다.
머신러닝은 지도학습, 비지도학습, 강화학습 3가지로 나뉩니다.
지도학습은, 컴퓨터가 풀어낸 결과와 정답을 비교해가며 학습하는 방식입니다.
비지도학습은, 정답이 존재하지않고, 비슷한 것끼리 묶어주는 식의 학습이 비지도학습입니다.
강화학습은, 정답이 주어진것은 아니짐,ㄴ 또한 주어진 데티어테 대해 학습하는 것도 아닙니다. 강화학습은 보상을 통해 학습합니다.
순차적으로 행동을 결정해야하는 문제가 있다고 합시다.
이때 사용하는 방법은 MDP입니다. (Markov Decision Process).
MDP 는 순차적 행동 결정문제를 수학적으로 정의해서 에이전트(행동의 주체, 문제를 풀어나가는 주체)가 순차적 행동 결정 문제에
접근할 수 있게 합니다.
순차적 행동 결정문제의 구성요소
1. 상태
현재 에이전트가 처한 정보라고 생각하면됩니다. 그리고 에이전트가 현재 움직이는 속도와 같은 동적인 요소 또한 상태라고 표현할 수 있습니다.
2. 행동
에이전트가 어떠한 상태에서 취할수있는 행동이로서 "상", "하", "좌", "우" 와 같은것을 말합니다.
처음에는 어떤 행동이 좋은 행동인지에 대한 정보가 전혀없습니다.
3. 보상
보상이라는 정보를 통해 에이전트는 자신이 했던 행동들을 평가할 수 있고 이로인해 어떤 행동이 좋은 행동인지 알 수 있습니다.
4. 정책
순차적 행동 결정문제에서 구해야할 답이 바로 정책입니다. 모든 상태에 대해 에이전트가 어떤 행동을 해야하는지 정해놓은 것이 정책입니다.
순차적 행동 결정문제를 풀었다고한다면 제일 좋은 정책을 에이전트가 얻었다는 것입니다.