강화학습의 특징
- No supervisor - 딥러닝의 지도 학습처럼 정답 레이블이 없음
- agent가 선택한 답에 대한 Feedback이 즉각적이지 않음
- 시간이 중요(순서!!)(non iid data - 같은 확률 분포를 가진 독립적인 데이터들)
- agent의 행동이 나중에 agent에게 영향을 줌
강화학습 문제 공식
state(상태) - action(행동) - reward(보상)
S0, A0, R1, S1, A1, R2, ..., Sr-1, Ar-1, Rr, Sr
강화학습의 목적: 누적 보상 최대화
Marcov Decision Process
마르코프 결정 과정: 미래는 현재에 의해서만 결정된다. 미래는 과거와 독립적이다.
St+1에 영향을 주는 것은 St뿐임
POMDP(Partially Observable Markov Decision Process)
state는 세 가지 종류로 나누어짐
- environment state, 환경에서의 모든 상태
- agent state, agent의 상태(agent 주변의 상태 X)
- Markov state(또는 information state)
데이터 관점에서 히스토리의 유용한 정보를 포함하고 있는 상태
관찰(Observation)
Full Observability: agent가 환경의 모든 정보를 알 수 있는 경우
Partial Observability: agent가 환경의 모든 정보를 알 수는 없는 경우
보통의 경우 간접적으로 환경을 접하고 있으므로 Partial Observability
-> env state와 agent state 정보가 달라짐
-> 이런 경우를 POMDP라고 함!
강화학습 agent의 구성 요소
- policy(정책): 특정 상태에서 agent가 어떤 행동을 해야 하는지 알려 줌(행동의 규칙)
- deterministic(결정론적) policy = a = pi(s)
- 특정 state에 취해야 하는 행동이 결정되어 있음
- stochastic(확률론적) policy = pi(a|s) = Pr(At = a | St = s)
- 특정 state에서 취해야 하는 행동들의 확률 분포를 줌
- deterministic(결정론적) policy = a = pi(s)
- value function(가치 함수): 현재 state와 행동에서 미래의 보상 예측
- model: 다음 state와 보상이 어떨지에 대한 agent의 예상
Model-Based vs Model-Free
- Model-Based: 상태 전이 확률과 보상 함수를 정할 수 있는 경우
- Model-Free: model-Based가 아닌 경우(MDP 모델 없이 하는 강화학습)
- 현실에서의 대부분의 문제는 Model-Free - MDP로 풀기 어려움
Prediction & Control
MDP 모델을 미리 알 수 없으므로 상태 가치 함수의 값을 예측해야 하고, 그 예측이 정확해지도록 제어해야 함
'Aritificial Intelligenece' 카테고리의 다른 글
[AI] Marcov Decision Process (0) | 2024.07.25 |
---|