강화학습의 특징No supervisor - 딥러닝의 지도 학습처럼 정답 레이블이 없음agent가 선택한 답에 대한 Feedback이 즉각적이지 않음시간이 중요(순서!!)(non iid data - 같은 확률 분포를 가진 독립적인 데이터들)agent의 행동이 나중에 agent에게 영향을 줌강화학습 문제 공식state(상태) - action(행동) - reward(보상)S0, A0, R1, S1, A1, R2, ..., Sr-1, Ar-1, Rr, Sr강화학습의 목적: 누적 보상 최대화Marcov Decision Process마르코프 결정 과정: 미래는 현재에 의해서만 결정된다. 미래는 과거와 독립적이다.St+1에 영향을 주는 것은 St뿐임POMDP(Partially Observable Markov Deci..
Aritificial Intelligenece
Marcov Assumption마르코프 가정: 상태 St+1은 상태 St에 의해서만 결정된다.즉, 미래를 결정하는 것은 현재뿐이다. 과거는 상관없다.Marcov Process마르코프 가정을 만족하는 연속적인 일련의 확률 과정일련의 상태 와 상태 전이 확률 P로 이루어짐MP = (S, P)상태 전이 확률 P_ij = Pr(St+1 = sj | St = si): 상태 i에서 상태 j로 바뀔 확률*P_ij: P에 아래첨자 i, j+) Marcov Reward Process각 상태에서의 보상 측정마르코프 과정, 보상 R, 감가율 γ(감마)로 이루어짐MRP = (S, P, R, γ)상태 집합 S = {s1, s2, ..., s}: MDP에서 가질 수 있는 모든 상태의 집합상태 전이 확률 P_ij = Pr(St+1..