본문 바로가기
Programming

강화학습_7_0814

by WelcomeBro 2023. 8. 15.
반응형

이번 연휴의 목표는 --> 세상에서 제일 간단한걸 강화학습을 적용해 코드를 짜본다.

보상의 3가지 특징

1. 보상은(reward) 행동(action)에 대해 얼마나 잘했는지 수치적으로 알려준다

2. 보상은 단일 값(숫자)이다 --> 어렵게 이야기하면 벡터가 아닌 스칼라이다

        나의 인생 목표 = 0.6 부자 + 0.3 화목한 가정 + 0.1 기타

                이렇게 단순화해서 하나의 수치 값을 보상으로 학습해야 한다.

3. 보상은 희소하고 지연될 수 있다.

 

MDP 마르코프 결정 프로세스(Markov Decision Process)

1. MP = (S , P)

        Markov Process = MP

        S  = State (가능한 상태들을 모아놓은 집합)

        P = Probability (전이 확률 --> 상태 s에서 다음 상태 s`에 도달할 확률)

2. 전이 확률 행렬 --> 이렇게 꼭 대칭 행렬일 필요 없다 --> 부자가 빈곤층 될 확률과 빈곤층이 부자가 될 확률이 다를 수 있다

  부자 중상층 빈곤층
부자 0.9 0.09 0.01
중상층 0.09 0.81 0.1
빈곤층 0.01 0.1 0.89

3. Markov Property --> 미래는 오로지 현재에 의해 결정된다!

        지나간 과거는 미래에 영향을 끼치지 못한다.

                마르코프한 상태 

        반대로 마르코프하지 않은 상태 --> 운전중인 자동차

                --> 앞으로 가는지 뒤로 가는지 엑셀을 밟고 있는지, 브레이크를 밟았는지 모른다.

                아이러니 하게도 과거 정보가 풍부하면 방향과 속력을 알 수 있기에

                        더 마르코프하게 된다

4. 마르코프 리워드 프로세스(MRP Markov Reward Process)

        MRP = (S, P, R, Gamma)

                S --> 상태의 집합

                P --> 전이 행렬

                R --> 보상함수

                Gamma --> 감쇠 인자

5. S0에서 St 출발하여 종료 상태까지 가는 것을 에피소드라고 부름

6. 샘플링을 통해 어떤 값을 유추하는 것을 몬테카를로 접근법이라고 함

7. MDP (Markov Decision Process)

        MDP = (S, A, P, R, Gamma)

8. V --> 상태 가치 함수 --> 보상의 총합의 기댓값

        V(s) --> a 액션이 확률에 의한 무작위 선택

9. Q --> 액션 가치 함수

        Q(s,a) --> a 액션이 보상에 의한 선택

10. Prediction : 파이가 주어졌을 때 각 상태의 밸류를 평가하는 문제

        한 상태가 갖고 있는 밸류 값이 얼마나 될지

11. Control : 최적 정책 파이를 찾는 문제

        

        

 

 

Be positive!

Be rich!

Live your life!

반응형