이번 연휴의 목표는 --> 세상에서 제일 간단한걸 강화학습을 적용해 코드를 짜본다.

보상의 3가지 특징
1. 보상은(reward) 행동(action)에 대해 얼마나 잘했는지 수치적으로 알려준다
2. 보상은 단일 값(숫자)이다 --> 어렵게 이야기하면 벡터가 아닌 스칼라이다
나의 인생 목표 = 0.6 부자 + 0.3 화목한 가정 + 0.1 기타
이렇게 단순화해서 하나의 수치 값을 보상으로 학습해야 한다.
3. 보상은 희소하고 지연될 수 있다.
MDP 마르코프 결정 프로세스(Markov Decision Process)
1. MP = (S , P)
Markov Process = MP
S = State (가능한 상태들을 모아놓은 집합)
P = Probability (전이 확률 --> 상태 s에서 다음 상태 s`에 도달할 확률)
2. 전이 확률 행렬 --> 이렇게 꼭 대칭 행렬일 필요 없다 --> 부자가 빈곤층 될 확률과 빈곤층이 부자가 될 확률이 다를 수 있다
부자 | 중상층 | 빈곤층 | |
부자 | 0.9 | 0.09 | 0.01 |
중상층 | 0.09 | 0.81 | 0.1 |
빈곤층 | 0.01 | 0.1 | 0.89 |
3. Markov Property --> 미래는 오로지 현재에 의해 결정된다!
지나간 과거는 미래에 영향을 끼치지 못한다.
마르코프한 상태
반대로 마르코프하지 않은 상태 --> 운전중인 자동차
--> 앞으로 가는지 뒤로 가는지 엑셀을 밟고 있는지, 브레이크를 밟았는지 모른다.
아이러니 하게도 과거 정보가 풍부하면 방향과 속력을 알 수 있기에
더 마르코프하게 된다
4. 마르코프 리워드 프로세스(MRP Markov Reward Process)
MRP = (S, P, R, Gamma)
S --> 상태의 집합
P --> 전이 행렬
R --> 보상함수
Gamma --> 감쇠 인자
5. S0에서 St 출발하여 종료 상태까지 가는 것을 에피소드라고 부름
6. 샘플링을 통해 어떤 값을 유추하는 것을 몬테카를로 접근법이라고 함
7. MDP (Markov Decision Process)
MDP = (S, A, P, R, Gamma)
8. V --> 상태 가치 함수 --> 보상의 총합의 기댓값
V(s) --> a 액션이 확률에 의한 무작위 선택
9. Q --> 액션 가치 함수
Q(s,a) --> a 액션이 보상에 의한 선택
10. Prediction : 파이가 주어졌을 때 각 상태의 밸류를 평가하는 문제
한 상태가 갖고 있는 밸류 값이 얼마나 될지
11. Control : 최적 정책 파이를 찾는 문제
Be positive!
Be rich!
Live your life!
'Programming' 카테고리의 다른 글
RAG, Lang chain, chatGPT (pdf를 읽고 답변) 나도 할 수 있다 #1 (0) | 2024.05.08 |
---|---|
이중배열 얕은 깊은 복사_코테 복기_0815 (0) | 2023.08.15 |
강화학습_6_0810_DQN (0) | 2023.08.11 |
강화학습_5_0809 (0) | 2023.08.09 |
강화학습_4_0808 (0) | 2023.08.08 |