강화학습_7

이번 연휴의 목표는 --> 세상에서 제일 간단한걸 강화학습을 적용해 코드를 짜본다.

보상의 3가지 특징

1. 보상은(reward) 행동(action)에 대해 얼마나 잘했는지 수치적으로 알려준다

2. 보상은 단일 값(숫자)이다 --> 어렵게 이야기하면 벡터가 아닌 스칼라이다

나의 인생 목표 = 0.6 부자 + 0.3 화목한 가정 + 0.1 기타

이렇게 단순화해서 하나의 수치 값을 보상으로 학습해야 한다.

3. 보상은 희소하고 지연될 수 있다.

MDP 마르코프 결정 프로세스(Markov Decision Process)

1. MP = (S , P)

Markov Process = MP

S = State (가능한 상태들을 모아놓은 집합)

P = Probability (전이 확률 --> 상태 s에서 다음 상태 s`에 도달할 확률)

2. 전이 확률 행렬 --> 이렇게 꼭 대칭 행렬일 필요 없다 --> 부자가 빈곤층 될 확률과 빈곤층이 부자가 될 확률이 다를 수 있다

	부자	중상층	빈곤층
부자	0.9	0.09	0.01
중상층	0.09	0.81	0.1
빈곤층	0.01	0.1	0.89

3. Markov Property --> 미래는 오로지 현재에 의해 결정된다!

지나간 과거는 미래에 영향을 끼치지 못한다.

마르코프한 상태

반대로 마르코프하지 않은 상태 --> 운전중인 자동차

--> 앞으로 가는지 뒤로 가는지 엑셀을 밟고 있는지, 브레이크를 밟았는지 모른다.

아이러니 하게도 과거 정보가 풍부하면 방향과 속력을 알 수 있기에

더 마르코프하게 된다

4. 마르코프 리워드 프로세스(MRP Markov Reward Process)

MRP = (S, P, R, Gamma)

S --> 상태의 집합

P --> 전이 행렬

R --> 보상함수

Gamma --> 감쇠 인자

5. S0에서 St 출발하여 종료 상태까지 가는 것을 에피소드라고 부름

6. 샘플링을 통해 어떤 값을 유추하는 것을 몬테카를로 접근법이라고 함

7. MDP (Markov Decision Process)

MDP = (S, A, P, R, Gamma)

8. V --> 상태 가치 함수 --> 보상의 총합의 기댓값

V(s) --> a 액션이 확률에 의한 무작위 선택

9. Q --> 액션 가치 함수

Q(s,a) --> a 액션이 보상에 의한 선택

10. Prediction : 파이가 주어졌을 때 각 상태의 밸류를 평가하는 문제

한 상태가 갖고 있는 밸류 값이 얼마나 될지

11. Control : 최적 정책 파이를 찾는 문제

Be positive!

Be rich!

Live your life!

저작자표시 비영리

'Programming' 카테고리의 다른 글

RAG, Lang chain, chatGPT (pdf를 읽고 답변) 나도 할 수 있다 #1 (0)	2024.05.08
이중배열 얕은 깊은 복사_코테 복기_0815 (0)	2023.08.15
강화학습_6_0810_DQN (0)	2023.08.11
강화학습_5_0809 (0)	2023.08.09
강화학습_4_0808 (0)	2023.08.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

강화학습_7_0814

'Programming' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

강화학습_7_0814

'Programming' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역