본문 바로가기
Programming

강화학습_1_0729

by WelcomeBro 2023. 7. 29.
반응형

스스로 돈을 벌때 까지 강화학습 할 예정!

이제는 관망하지 말고 행동할때!

 

당구 큐대를 손바닥위에 세우고 안 넘어뜨리는 것을 강화학습 할때!

 

1. 그 행위를 하는 나 --> 에이전트(agent)

 

2. 큐대, 주위 당구대 위치, 친구의 목소리, 바닥의 재질, 그날의 나의 컨디션, 조명 --> 환경(environment)

 

목적(objective)는 에이전트가 받는 보상의 총합이다.

    2.1 목적 : 1분 동안 큐대 안넘어뜨리기

          상태 : [손바닥 위치, 손바닥 속도, 큐대 각도, 큐대 각속도]의 배열

          행동 : (x,y,z) 손바닥 중심을 기준으로 벡터값

          보상 : 큐대가 안 넘어지는 시간동안 +1

          종료 : 큐대가 넘어지거나, 손바닥이 당구장 벽에 부딫이거나 최대 시간 1분에 도달 했을 때

 

3. 강화학습 문제는 에이전트와 환경으로 구성되는 하나의 시스템으로 표현

 

4. 환경은 시스템의 상태를 나타내는 정보를 만들어냄 --> 이것을 상태(state)

 

5. 에이전트는 상태를 관측하고 그로부터 얻은 정보를 활용하여 행동(action) 함

 

6. 행동을 통해 환경은 다음 상태로 전이(transition)를 겪음

 

7. 행동 --> 전이 --> 다음 상태와 보상(reward)가 에이전트로 이동

 

8. 상태 --> 행동 --> 보상

이렇게 3개가 순환주기이며 하나의 순환주기를 step 이라 부름

 

9. 에이전트의 행동 생성 함수를 정책(policy)라고 부름

 

10. 강화학습에서 주고받는 신호는(s,a, r) --> 이걸 경험(experience)라고 칭함

s : 상태 state

a : 행동 action

r : 보상 reward

 

11. 시작부터 종료(시간 혹은 조건 종료)의 구간을 에피소드(episode) 라고 부름

 

12. 궤적은(trajectory)는 한 에피소드에 걸친 경험의 연속을 의미함

(s0,a0,r0) (s1,a1,r1) (s2,a2,r2) ... (s78,a78,r78) (s79,a79,r79)

 

13. 보통 좋은 정책을 학습하기 위해서는 일반적으로 수백 개에서 수백만개에의 에피소드가 필요함

 

Be positive!!!

Be rich!!!

Live your life!!!

 

 

반응형