강화학습_5_0809
스스로 돈을 벌때 까지 강화학습 할 예정! 이제는 관망하지 말고 행동할때! 복습도 할겸 누적식으로 글을 작성한다. 당구 큐대를 손바닥위에 세우고 안 넘어뜨리는 것을 강화학습 할때! 1. 그 행위를 하는 나 --> 에이전트(agent) 2. 큐대, 주위 당구대 위치, 친구의 목소리, 바닥의 재질, 그날의 나의 컨디션, 조명 --> 환경(environment) 목적(objective)는 에이전트가 받는 보상의 총합이다. 2.1 목적 : 1분 동안 큐대 안넘어뜨리기 상태 : [손바닥 위치, 손바닥 속도, 큐대 각도, 큐대 각속도]의 배열 행동 : (x,y,z) 손바닥 중심을 기준으로 벡터값 보상 : 큐대가 안 넘어지는 시간동안 +1 종료 : 큐대가 넘어지거나, 손바닥이 당구장 벽에 부딫이거나 최대 시간 1분에..
2023. 8. 9.
강화학습_4_0808
스스로 돈을 벌때 까지 강화학습 할 예정! 이제는 관망하지 말고 행동할때! 복습도 할겸 누적식으로 글을 작성한다. 당구 큐대를 손바닥위에 세우고 안 넘어뜨리는 것을 강화학습 할때! 1. 그 행위를 하는 나 --> 에이전트(agent) 2. 큐대, 주위 당구대 위치, 친구의 목소리, 바닥의 재질, 그날의 나의 컨디션, 조명 --> 환경(environment) 목적(objective)는 에이전트가 받는 보상의 총합이다. 2.1 목적 : 1분 동안 큐대 안넘어뜨리기 상태 : [손바닥 위치, 손바닥 속도, 큐대 각도, 큐대 각속도]의 배열 행동 : (x,y,z) 손바닥 중심을 기준으로 벡터값 보상 : 큐대가 안 넘어지는 시간동안 +1 종료 : 큐대가 넘어지거나, 손바닥이 당구장 벽에 부딫이거나 최대 시간 1분에..
2023. 8. 8.