본문 바로가기

전체 글82

강화학습_6_0810_DQN DQN의 2가지 특징은! 1. 시행을 저장하고 있다가 랜덤하게 배치로 꺼내서 학습한다. 무작위로 꺼내 먹으면 더 대표성을 띈다. 아마도 몬테 카를로 근사랑 관련이 있어보인다. 2. 최적의 값이라고 믿는 함수를 일정 이터레이션 마다 기존 학습된 함수로 업데이트 해준다. 이것이 왜 성능을 올리는지는 아직 이해하려고 노력중이다. 이것을 네트워크 분리라고 한다. 실행이 되는 코드를 누가 짰고 이걸 주석을 달면서 이해하려고 노력했다. 이것저것 실험하느라 원본과 조금 다르다. 밑에 링크를 남겨놓았다. 이 영상을 보면서 공부했다. 이 사람의 책도 샀다. 난 강화학습 고수가 된다! 되어가는 중이다! 주식, 스마트 팩토리, 블로그에 적용할 수 있기를 고대해본다. 유투브 영상 코드 출처 1 2 3 4 5 6 7 8 9 1.. 2023. 8. 11.
강화학습_5_0809 스스로 돈을 벌때 까지 강화학습 할 예정! 이제는 관망하지 말고 행동할때! 복습도 할겸 누적식으로 글을 작성한다. 당구 큐대를 손바닥위에 세우고 안 넘어뜨리는 것을 강화학습 할때! 1. 그 행위를 하는 나 --> 에이전트(agent) 2. 큐대, 주위 당구대 위치, 친구의 목소리, 바닥의 재질, 그날의 나의 컨디션, 조명 --> 환경(environment) 목적(objective)는 에이전트가 받는 보상의 총합이다. 2.1 목적 : 1분 동안 큐대 안넘어뜨리기 상태 : [손바닥 위치, 손바닥 속도, 큐대 각도, 큐대 각속도]의 배열 행동 : (x,y,z) 손바닥 중심을 기준으로 벡터값 보상 : 큐대가 안 넘어지는 시간동안 +1 종료 : 큐대가 넘어지거나, 손바닥이 당구장 벽에 부딫이거나 최대 시간 1분에.. 2023. 8. 9.
강화학습_4_0808 스스로 돈을 벌때 까지 강화학습 할 예정! 이제는 관망하지 말고 행동할때! 복습도 할겸 누적식으로 글을 작성한다. 당구 큐대를 손바닥위에 세우고 안 넘어뜨리는 것을 강화학습 할때! 1. 그 행위를 하는 나 --> 에이전트(agent) 2. 큐대, 주위 당구대 위치, 친구의 목소리, 바닥의 재질, 그날의 나의 컨디션, 조명 --> 환경(environment) 목적(objective)는 에이전트가 받는 보상의 총합이다. 2.1 목적 : 1분 동안 큐대 안넘어뜨리기 상태 : [손바닥 위치, 손바닥 속도, 큐대 각도, 큐대 각속도]의 배열 행동 : (x,y,z) 손바닥 중심을 기준으로 벡터값 보상 : 큐대가 안 넘어지는 시간동안 +1 종료 : 큐대가 넘어지거나, 손바닥이 당구장 벽에 부딫이거나 최대 시간 1분에.. 2023. 8. 8.
백준_1012_유기농 배추_dfs_bfs_파이썬 문제 링크 1012번: 유기농 배추 차세대 영농인 한나는 강원도 고랭지에서 유기농 배추를 재배하기로 하였다. 농약을 쓰지 않고 배추를 재배하려면 배추를 해충으로부터 보호하는 것이 중요하기 때문에, 한나는 해충 방지에 www.acmicpc.net 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 def bfs(row,col): score = 0 if map1[row][col] ==1: score+=1 map1[row][col] = 0 now_point = [(row,col)] while len(now_point).. 2023. 8. 5.