본문 바로가기
ML study

핸즈온 머신러닝 개론!(예제 링크)

by WelcomeBro 2020. 7. 8.
반응형

https://github.com/samuel0325/handson-ml2

이곳에 핸즈온 머신러닝 예제가 다 있습니다!

https://nbviewer.jupyter.org/github/rickiepark/handson-ml2/blob/master/index.ipynb

이곳이 정말 좋네요!

 

머신러닝의 공학적 정의 :

작업 T에 대한 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다!

 

데이터 마이닝 : 

머신러닝 기술을 적용해서 대용량의 데이터를 분석하면 겉으로는 보이지 않던 패턴을 발견할 수 있다!

 

머신러닝은 언제 쓰이느냐!

1. 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제!

2. 전통적인 방식으로는 해결 방법이 없는 복잡한 문제

3. 유동적인 환경(계속 바뀌는 주식시장) ㅠㅠ 내 돈......

4. 복잡한 문제와 대량의 데이터에서 통찰 얻기

 

머신러닝의 종류

사람이 개입하는가?(지도, 비지도, 준지도, 강화 학습)

실시간으로 점진적 학습을 하는가?(온라인 학습, 배치 학습)

사례 기반 학습과 모델 기반 학습

 

지도 학습(supervised learning)이란?

훈련 세트(train set)에 정답을 주고 러닝 시키면 지도 학습

분류(classification)가 전형적인 지도 학습

예측변수(predictor variable)==특성(feature) 등을 이용해 target을 예측-> 회귀(regression)

속성과 특성의 차이 : 수치를 동반한다.

속성(attribute) : 나이, 키, 몸무게

특성(feature) : 나이(28세), 키(182.7cm), 몸무게(81.3kg)

 

비지도 학습(unsupervised learning)이란?

지도 학습에 비해 정답을 주지 않고 학습

주로 클러스터링(clustering) 판단

차원 축소(dimensionality reduction)(특성 추출 : feature extraction) :

비슷한 속성을 하나로 묶어 복잡한 데이터를 간단히 하는 것(ex. 키가 크면 몸무게도 더 나가는 편이다)

 

이상치 탐지(outlier detection)

데이터 셋에서 이상한 값!들!을 자동으로 탐지

특이치 탐지(novelty detection)

데이터 셋에서 최초로 나온 이상한 값! 탐지

 

배치학습 : 점진적 학습 할 수 없고 싹다 학습시켜야함 조금씩 추가 불가!

온라인학습(미니배치) : 작은 묶음 단위 시스템 훈련 연속적 실시간 데이터에 유리! 점진 학습 가능!

학습률 : 변화하는 데이터에 얼마나 빠르게 적응할 거야?

학습률 높으면 예전걸 금방 잊어! 요즘것에 더 치중해! 낮으면 뭣이 중한디 하면서 학습이 느려! 옛날 것에 더 치중해!

 

사례 기반 학습

단순 기억 : if a==b return True 토씨하나 안빼먹고 다 똑같아야 한다~

유사도 측정 :  공통된 것이 일정 비율 이상이면 같은것으로 취급

 

선형회귀

데이터들을 2,3차원 그래프에 나열하여 공통적으로 제일 맞는 선또는 면을 찾는 것

여기서 선, 면이 모델이 되시겠다.

효용함수(utility function) 모델이 얼마나 좋은지 측정

비용함수(cost function) 얼마나 나쁜지 측정

 

 

29pg ~ 52pg

예제는 https://github.com/samuel0325/ML

또는 https://github.com/samuel0325/handson-ml2

 

samuel0325/ML

for machine learning study. Contribute to samuel0325/ML development by creating an account on GitHub.

github.com

 

 

반응형