Machine Learning Non Linear

KNN

주변 가장 가까이 있는 k개를 확인 한 후 어떤 클래스가 더 많은지 확인한다

Test 과정이 복잡한 알고리즘으로 Lazy Algorithm이라고도 한다.

k가 너무 작을 경우 overfit 되고, k가 너무 클 경우 mojority 클래스로만 예측한다.

변수 : K

DecisionTreeClassifier max_depth

weighted gini score을 사용한다

feature_names feature_importances_ : feature들이 얼마나 loss에 기여하는지 수치로 나타낸다

MSE 사용

Bagging을 사용한 방법이다.

min_samples_split 때문에 max_depth를 주지 않아도 100%가 되지 않는다

min_sample_split : split하기 위해 필요한 sample들의 수이다

decision tree는 하나의 feature의 중요도가 클 수 있따

random forest는 여러개의 estimator을 이용하기 때문에 feature들의 중요도롤 나누어 할당해줄 수 있다

boosting을 사용할 경우 sequential이기 때문에 feature imporances_의 비율은 유지된다 반면 bagging을 사용할 경우 feature importances_에 새로운 값이 나온다