1. 의사결정나무는 무엇인가?

분류와 예측에 자주 쓰이는 강력한 방법

일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는 데 쓰이는 구조

ᆞ추정에선 별로 좋지않다.

ᆞ순수도를 최대한 높게 하는것이다.

ᆞ결측값이 있어도 된다.


2. 의사결정나무는 어떻게 생성되나

목표변수 측면에서 부모노드보다 더 순수도(Purity)가 높은 자식노드들이 되도록데이터를 반복적으로 더 작은 집단으로 나누면서 생성됨

ᆞ 데이터집합을 분류해서 사용

    훈련용데이터집합 : 모형생성

검증용데이터집합 : 모형최적화 = 가지치기

테스트데이터집합 : 성능평가


3. 순수도 척도 – 범주형데이터

Gini 
인구 다양성을 조사하는 생물학자들과 환경 공학자들이 자주 사용하는 것으로 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 말함

-  부모노드보다 자식노드가 값이 더 커야한다.

엔트로피(Entropy)

  - 시스템이 얼마나 정리되지 않았는지에 대한 척도

    - 부모노드보다 자식노드가 값이 작 

정보 이익 비율(Information Gain Ratio)
엔트로피 분할 척도는 각각의 값에 대한 별개의 가치를 치는 범주형 입력변수들에 관한 분할 방법과 결합되었을 때 문제를 발생 시킴

   -  따라서 가지가 많은 곳에 패널티를 부여

Chi-square(c²검정

통계학적 유의성에 대한 검정

빈도에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의

관측된 표본들 간의 차이가 우연에 의한 것일 확률을 측정

- 큰쪽을 선택한다.


4. 순수도 척도 – 수치형 데이터

Fisher’s test(F 검정)

- 연속형 변수에는 검정 vs. 범주형 변수에는 카이제곱 검정

다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공

ᆞ분산의 감소

 - 자식노드의 분산을 부모노드 보다 작게 한다. 

'머신러닝' 카테고리의 다른 글

P value  (0) 2018.08.06
N-gram  (0) 2017.05.04
Sentiment Analysis  (0) 2017.05.04
데이터 마이닝 개요  (0) 2017.04.30

+ Recent posts