의사결정트리 (1)

snoohey 2017. 5. 1. 00:25

2017. 5. 1. 00:25

1. 의사결정나무는 무엇인가?

ᆞ분류와 예측에 자주 쓰이는 강력한 방법

ᆞ일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는 데 쓰이는 구조

ᆞ추정에선 별로 좋지않다.

ᆞ순수도를 최대한 높게 하는것이다.

ᆞ결측값이 있어도 된다.

2. 의사결정나무는 어떻게 생성되나

ᆞ목표변수 측면에서 부모노드보다 더 순수도(Purity)가 높은 자식노드들이 되도록, 데이터를 반복적으로 더 작은 집단으로 나누면서 생성됨

ᆞ 데이터집합을 분류해서 사용

훈련용데이터집합 : 모형생성

검증용데이터집합 : 모형최적화 = 가지치기

테스트데이터집합 : 성능평가

3. 순수도 척도 – 범주형데이터

ᆞGini
- 인구 다양성을 조사하는 생물학자들과 환경 공학자들이 자주 사용하는 것으로 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 말함

- 부모노드보다 자식노드가 값이 더 커야한다.

ᆞ엔트로피(Entropy)

- 시스템이 얼마나 정리되지 않았는지에 대한 척도

- 부모노드보다 자식노드가 값이 작

ᆞ정보 이익 비율(Information Gain Ratio)
- 엔트로피 분할 척도는 각각의 값에 대한 별개의 가치를 치는 범주형 입력변수들에 관한 분할 방법과 결합되었을 때 문제를 발생 시킴

- 따라서 가지가 많은 곳에 패널티를 부여

ᆞChi-square(c²) 검정

- 통계학적 유의성에 대한 검정

- 빈도에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의

- 관측된 표본들 간의 차이가 우연에 의한 것일 확률을 측정

- 큰쪽을 선택한다.

4. 순수도 척도 – 수치형 데이터

ᆞFisher’s test(F 검정)

- 연속형 변수에는 F 검정 vs. 범주형 변수에는 카이제곱 검정

- 다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공

ᆞ분산의 감소

- 자식노드의 분산을 부모노드 보다 작게 한다.

기록의 발자취