1. 의사결정나무는 무엇인가?
ᆞ분류와 예측에 자주 쓰이는 강력한 방법
ᆞ일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는 데 쓰이는 구조
ᆞ추정에선 별로 좋지않다.
ᆞ순수도를 최대한 높게 하는것이다.
ᆞ결측값이 있어도 된다.
2. 의사결정나무는 어떻게 생성되나
ᆞ목표변수 측면에서 부모노드보다 더 순수도(Purity)가 높은 자식노드들이 되도록, 데이터를 반복적으로 더 작은 집단으로 나누면서 생성됨
ᆞ 데이터집합을 분류해서 사용
훈련용데이터집합 : 모형생성
검증용데이터집합 : 모형최적화 = 가지치기
테스트데이터집합 : 성능평가
3. 순수도 척도 – 범주형데이터
ᆞGini
- 인구 다양성을 조사하는 생물학자들과 환경 공학자들이 자주 사용하는 것으로 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 말함
- 부모노드보다 자식노드가 값이 더 커야한다.
ᆞ엔트로피(Entropy)
- 시스템이 얼마나 정리되지 않았는지에 대한 척도
- 부모노드보다 자식노드가 값이 작
ᆞ정보 이익 비율(Information Gain Ratio)
- 엔트로피 분할 척도는 각각의 값에 대한 별개의 가치를 치는 범주형 입력변수들에 관한 분할 방법과 결합되었을 때 문제를 발생 시킴
- 따라서 가지가 많은 곳에 패널티를 부여
ᆞChi-square(c²) 검정
- 통계학적 유의성에 대한 검정
- 빈도에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의
- 관측된 표본들 간의 차이가 우연에 의한 것일 확률을 측정
- 큰쪽을 선택한다.
4. 순수도 척도 – 수치형 데이터
ᆞFisher’s test(F 검정)
- 연속형 변수에는 F 검정 vs. 범주형 변수에는 카이제곱 검정
- 다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공
ᆞ분산의 감소
- 자식노드의 분산을 부모노드 보다 작게 한다.
'머신러닝' 카테고리의 다른 글
P value (0) | 2018.08.06 |
---|---|
N-gram (0) | 2017.05.04 |
Sentiment Analysis (0) | 2017.05.04 |
데이터 마이닝 개요 (0) | 2017.04.30 |