1. 빅데이터

 

ᆞ일반적인 DB SW로 관리하기 어려운 정도의 큰 규모의 데이터

ᆞ의사결정 도와주기 위해서 비용효과적으로, 혁신적으로 정보 처리가 필요한 빠른 속도로 생성되는 다양한 형태의 대용량     정보 자산

 

2. 분석적 CRM과 데이터마이닝 정의

 

ᆞ고객관계관리 시스템의 유형

 - 운영 CRM(Operational CRM) : 영업 자동화

 - 협업 CRM(Collaborative CRM) : 콜센터 자동화, 웹사이트 등 고객 접점 관리

 - 분석 CRM(Analytic CRM) : 고객 데이터 분석과 활용

ᆞ데이터마이닝은 분석 CRM의 도구

ᆞ데이터마이닝의 정의

 - 대용량의 데이터로부터 자동적이거나, 반자동적인 방법을 통해서 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 유용한 지식을 추출하는 일련의 과정들

 

3. 데이터마이닝으로 할 수 있는 것들

 

분류(Classification)

- 사전에 정의된 범주들에 개체를 할당할 수 있는 모형(Model)을 만드는 것

- 데이터마이닝 작업에서 가장 보편적이라 할 수 있다. 우리는 생물을 문, , 속으로 분류를 하고 사물을 원소에 따라 구분하고, 개를 혈통에 따라, 사람을 인종으로 분류하는 것처럼 세상을 이해하고 교류하면서 살아가기 위해 꾸준히 분류를 시도하여 왔다. 사실, 점수를 매기고 등급으로 나누는 것도 분류에 속할 수 있다. 이런 맥락에서 보면 분류라는 것은 이미 인간생활과 오래 전부터 밀접한 관계를 맺어 왔다고 볼 수 있다. 분류라는 것은 어떤 새로운 사물이나 대상의 특징을 파악하여 미리 정의되어 있는 분류코드에 따라 어느 한 범주에 할당하거나 나누는 것을 의미한다. 이러한 목적을 위하여 대부분의 분류 대상들은 이미 데이터베이스에 레코드 형태로 입력되어 있기 때문에 이를 분류한다는 것은 각각의 레코드를 이미 정의되어 있는 분류 기준에 따라 한 범주로 할당하고 이를 나타내기 위하여 하나의 분류변수를 만들어 각각의 레코드에 추가하는 것을 말한다. 분류업무는 잘 정의된 분류코드나 이미 분류가 끝난 사례들로 이루어진 분석용 자료에 따라 특징지어 진다. 바로 이러한 업무는 아직 분류하지 않은 자료에 적용하여 분류할 수 있는 어떤 종류의 모형을 구축하는 것을 말한다.

- 의사결정나무, 최근접 이웃기봅, 인공신경망, 연결분석 등의 도구를 이용한다.

 

추정(Estimation)

- 분류는 이산형 출력, 추정은 연속형 값을 가지는 결과를 다룸

- 분류는 목표변수가 이산형인 것을 주로 다룬다. 예를 들면, 어떤 결과가 '' 혹은 '아니오' 라든가, 종교를 묻는 질문에서 '기독교', '불교' 혹은 '천주교' 처럼 목표변수가 범주형으로 주어진다. 그런데 추정은 결과가 연속형 값을 갖는 경우를 주로 다룬다. 어떤 주어진 입력변수로부터 수입, 키 혹은 은행잔고와 같은 미지의 연속형 변수에 대한 값을 알아내기 위하여 추정(Estimation)을 이용한다. 실제로 추정은 분류작업을 하는데 자주 이용된다.

 

- 예를 들어 카드요금 청구서 봉투에 스키부츠 광고를 싣고자 할 때 고객의 성향을 알면 더 좋은 결과를 얻을 수 있다. 이때 카드소지 고객이 스키를 타는지 타지 않는지 혹은 스키에 대한 성향 점수를 추정하여 부츠를 살 잠재 고객인지 아닌지를 분류를 하게 된다. 그리고 만약 각각의 추정값이 크기 순서로 나열되어 있다면 이용가치가 더욱더 있을 것이다.

 

- 회기분석, 생존분석, 인공신경망이 사용

 

예측(Prediction)

- 미래 행위를 분류하거나 미래 값을 추정, 입력변수와 출력 변수간의 순차적(Temporal) 관계 고려

- 대부분의 데이터마이닝 기술들은 예측 작업에 활용 가능

 

 

유사성 집단화(Affinity Grouping) 또는 연관성 규칙(Association Rules)

- 어떤 일들이 함께 발생하는 지 판단

- 장바구니 분석

 

군집화(Clustering)

- 이질적인 개체들의 모집단으로부터 다수의 동질적인 하위 집단 혹은 군집(Cluster)들로 세분화하는 작업

- 비슷한 고객끼리 묶는것

- 다른 방법을 사용하기 전에 주로 사용도니다.

- K-means, SOM

 

설명(Description)과 프로파일링(Profiling)

- 고객, 상품, 업무 프로세스 등에 무슨 일들이 일어나는 지에 대한 이해(Understanding)를 높이는 방법으로 데이터마이닝을 사용할 수 있음

- 가시화 기법

 

4. 데이터마이닝 선순환 프로세스

1단계

- 경영의 문제 또는 기회를 포착함

2단계

- 데이터마이닝을 통해 데이터를 행동 가능한 정보로 전환함

3단계

- 정보에 따라 행동함ᆞ4단계

- 결과를 측정함

 

'머신러닝' 카테고리의 다른 글

P value  (0) 2018.08.06
N-gram  (0) 2017.05.04
Sentiment Analysis  (0) 2017.05.04
의사결정트리 (1)  (0) 2017.05.01

+ Recent posts