N-gram

전산 언어학 과 확률 분야의 , Ngram은 연속한 n 개의 소정의 항목 순서 텍스트 또는 음성을 나타낸다. N-gram의 항목은 응용 프로그램에 따라 음소, 음절, 문자, 단어 또는 기본 쌍일 수 있다. n-grams은 일반적으로 수집되는 텍스트 또는 음성 코퍼스 . 항목이 단어 인 경우, n-gramshingles 라고도 합니다.

크기 1 n-gram"unigram"이라고 불립니다. 크기 2" bigram "("digram")입니다. 크기 3" 트라이 그램 "입니다. 더 큰 크기는 "four-gram", "five-gram"이라고 합니다.

'머신러닝' 카테고리의 다른 글

P value  (0) 2018.08.06
Sentiment Analysis  (0) 2017.05.04
의사결정트리 (1)  (0) 2017.05.01
데이터 마이닝 개요  (0) 2017.04.30

Sentiment Analysis(감정 분석)

감정 분석 (때로 의견 청취 또는 감정 AI 라고도 함)은 자연 언어 처리, 텍스트 분석 , 전산 언어학 및 생체 인식 을 사용하여 정서적 인 상태와 주관적인 정보를 체계적으로 식별, 추출, 정량화 및 연구합니다. 감정 분석은 리뷰, 설문 조사 응답, 온라인 및 소셜 미디어, 마케팅 에서 고객 서비스 , 임상 의학에 이르는 애플리케이션을 위한 의료 자료와 같은 고객 자료의 음성에 널리 적용됩니다.

 

일반적으로 정서 분석은 문서, 상호 작용 또는 사건에 대한 일부 주제 또는 전반적인 문맥 극성 또는 정서적 반응과 관련하여 연사, 작가 또는 기타 주제에 대한 태도를 결정하는 것을 목표로합니다. 태도는 판단이나 평가 ( 평가 이론 참조 ), 정서적 인 상태 (, 저자 또는 연사의 감정 상태) 또는 의도 된 감정적 의사 소통 일 수 있습니다.

 

방법 및 기능

정서 분석에 대한 기존의 접근 방식은 지식 기반 기법, 통계 기법 및 하이브리드 접근 방법의 세 가지 주요 범주로 분류 할 수 있습니다.

 

지식 기반 기술은 행복, 슬픔, 두려움, 지루함과 같은 모호하지 않은 영향 단어의 존재를 바탕으로 영향 카테고리 별로 텍스트를 분류합니다. 일부 지식 기반은 명백한 영향 단어를 나열 할뿐만 아니라 임의의 단어에 특정 감정에 대한 "친화력"을 부여합니다.

 

통계적 방법latent semantic analysis, 지원 벡터 머신, "단어 모음"Semantic Orientation - Pointwise 상호 정보와 같은 기계 학습의 요소를 활용합니다. 보다 정교한 방법은 정서 (, 정서적 인 상태를 유지하는 사람)와 표적 (, 감정을 느낀 주체)을 파악하려고 시도합니다. 문맥에서 의견을 조사하고 오해 된 단어의 문법적 관계가 사용되었습니다. 문법 의존 관계는 텍스트를 깊이 파싱하여 얻을 수 있습니다.

 

하이브리드는 기계 학습과 온톨로지 및 의미 네트워크와 같은 지식 표현의 요소를 활용하여 예를 들어 관련 정보를 명시 적으로 전달하지 않지만 암시 적으로 나타나는 개념 분석을 통해 미묘한 방식으로 표현되는 의미를 탐지합니다.

 

평가

정서 분석 시스템의 정확성은 원칙적으로 인간의 판단과 얼마나 잘 일치 하는지를 나타냅니다. 이것은 일반적으로 정밀도와 리콜로 측정됩니다. 그러나 연구에 따르면 인간 평가자는 일반적으로 시간의 79 %를 동의합니다.

따라서 정확도가 인상적이지 않더라도 70% 정확도의 프로그램이 인간과 거의 비슷하게 수행됩니다. 프로그램이 시간의 "맞은" 100% 인 경우에, 인간은 어떤 응답든지에 관하여 다량 의견이 맞지 않기 때문에, 시간의 대략 20%에 아직도 그것을 동의하지 않을 것입니다. 보다 정교한 조치가 적용될 수 있지만 정서 분석 시스템의 평가는 여전히 복잡한 문제입니다. 이진 판단보다는 규모를 반환하는 정서 분석 작업의 경우 상관 관계는 예측 값이 목표 값에 얼마나 가깝게 있는지를 고려하기 때문에 정밀도보다 더 나은 척도입니다.


참고 : https://en.wikipedia.org/wiki/Sentiment_analysis

'머신러닝' 카테고리의 다른 글

P value  (0) 2018.08.06
N-gram  (0) 2017.05.04
의사결정트리 (1)  (0) 2017.05.01
데이터 마이닝 개요  (0) 2017.04.30

1. 의사결정나무는 무엇인가?

분류와 예측에 자주 쓰이는 강력한 방법

일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는 데 쓰이는 구조

ᆞ추정에선 별로 좋지않다.

ᆞ순수도를 최대한 높게 하는것이다.

ᆞ결측값이 있어도 된다.


2. 의사결정나무는 어떻게 생성되나

목표변수 측면에서 부모노드보다 더 순수도(Purity)가 높은 자식노드들이 되도록데이터를 반복적으로 더 작은 집단으로 나누면서 생성됨

ᆞ 데이터집합을 분류해서 사용

    훈련용데이터집합 : 모형생성

검증용데이터집합 : 모형최적화 = 가지치기

테스트데이터집합 : 성능평가


3. 순수도 척도 – 범주형데이터

Gini 
인구 다양성을 조사하는 생물학자들과 환경 공학자들이 자주 사용하는 것으로 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 말함

-  부모노드보다 자식노드가 값이 더 커야한다.

엔트로피(Entropy)

  - 시스템이 얼마나 정리되지 않았는지에 대한 척도

    - 부모노드보다 자식노드가 값이 작 

정보 이익 비율(Information Gain Ratio)
엔트로피 분할 척도는 각각의 값에 대한 별개의 가치를 치는 범주형 입력변수들에 관한 분할 방법과 결합되었을 때 문제를 발생 시킴

   -  따라서 가지가 많은 곳에 패널티를 부여

Chi-square(c²검정

통계학적 유의성에 대한 검정

빈도에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의

관측된 표본들 간의 차이가 우연에 의한 것일 확률을 측정

- 큰쪽을 선택한다.


4. 순수도 척도 – 수치형 데이터

Fisher’s test(F 검정)

- 연속형 변수에는 검정 vs. 범주형 변수에는 카이제곱 검정

다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공

ᆞ분산의 감소

 - 자식노드의 분산을 부모노드 보다 작게 한다. 

'머신러닝' 카테고리의 다른 글

P value  (0) 2018.08.06
N-gram  (0) 2017.05.04
Sentiment Analysis  (0) 2017.05.04
데이터 마이닝 개요  (0) 2017.04.30

1. 빅데이터

 

ᆞ일반적인 DB SW로 관리하기 어려운 정도의 큰 규모의 데이터

ᆞ의사결정 도와주기 위해서 비용효과적으로, 혁신적으로 정보 처리가 필요한 빠른 속도로 생성되는 다양한 형태의 대용량     정보 자산

 

2. 분석적 CRM과 데이터마이닝 정의

 

ᆞ고객관계관리 시스템의 유형

 - 운영 CRM(Operational CRM) : 영업 자동화

 - 협업 CRM(Collaborative CRM) : 콜센터 자동화, 웹사이트 등 고객 접점 관리

 - 분석 CRM(Analytic CRM) : 고객 데이터 분석과 활용

ᆞ데이터마이닝은 분석 CRM의 도구

ᆞ데이터마이닝의 정의

 - 대용량의 데이터로부터 자동적이거나, 반자동적인 방법을 통해서 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 유용한 지식을 추출하는 일련의 과정들

 

3. 데이터마이닝으로 할 수 있는 것들

 

분류(Classification)

- 사전에 정의된 범주들에 개체를 할당할 수 있는 모형(Model)을 만드는 것

- 데이터마이닝 작업에서 가장 보편적이라 할 수 있다. 우리는 생물을 문, , 속으로 분류를 하고 사물을 원소에 따라 구분하고, 개를 혈통에 따라, 사람을 인종으로 분류하는 것처럼 세상을 이해하고 교류하면서 살아가기 위해 꾸준히 분류를 시도하여 왔다. 사실, 점수를 매기고 등급으로 나누는 것도 분류에 속할 수 있다. 이런 맥락에서 보면 분류라는 것은 이미 인간생활과 오래 전부터 밀접한 관계를 맺어 왔다고 볼 수 있다. 분류라는 것은 어떤 새로운 사물이나 대상의 특징을 파악하여 미리 정의되어 있는 분류코드에 따라 어느 한 범주에 할당하거나 나누는 것을 의미한다. 이러한 목적을 위하여 대부분의 분류 대상들은 이미 데이터베이스에 레코드 형태로 입력되어 있기 때문에 이를 분류한다는 것은 각각의 레코드를 이미 정의되어 있는 분류 기준에 따라 한 범주로 할당하고 이를 나타내기 위하여 하나의 분류변수를 만들어 각각의 레코드에 추가하는 것을 말한다. 분류업무는 잘 정의된 분류코드나 이미 분류가 끝난 사례들로 이루어진 분석용 자료에 따라 특징지어 진다. 바로 이러한 업무는 아직 분류하지 않은 자료에 적용하여 분류할 수 있는 어떤 종류의 모형을 구축하는 것을 말한다.

- 의사결정나무, 최근접 이웃기봅, 인공신경망, 연결분석 등의 도구를 이용한다.

 

추정(Estimation)

- 분류는 이산형 출력, 추정은 연속형 값을 가지는 결과를 다룸

- 분류는 목표변수가 이산형인 것을 주로 다룬다. 예를 들면, 어떤 결과가 '' 혹은 '아니오' 라든가, 종교를 묻는 질문에서 '기독교', '불교' 혹은 '천주교' 처럼 목표변수가 범주형으로 주어진다. 그런데 추정은 결과가 연속형 값을 갖는 경우를 주로 다룬다. 어떤 주어진 입력변수로부터 수입, 키 혹은 은행잔고와 같은 미지의 연속형 변수에 대한 값을 알아내기 위하여 추정(Estimation)을 이용한다. 실제로 추정은 분류작업을 하는데 자주 이용된다.

 

- 예를 들어 카드요금 청구서 봉투에 스키부츠 광고를 싣고자 할 때 고객의 성향을 알면 더 좋은 결과를 얻을 수 있다. 이때 카드소지 고객이 스키를 타는지 타지 않는지 혹은 스키에 대한 성향 점수를 추정하여 부츠를 살 잠재 고객인지 아닌지를 분류를 하게 된다. 그리고 만약 각각의 추정값이 크기 순서로 나열되어 있다면 이용가치가 더욱더 있을 것이다.

 

- 회기분석, 생존분석, 인공신경망이 사용

 

예측(Prediction)

- 미래 행위를 분류하거나 미래 값을 추정, 입력변수와 출력 변수간의 순차적(Temporal) 관계 고려

- 대부분의 데이터마이닝 기술들은 예측 작업에 활용 가능

 

 

유사성 집단화(Affinity Grouping) 또는 연관성 규칙(Association Rules)

- 어떤 일들이 함께 발생하는 지 판단

- 장바구니 분석

 

군집화(Clustering)

- 이질적인 개체들의 모집단으로부터 다수의 동질적인 하위 집단 혹은 군집(Cluster)들로 세분화하는 작업

- 비슷한 고객끼리 묶는것

- 다른 방법을 사용하기 전에 주로 사용도니다.

- K-means, SOM

 

설명(Description)과 프로파일링(Profiling)

- 고객, 상품, 업무 프로세스 등에 무슨 일들이 일어나는 지에 대한 이해(Understanding)를 높이는 방법으로 데이터마이닝을 사용할 수 있음

- 가시화 기법

 

4. 데이터마이닝 선순환 프로세스

1단계

- 경영의 문제 또는 기회를 포착함

2단계

- 데이터마이닝을 통해 데이터를 행동 가능한 정보로 전환함

3단계

- 정보에 따라 행동함ᆞ4단계

- 결과를 측정함

 

'머신러닝' 카테고리의 다른 글

P value  (0) 2018.08.06
N-gram  (0) 2017.05.04
Sentiment Analysis  (0) 2017.05.04
의사결정트리 (1)  (0) 2017.05.01

+ Recent posts