N-gram
전산 언어학 과 확률 분야의 , N–gram은 연속한 n 개의 소정의 항목 순서 텍스트 또는 음성을 나타낸다. N-gram의 항목은 응용 프로그램에 따라 음소, 음절, 문자, 단어 또는 기본 쌍일 수 있다. n-grams은 일반적으로 수집되는 텍스트 또는 음성 코퍼스 . 항목이 단어 인 경우, n-gram은 shingles 라고도 합니다.
크기 1 의 n-gram은 "unigram"이라고 불립니다. 크기 2는 " bigram "("digram")입니다. 크기 3은 " 트라이 그램 "입니다. 더 큰 크기는 "four-gram", "five-gram"이라고 합니다.
'머신러닝' 카테고리의 다른 글
P value (0) | 2018.08.06 |
---|---|
Sentiment Analysis (0) | 2017.05.04 |
의사결정트리 (1) (0) | 2017.05.01 |
데이터 마이닝 개요 (0) | 2017.04.30 |