용어정리


피어슨상관계수

https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/


Confusion Matrix(분류결과표)

https://bcho.tistory.com/1206


크로스탭

열과 행을 회전시킨 테이블


Feature Engineering

http://hero4earth.com/blog/learning/2018/01/29/Feature_Engineering_Basic/#feature-engineering


Feature Engineering은 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징(Feature)를 만들어내는 과정입니다. < Wikipedia - Feature Engineering 정의 >


다른 정의를 살펴보면, 머신러닝 모델을 위한 데이터 테이블의 컬럼(특징)을 생성하거나 선택하는 작업을 의미한다고 합니다.


간단히 정리하면, 모델의 성능을 높이기 위해 모델에 입력할 데이터를 만들기 위해 주어진 초기 데이터로부터 특징을 가공하고 생성하는 전체 과정을 의미합니다.


Feature Engineering은 모델 성능에 미치는 영향이 크기 떄문에 머신러닝 응용에 있어서 굉장히 중요한 단계이며, 전문성과 시간과 비용이 많이 드는 작업입니다.



Bigrams / Trigrams


ex ) "I read a book about the history of America."

1. unigram :  "I", "read", "a", "book", "about", "the", "history", "of", "America"

2. bigram (digram) :  "I read", "read a", "a book", "book about", "about the", "the history", "history of", "of America"

3. trigram : "I read a", "read a book", "a book about", "book about the", "about the history", "the history of", "history of America"


사용 예) search engieen에서 키워드를 뽑아내는 용도

음석인식에서 자연어처리할때



모수/비모수

1. 모수적 통계의 전제조건

관측값이 어느 특정한 확률분포, 예를 들면 정규분포, 이항분포 등을 따른다고 전제한 후 그 분포의 모수(parameter)에 대한 검정을 실시하는 방법이다 

① 표본의 모집단이 정규분포를 이루어야 한다

② 집단내의 분산은 같아야 한다

③ 변인은 등간척도나 비율척도로 측정되어야 한다 → 이 조건이 충족되지 않으면 비모수 통계를 사용한다

- 등간척도: 간격척도 라고도 한다. 간격이 일정하여 덧셈 뺄셈은 가능하지만, 0이 아무것도 없는 것을 뜻하는 것이 아니기 때문에 몇 배라고 이야기 할 수 없는 척도 -시각, 섭씨온도, 화씨온도 

- 비율척도 : 0 기준으로 하기 때문에 비율이 가능한 척도. 우리가 사용하는 대부분의 변수가 여기에 해당 -성적, 키, 무게, 인구수, 금액 등)

cf) 명목척도 : 상하 관계는 없고 구분만 있는 척도 (남, 여, 국적.. 등)

    서열척도 : 크기는 있지만 그 간격이 얼마나 큰지 알 수 없을 때 (직위, 학렬, 등수, 친한친구 순서 등)


2. 비모수검정

① 모집단이 정규분포한다는 가정을 할 수 없는 경우에 모집단의 분포 유형에 관계없이 적용할 수 있는 방법이다

-종속변수가 연속변수인데 sample size가 작아(<30) 모집단에 대해 어떤 분포도 가정할 수 없는 경우가 있다

② 변수가 명목척도나 서열척도로 측정하는 경우에 분류기준과 분류방법의 독립성을 검정 가능하다

③ 모집단의 특성을 나타내는 모수에 대한 검정의 목적이 아닌경우, 이론분포와 경험분포간의 적합도(goodness of fit test)를 검정 가능하다


출처 : https://sherry-data.tistory.com/15



상관계수

https://mansoostat.tistory.com/115 상관계수 총정리

https://socialinnovation.tistory.com/141 카이제곱검정

http://m.blog.daum.net/_blog/_m/commentList.do?blogid=06PmS&articleno=11416177



scikit-learn문서전처리

https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/

python 문법

pandas.reset_index


reset_index 명령으로 인덱스를 보통의 자료열로 바꿀 수도 있다. 이 때 인덱스 열은 자료열의 가장 선두로 삽입된다. 데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

https://datascienceschool.net/view-notebook/a49bde24674a46699639c1fa9bb7e213/



pandas.apply

http://www.leejungmin.org/post/2018/04/21/pandas_apply_and_map/


python.istitle

 s = 'I am a boy'

 split_s = s.split()

 istitle_s = [w for w in split_s if(w.istitle())]

 print(istitle_s) #['I'] 



stopword

https://wikidocs.net/22530



plt.violinplot

  • 박스 플롯과 매우 유사.
  • 박스 플롯에서 아웃라이어로 표시되는 데이터까지 하나의 곡선 안에 모두 표시해준다.

      https://datascienceschool.net/view-notebook/84bf5b15b4fc4dd5aa0672bfdfd7c971



pd.melt

https://rfriend.tistory.com/tag/pd.melt%28%29


'머신러닝 > 스터디 정리' 카테고리의 다른 글

의사결정나무  (0) 2019.06.09
Activation Function  (0) 2018.08.26
PCA 구현하기  (0) 2018.08.20
numpy 간단한 선형회귀 예제  (0) 2018.08.18
numpy 연산2  (0) 2018.08.18

+ Recent posts