공분산의 문제점

X와 Y의 단위의 크기에 영향을 받는다는 것이다.


즉 다시말해 100점만점인 두과목의 점수 공분산은 별로 상관성이 부족하지만 100점만점이기 때문에 큰 값이 나오고 10점짜리 두과목의 점수 공분산은 상관성이 아주 높을지만 10점만점이기 때문에 작은값이 나온다. 이것을 보완하기 위해 상관계수(Correlation)가 나타난다.


상관계수

확률변수의 절대적 크기에 영향을 받지 않도록 단위화 시켰다고 생각하면 된다.

즉, 분산의 크기만큼 나누었다고 생각하면 된다.





상관계수와 내적

다시 상관 계수의 식을 보자.

이 중에서

는 정규화 과정과 매우 관련이 있어 보이긴 한다. 하지만 이번에는 (xiX¯)와 (yiY¯)를 떼어서

생각해보자. 그리고 sX¯와 sY¯는 (xiX)(yiY¯)와 관계가 있다는

사실을 알고 있으니 식을 아래와 같이 변경할 수 있다.

여기서라 하자.

그러면 위 식은 다음과 같이 쓸 수 있다.





[참고]

http://destrudo.tistory.com/15

https://wikidocs.net/6957

'머신러닝 > 스터디 정리' 카테고리의 다른 글

numpy 기본  (0) 2018.08.18
경사하강법  (0) 2018.08.17
PCA  (0) 2018.08.14
정규분포 표준화  (0) 2018.08.13
Aprior 알고리즘  (0) 2018.08.12

+ Recent posts