P value (=P 값 =유의확률)의 정의??
정의)귀무가설을 기각할수 있는 유의수준중 최소값'이 정확한 정의인데, 통계 초보자들이 해석할땐 좀 어렵게 느낄수도.
다른 정의)내가 귀무가설이 틀리다고 주장할때, 내 말이 틀릴 확률<=학술적 정의는 아니나 이게 좀 이해하기 쉬울수도.
사실 정의만 달달 외우는건 공부 못하는 학생들이나 하는 짓(?). 공부 잘하는 학생은 그 개념파악이 더 궁금하겠죠?^^
개념파악을 위해서 먼저 통계적 가설 검정 과정을 알아보자면~
모든 통계는 귀무가설에서부터 시작
즉 귀무가설이 맞다는 가정을 하면 거기서부터 (검정)통계량의 '분포'가 존재하게 되며, 실제 구한
(검정)통계량의 수치가 그 '분포'의 신뢰구간안에 들면 귀무가설이 맞는거고,수치가 그 분포에서 벗어나면 귀무가설을 기각하면 되는 것임.
(예를들면) 귀무가설:차두리는 차범근 친자다..를 검정하고 싶으면
(1)귀무가설이 맞다는 가정을 세운다
(2)그러면 차범근 친자 키는 (검정통계량) 분포를 갖게 된다(예를 들면 정규분포,t분포등등)
(3)실제 구한 차두리 키(검정통계량의 수치)가 그 분포의 신뢰구간 내에 들면 귀무가설(차두리는
차범근 친자다)을 받아들이는거고,수치가 그 범위에서 벗어나면 귀무가설을 기각하는 것임..
참 쉽죠?^^
(구체적으로 다시 설명하면)
귀무가설(H0):차두리는 차범근 친자다
대립가설(H1):차두리는 차범근 친자가 아니다
위에서 말했듯이 통계는 항상 귀무가설이 맞다는 가정으로 시작.
(통계과정)
(1)귀무가설이 맞다고 가정
(2)그러면 그 때 차두리키(검정통계량)는 분포를 따른다(예를 들어 정규분포라고 하자)
(2-1)위의 정규분포는 170 에서 190 범위 내에 들어갈 확률이 95%이다(이 말은 95% 신뢰구간이
170 에서 190이란 말과 같다) 즉 190 를 벗어난 수치 가령 198보다 크게 나올 확률은 0.01(1%)
로 매우 희박하다
(3)그런데 계산해 보니 차둘키(검정통계량 수치)가 [170,190] 사이 값이 아니고, 198 이 나왔다.
->희박한 수치인 198 이 나왔기 때문에, 즉 정규분포의 신뢰구간안에 들지 않기 때문에 귀무가설을
기각하는 것이다(다시 말해 대립가설을 accept 하게 되는 것이다)
다시 요약하면 귀무가설 가정하에 희박한 수치인 198 (확률 1%)이 나왔기 때문에 귀무가설을 기각하는 것이다.
그런데 희박하지만 귀무가설 가정하에도 1%의 확률로 198 이 분명 나올수는 있는 것이다.그렇게 때문에 귀무가설을 기각하긴 하지만, 기각하는게 100퍼센트 맞다고는 할수가 없다.
여기서 0.01이 p-value인 것이다.
즉 희박해서 내가 귀무가설을 기각은 했지만, 솔직히 귀무가설이 맞다고 해도 0.01(1%)의 가능성으로 198 이 충분히 나올수 있는 수치아닌가?
즉 내가 귀무가설이 틀리다고 말했지만 내 말이 틀릴확률이 0.01(1%)는 분명 있는 것이다.
다시 말해 p-value가 작을수록 귀무가설을 기각하는 힘(=대립가설을 accept 하는 힘)이 커지게 된다.
끝으로 위에서 차두리는 차범근 친자다 를 귀무가설로 두었다.
그런데 이렇게 질문할수도 있다->차두리는 차범근 친자다 를 대립가설로 둘수도 있지 않나?
그건 절대 안된다.
왜냐하면 귀무가설이 맞다는 가정하에 검정통계량의 '분포'가 존재하게 되고 그에 따라 통계적 가설검정이 만들어 질수 있기 때문이다.
이거 상당히 어려운 개념이다.수학통계를 전공해도 2학년은 되야 파악할 개념이기 때문.
의사들은 이렇게만 알아도 될듯 하다
귀무가설:연관성이 없는 가설(가령 흡연과 폐암은 관련이 없다)=대립가설의 반대
대립가설:연관성이 있는 가설(가령 흡연은 폐암을 일으킨다)=의사들이 밝히고자 하는 가설
=>그냥 일단 이렇게만 기억해도 될듯^^
cf)정확히 말해 귀무가설을 reject하면 대립가설을 accept하지만,대립가설을 reject한다고 귀무가설을 accept하는건 아님. 이것을 이해하기 위해선 분포의 개념이 필요한데 잘 모르겠으면 그 이유는 그냥 pass해도 좋을듯
reference:걍 생각나는 대로 쓴 것임
[출처 : https://m.blog.naver.com/PostView.nhn?blogId=baedical&logNo=10109291879&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F]
'머신러닝' 카테고리의 다른 글
N-gram (0) | 2017.05.04 |
---|---|
Sentiment Analysis (0) | 2017.05.04 |
의사결정트리 (1) (0) | 2017.05.01 |
데이터 마이닝 개요 (0) | 2017.04.30 |