가설검정


조사하고자 하는 현상

수학적으로 표현할 수 있는, 구체적인 가설로 설정

가설을 입증할 실험 및 관찰 수행

결과를 효과적으로 요약할 수 있는 값으로 표현


보다 구체적으로,


1) 귀무가설, 대립가설 설정

2) 실험 및 관찰 계획 수행

3) 실험 및 관찰을 요약

4) 요약된 값이 귀무가설이 참이라 가정했을 때 쉽게 발생할 수 있는지 조사

5) 귀무가설 하에 발생하기 힘들다면, 귀무가설 기각(reject), 발생할 수 있는 값이면 귀무가설 채택(accept)



귀무가설 (H0): 실험이나 관찰을 통해서 기각하고싶은 기존의 가설

대립가설 (Ha): 실험이나 관찰을 통해서 주장하고 싶은 새로운 이론



단측검정 vs. 양측검정


예를들어 

H0 : 2010년 중학생의 평균 키는 170cm 이다

Ha1 : 2010년 중학생의 평균 키는 170cm보다 크다 

Ha2 : 2010년 중학생의 평균 키는 170cm 과 차이가 있다.


라 해보면


단측검정


Ha1을 봤을 때, μ < 170cm 일 가능성이 전혀 없다면 μ > 170cm인 경우만을 생각해도 되겠지.

이것이 단측검정이고, 이렇게 하면 귀무가설을 기각할 가능성이 높아짐. 즉 검정력이 높아짐. (power)



양측검정

Ha2를 봤을 때, μa != μb가 되는데 이 경우는 μa < μb 랑 μa > μb 두 경우를 모두 고려해야함

귀무가설을 통과하기 조금 더 까다롭게됨. 



검정통계량 (test statistic)

가설 검정에 사용하는 표본의 통계량을 적은 수의 통계값으로 요약한 것을 검정통계량이라고 함

z통계량, t통계량, x^2통계량, F통계량 등등

참조블로그:  http://math7.tistory.com/84



유의수준 (level of significance)

어느정도 드문 현상을 유의하다고 볼 것인지? 보통 5%로 설정함. 



유의확률 (p-value)

실험이나 관찰에서 나온 검정통계량이 귀무가설을 지지하는 정도. 

p가 작을수록 귀무가설을 기각하는거죠. 

정확히는, H0가 참이라고 할 때 주어진 데이터가 참일 확률. 




검정력과 표본 수(power and sample size)

표본수가 커지면 작은 차이라도 기각할 가능성이 커지는데,

이를 귀무가설이 잘못되었을 때 기각할 수 있는 확률, 즉 검정력(power)가 커진다고 함

표본수가 작아지면 유의하지 않은 결과가 나올 가능성이 높아짐.




p-value는 false-positive가 일어날 확률을 의미한다.(type1 error) 즉 귀무가설이 거짓일 때, 데이터가 귀무가설을 지지한다고 결정할 확률을 결정한다는 것. 보통 5%로 설정함. 대부분의 실험에서 p-value 만을 가지고 검정 마침


power 검정은 false-negative가 일어날 확률을 의미한다. (type 2 error) 즉 귀무가설이 참일 때, 표본 데이터가 귀무가설을 기각한다고 나올 확률인 것이다. 표본 수가 적어질 수록 이 같은 오류를 범할 확률이 커지므로 샘플 사이즈에 따라 이와 같은 검정을 수행할 필요가 있다. 보통 20%로 설정. 




보통 전수조사가 불가능하니 표본조사를 해서 모집단의 성질을 추론하게 되니 

표본이 모집단을 대표할 수 있도록 하는것이 관건



Posted by 영선님
,

펌글

공부/R과 통계 2015. 6. 13. 00:00

원본위치

http://brachymystax.blogspot.kr/2010/03/blog-post_05.html



통계 비전공자는 말할 것도 없고, 심지어 통계학과 학생들조차도 표준편차와 표준오차의 차이를 명확하게 구별하지 못하는 사례를 종종 보곤 한다. 오늘은 이 둘의 차이를 설명해보겠다. 설명의 편의상 우리나라 성인 남성의 평균 혈압을 조사하기 위하여, 500명을 랜덤하게 뽑아서 500개의 혈압 측정치를 얻었다고 가정하자.


본격적인 설명에 앞서, 우선 통계학이란 무엇인지를 간단히 살펴보도록 하자. 통계학이 무엇을 하는 학문인지를 명확하게 이해하고 나면, 표준편차와 표준오차의 차이를 명확하게 이해하는데 크게 도움이 된다.


우리는 모집단의 특성을 설명하는 어떤 값을 알고 싶어 한다. 예를 들어, 위의 예에서는 우리나라 성인 남성 (모집단)의 평균 혈압을 알고 싶은 것이다. 그 외에도 예는 수 없이 많다. 기업의 마케팅 담당자는 소비자들의 선호도를 알고 싶어 하고, 여론조사 회사는 선거에서 승리할 후보자를 알고 싶어 한다. 모집단의 특성을 설명하는 값으로는, 모평균, 모비율, 모분산, 모집단에서 성립하는 어떤 모형에 들어 있는 모수 (예를 들면, 회귀분석에서 기울기와 y절편) 등 매우 다양하다. 이처럼 우리는 모집단의 특성을 설명하는 어떤 값을 알고 싶어 하는데, 모집단에 속하는 모든 개체들을 다 조사하는 전수조사를 한다면, 우리는 그 값을 알 수 있을 것이다. 하지만 대부분의 경우, 전수조사는 시간과 비용이 너무 많이 든다. 그래서 전수조사 대신, 모집단을 잘 대표하는 표본을 뽑아서 그 표본만을 조사하게 된다. 만일 전수조사가 항상 정확하게 수행이 가능하고 시간과 비용이 그리 부담스럽지 않다면, 통계학이라는 학문은 이 세상에서 사라지게 될 것이다. (하지만 그런 일은 실제 없을 것이다. 자본주의가 고도로 발달할수록 통계학은 더욱 더 필요할 수밖에 되어 있다.)


어쨌든 전수조사 대신 표본조사를 하는 순간, 통계학이 필요하게 된다. 어느 통계학 책을 보아도 맨 앞부분에는 <기술통계량>이라는 부분이 나오는데, 이는 단지 표본에 있는 자료를 요약하는 일이다. 표본평균을 구하거나, 히스토그램을 그리거나 하는 행위이다. 자료를 간단하게 요약하고자 하는 것은 거의 인간의 기본 욕망에 가까운 일이다. 중간고사를 보고나면 항상 학생들은 평균값이 얼마인지를 너무나 궁금해 하는 것과 같은 이치이다. 하지만 이러한 자료를 요약하는 행위는 현대통계학의 핵심에 들지 못하는 아주 기초적인 일일 뿐이다.


표준편차는 바로 자료를 요약하는 행위에 속하는 것이다. 위의 혈압 예에서 표준편차는 500개 혈압 측정치가 표본평균로부터 얼마나 떨어져 있는지를 측정하는 측도이다. 정확한 식은 대부분의 통계학 교재에 있으므로, 이곳에 소개하지는 않겠다. 표준편차가 클수록, 자료는 표본평균으로부터 멀리 산포되어 있는 것이고, 표준편차가 작을수록 자료는 표본평균 근처에 밀집되어 있게 된다. 다시 한 번 강조하지만, 여기서는 자료를 단지 요약할 뿐 그 이상의 것은 없다.


달리 표현하면, 표준편차란 자료에 해당하는 개념인 것이다. 우리가 어떤 자료를 손에 들고 있으면 항상 표준편차를 계산 할 수 있는 것이다.


반면에 표준오차를 이해하기 위해서는, 현대통계학이 무엇을 하는 학문인지를 알아야 한다.


현대통계학이란 한 마디로 표현하면, 표본에 속한 제한된 정보를 사용하여, 미지의 값인 모집단의 모수를 추정 및 검정하고자 하는 학문이다. 추정이란 한 마디로 모르는 값을 미루어 짐작하는 행위이다. 추정에는 필연적으로 오차가 수반될 수밖에 없다. 전수조사가 아니라 표본조사이기 때문이다. 그러므로 그 오차가 얼마나 될지를 나타내줄 개념이 필요하게 된다. 표준오차는 바로 이 오차를 나타내는데 사용되는 개념이다.


표준편차에는 단 한가지의 공식이 존재하지만, 표준오차에는 수 없이 많은 공식이 존재한다. 왜 그럴까?

그 이유는 우선, 추정하고 싶은 미지의 모수가 여러 가지이다. 모평균일 수도 있고, 모비율일 수도 있고, 회귀분석 식의 기울기일 수도 있다. 한 미지의 모수에도 여러 가지의 추정량이 존재한다. 추정량이란 추정을 하는데 사용되는 자료의 함수로서, 모평균을 추정하는 것이 목표라면, 표본평균, 표본중앙값, 표본절삭평균 등 다양한 추정량이 존재한다. 이러한 추정량의 분산을 구하고, 그 분산에 루트를 씌운 것이 바로, 표준오차의 정의이다.


그러므로 표준오차가 무어냐고 물으면, 반드시 어느 추정량의 표준오차냐고 되물어야 한다. 모든 추정량은 자신만의 표준오차 공식을 갖고 있는 것이다. 예를 들어, 통계 프로그램을 사용하여, 회귀분석을 해 본 경험이 있는 사람이라면, 각각의 회귀계수 옆에 표준오차가 계산되어 나오는 것을 보았을 것이다. 즉 각각의 회귀계수 (즉 추정량)마다, 자신의 표준오차가 존재하는 것이다. 통계학 책을 보면, 가장 흔히 소개되어 있는 표준오차 공식이, 표본평균의 표준오차 공식이다. 즉, 표본평균의 표준오차는, 표본평균을 사용하여 미지인 모평균을 추정할 때, 표본평균이 얼마나 넓게 모평균 주위에 산포되어지는 나타내주는 개념인 것이다.


다시 말하면, 표준오차는 추정량의 추정의 정확성을 나타내 주는 측도이다. 표준오차가 적을수록, 그 추정값은 미지의 모수를 매우 정확하게 추정할 것이고, 표준오차가 크다면 그 추정값은 미지의 모수값과 상당한 차이를 가질 것이다

Posted by 영선님
,

일단 r 을 설치했음. 자바나 다른것들은 일단 설치 안했음


내재되어있는 데이터로 이것저것 돌려보았음. 


plot()을 이용해서 그래프 그려보고

boxplot()으로 박스형 그래프도 그려봄



read.csv로 csv 파일 로드해봄


length() 표본 수

var() 분산

mean() 평균

sd() 표준편차

sd()/sqrt(length())  표준오차



2장 기술통계


1) 표준편차

표준편차는 표본들이 표본의 평균과 얼마만큼 떨어져 있는가를 나타내는 정도

표준편차가 0이면 관측값 모두가 동일한 크기이고, 편차가 클수록 평균에서 떨어진 값이 많이 존재한다는 뜻

즉,, 표준편차는 들고있는 자료를 요약한 것에 불과함.


표본 평균은 모집단 평균과 차이가 있을것임 (당연. 모집단 = 표본이 아닌이상 어쩔 수 없음)

모집단 평균에 대해 편차를 생각할 필요가 있는데,

모집단의 distribution을 생각하는것. 

표준편차 != 모집단 평균이 이루는 분포의 표준편차


2) 표준오차

표준오차가 바로 모집단 평균이 이루는 분포의 표준편차

표본평균들의 표준오차

표본들의 평균이 전체 평균과 얼마나 떨어져 있는가를 알려주는 것

즉 추정량 추정의 정확성을 설명함. 오차가 크면, 미지의 모수값과 상당한 차이가 생기게 될것임



즉 표준오차는 추정치의 표준편차이고, 추정치는 평균 말고도 정말 여러가지가 있을테니

R에서 바로 함수를 제공해 주지 않는것이 당연할듯


표준 편차

표준 편차는 종종 시그마 또는 작은 그리스 문자로 표시되며 평균을 기준으로 데이터 지점이 얼마나 분산되어 있는지를 설명하는 가변성에 대한 측정값입니다. 평균에 대한 표준 편차의 ±1 분산 범위에는 사례 중 약 68%가 포함되어 있으며 표준 편차의 ±1.96 범위에는 사례 중 약 95%가 포함되어 있습니다. 즉 변수가 정규적으로 분포되면 사례의 95%가 평균에서 표준 편차가 2인 범위 내에 있게 됩니다.

개별값이 평균과 얼마나 먼가, 혹은 자신이 속산 샘플집단을 얼마나 잘 대변해주는가


표준 오차

표준 오차는 샘플 통계에 대해 예상된 표준 편차입니다. 예를 들어 샘플 평균에 대한 표준 오차는 샘플 수를 무한하게 늘렸을 때 도출된 평균에 대해 가능한 표준 편차의 예상치입니다.

표준 오차는 모집단 평균의 예상치와 비교했을 때 샘플 평균이 정확할 가능성을 나타냅니다. 표준 오차가 작을수록 덜 분산되어 있고 샘플 평균이 모집단 평균에 근접할 가능성이 큽니다. 다시 말해 실제 모집단 평균이 샘플 평균의 ±1 표준 오차 내에 있을 확률이 68%입니다.

개별 샘플집단이 모집단을 얼마나 잘 대변하는가


모집단에서 100개 샘플을 뽑아서 평균을 내고 M1, 또 다시 100개 뽑아서 평균을 내고 M2...

이렇게 추출된 n개 집단의 샘플군들의 분포가 얼마나 모집단 평균과 떨어져있는지

이것이 표준 오차. 그 값은, 전체 집단의 표준편차에서 / sqrt(100)

혹은 sd(M)





여기부턴 순서통계량 (order statistics)에 해당하는 내용

한 번도 써본적이 없음


3) 중위수 (median)

자료를 순서대로 나열했을 때 50%의 위치에 해당하는 값.

자료의 분포가 좌우 대칭이 아닌 경우 (특히 outlier 가 절묘한 위치에 있는 경우)


4) 사분위수 (quartiles)

median이 50% 의 위치라면, 75%의 위치 (Q3) 와 25%의 위치 (Q1)의 차이

즉 Q3-Q1으로 값이 퍼진 정도를 측정하는 척도이며

분산이나 표준편차에 해당

R에서 IQR()로 계산



아웃라이어 결정 (일반적인 경우)

Q1 - 1.5 * IQR 보다 작거나

Q3 + 1.5 * IQR 보다 큰 경우



2.4 그래프


1)히스토그램 - 도수분포표를 그래프로 그린것

hist(Volume, probability=TRUE)

세로축이 확률로 되어서 나옴 ㅎㅎ


2) stem은 stem-and-leaf plot 이라는데

이거 본적이 없다.. 


stem(Volume)


3) q-q plot

theoretical quantity - sample quantity 의 관계를 플로팅 한것

선형에 가까울수록 정규분포에 가까운 것으 의미

qqnorm(Volume)

qqline(Volume) 이걸로 선 그을 수 있음


rnorm(31) 이건 평균0 표준편차1인 정규분포에서 31개의 난수를 발생시킴

저거 이용해서

x=rnorm(31)

qqnorm(x)

qqline(x) 

하면 거의 정규분포에 해당하는 라인을 그려볼 수 있음 



2.5 함수만들기

se = function(x) sd(x)/sqrt(length(x))


se() 하면 함수 실행



2.6 시뮬레이션

3) 번에서 배운 정규분포 난수 발생

rnorm 을 이용해서 평균, 표준편차 범위 안의 정규분포 샘플들에서 표본을 추출할 수 있겠음

height = rnorm(100000,175,5)

100000 만개의 샘플을 발생시키는데, 평균은 175고 표준편차는 5로 해달라는뜻


자 이제 저걸 모집단이라고 하고, 저기서 표본을 추출해볼까

sample(height, size=10)


이제 10개짜리 표본을 10000개 발생시켜서 그 평균과 분산을 각각 벡터에 저장할것임.


M = NULL // 평균을 저장할 벡터

V = NULL // 분산을 저장할 벡터


for(i in 1:10000) {

x = sample(height, 10)

M[i] = mean(x)

V[i] = var(x)

}


x 라는 벡터에 height에서 샘플 10개씩 가져와서 저장한 담에

그 평균과 분산을 M과 V에 순서대로 저장


(1) mean(M) 은 모집단과 비슷하게 나옴


(2) sd(M) 은 표본집단의 표준편차로, 표준오차가 됨. 

따라서 sd(height)/sqrt(10)


을 하면 sd(M)의 값과 거의 동일하게 나오는 것을 확인






참고블로그


http://blog.naver.com/leerider/100207807760






Posted by 영선님
,