일단 r 을 설치했음. 자바나 다른것들은 일단 설치 안했음
내재되어있는 데이터로 이것저것 돌려보았음.
plot()을 이용해서 그래프 그려보고
boxplot()으로 박스형 그래프도 그려봄
read.csv로 csv 파일 로드해봄
length() 표본 수
var() 분산
mean() 평균
sd() 표준편차
sd()/sqrt(length()) 표준오차
2장 기술통계
1) 표준편차
표준편차는 표본들이 표본의 평균과 얼마만큼 떨어져 있는가를 나타내는 정도
표준편차가 0이면 관측값 모두가 동일한 크기이고, 편차가 클수록 평균에서 떨어진 값이 많이 존재한다는 뜻
즉,, 표준편차는 들고있는 자료를 요약한 것에 불과함.
표본 평균은 모집단 평균과 차이가 있을것임 (당연. 모집단 = 표본이 아닌이상 어쩔 수 없음)
모집단 평균에 대해 편차를 생각할 필요가 있는데,
모집단의 distribution을 생각하는것.
표준편차 != 모집단 평균이 이루는 분포의 표준편차
2) 표준오차
표준오차가 바로 모집단 평균이 이루는 분포의 표준편차
표본평균들의 표준오차
표본들의 평균이 전체 평균과 얼마나 떨어져 있는가를 알려주는 것
즉 추정량 추정의 정확성을 설명함. 오차가 크면, 미지의 모수값과 상당한 차이가 생기게 될것임
즉 표준오차는 추정치의 표준편차이고, 추정치는 평균 말고도 정말 여러가지가 있을테니
R에서 바로 함수를 제공해 주지 않는것이 당연할듯
표준 편차
표준 편차는 종종 시그마 또는 작은 그리스 문자로 표시되며 평균을 기준으로 데이터 지점이 얼마나 분산되어 있는지를 설명하는 가변성에 대한 측정값입니다. 평균에 대한 표준 편차의 ±1 분산 범위에는 사례 중 약 68%가 포함되어 있으며 표준 편차의 ±1.96 범위에는 사례 중 약 95%가 포함되어 있습니다. 즉 변수가 정규적으로 분포되면 사례의 95%가 평균에서 표준 편차가 2인 범위 내에 있게 됩니다.
개별값이 평균과 얼마나 먼가, 혹은 자신이 속산 샘플집단을 얼마나 잘 대변해주는가
표준 오차
표준 오차는 샘플 통계에 대해 예상된 표준 편차입니다. 예를 들어 샘플 평균에 대한 표준 오차는 샘플 수를 무한하게 늘렸을 때 도출된 평균에 대해 가능한 표준 편차의 예상치입니다.
표준 오차는 모집단 평균의 예상치와 비교했을 때 샘플 평균이 정확할 가능성을 나타냅니다. 표준 오차가 작을수록 덜 분산되어 있고 샘플 평균이 모집단 평균에 근접할 가능성이 큽니다. 다시 말해 실제 모집단 평균이 샘플 평균의 ±1 표준 오차 내에 있을 확률이 68%입니다.
개별 샘플집단이 모집단을 얼마나 잘 대변하는가
모집단에서 100개 샘플을 뽑아서 평균을 내고 M1, 또 다시 100개 뽑아서 평균을 내고 M2...
이렇게 추출된 n개 집단의 샘플군들의 분포가 얼마나 모집단 평균과 떨어져있는지
이것이 표준 오차. 그 값은, 전체 집단의 표준편차에서 / sqrt(100)
혹은 sd(M)
여기부턴 순서통계량 (order statistics)에 해당하는 내용
한 번도 써본적이 없음
3) 중위수 (median)
자료를 순서대로 나열했을 때 50%의 위치에 해당하는 값.
자료의 분포가 좌우 대칭이 아닌 경우 (특히 outlier 가 절묘한 위치에 있는 경우)
4) 사분위수 (quartiles)
median이 50% 의 위치라면, 75%의 위치 (Q3) 와 25%의 위치 (Q1)의 차이
즉 Q3-Q1으로 값이 퍼진 정도를 측정하는 척도이며
분산이나 표준편차에 해당
R에서 IQR()로 계산
아웃라이어 결정 (일반적인 경우)
Q1 - 1.5 * IQR 보다 작거나
Q3 + 1.5 * IQR 보다 큰 경우
2.4 그래프
1)히스토그램 - 도수분포표를 그래프로 그린것
hist(Volume, probability=TRUE)
세로축이 확률로 되어서 나옴 ㅎㅎ
2) stem은 stem-and-leaf plot 이라는데
이거 본적이 없다..
stem(Volume)
3) q-q plot
theoretical quantity - sample quantity 의 관계를 플로팅 한것
선형에 가까울수록 정규분포에 가까운 것으 의미
qqnorm(Volume)
qqline(Volume) 이걸로 선 그을 수 있음
rnorm(31) 이건 평균0 표준편차1인 정규분포에서 31개의 난수를 발생시킴
저거 이용해서
x=rnorm(31)
qqnorm(x)
qqline(x)
하면 거의 정규분포에 해당하는 라인을 그려볼 수 있음
2.5 함수만들기
se = function(x) sd(x)/sqrt(length(x))
se() 하면 함수 실행
2.6 시뮬레이션
3) 번에서 배운 정규분포 난수 발생
rnorm 을 이용해서 평균, 표준편차 범위 안의 정규분포 샘플들에서 표본을 추출할 수 있겠음
height = rnorm(100000,175,5)
100000 만개의 샘플을 발생시키는데, 평균은 175고 표준편차는 5로 해달라는뜻
자 이제 저걸 모집단이라고 하고, 저기서 표본을 추출해볼까
sample(height, size=10)
이제 10개짜리 표본을 10000개 발생시켜서 그 평균과 분산을 각각 벡터에 저장할것임.
M = NULL // 평균을 저장할 벡터
V = NULL // 분산을 저장할 벡터
for(i in 1:10000) {
x = sample(height, 10)
M[i] = mean(x)
V[i] = var(x)
}
x 라는 벡터에 height에서 샘플 10개씩 가져와서 저장한 담에
그 평균과 분산을 M과 V에 순서대로 저장
(1) mean(M) 은 모집단과 비슷하게 나옴
(2) sd(M) 은 표본집단의 표준편차로, 표준오차가 됨.
따라서 sd(height)/sqrt(10)
을 하면 sd(M)의 값과 거의 동일하게 나오는 것을 확인
참고블로그
http://blog.naver.com/leerider/100207807760