[통계101x데이터 분석] 4장 "추론통계~신뢰구간"

목차
1. 된장국 맛보기로 알아보는 추론통계의 모습
2. 표본오차
3. 큰 수의 법칙
4. 신뢰구간

1. 된장국 맛보기로 알아보는 추론통계의 모습

된장국을 끓이는 과정에서 맛을 보는 모습을 상상해 보자.

1. 우리가 알고자 하는 것은 국자로 뜬 된장국이 아니라 냄비 안에 든 된장국이다.
- 정말로 알고자 하는 것은 표본 데이터가 아니라 모집단이다.

2. 냄비 안의 된장국을 다 먹고 맛을 조사하기는 어렵다.
- 모집단의 모든 요소를 다 조사하는 전수조사는 어렵다.

3. 국자로 뜬 약간의 된장국으로 냄비 안의 된장국 맛을 '거의' 확인할 수 있다.
- 작은 크기의 표본으로도 모집단을 추론할 수 있다.

4. 국자로 된장국을 뜰 때는 먼저 잘 섞어야 한다.
- 표본을 추출할 때는 무작위로 추출해야 한다.

결국, 된장국 냄비(모집단)에서 국자로 뜬 된장국(표본)을 맛보고(추정)하는 과정이 직감적인 추론통계의 모습이다.

2. 표본오차

표본오차란 '정말로 알고 싶은 것'과 '실제 손 안에 있는 데이터'의 어긋남을 의미한다.

* 정말로 알고 싶은 것은 '모집단' / 실제 손 안에 있는 데이터는 '표본'

표본오차는 표본을 추출 할 때의 인위적인 실수나 잘못으로 생기는 오차가 아니라, 데이터 퍼짐이 있는 모집단에서 확률적으로 무작위 표본을 고르는 데서 발생하는 피할 수 없는 오차이다.

3. 큰 수의 법칙

표본평균과 모집단평균의 관계에는 큰 수의 법칙이 성립한다. 이는 표본크기가 커질수록 표본평균이 모집단평균에 한없이 가까워지는 걸 의미한다.

4. 신뢰구간

정규분포에서 하나의 값을 무작위로 꺼내면 약 95%의 확률로 그 범위에 포함된다는 뜻을 가지고 있다. 이걸 그대로 해석해 보자면, "95%의 확률로 이 구간에 모집단 평균이 있다."가 된다.

단, 확률변수는 모집단평균이 아니라 표본평균(또는 신뢰구간)이다. 즉, 모집단평균이 확률적으로 변화하여 그 구간에 포함되는 것이 아니라, 모집단에서 표본을 추출하여 oo% 신뢰구간을 구하는 작업을 100번 반복했을 때 평균적으로 그 구간에 모집단평균이 포함되는 것이 oo번이란 뜻이다.

쉽게 정리해서 말하자면 아래와 같다.
- 모집단 평균(전체 평균)은 변하지 않는다.
- 대신, 우리가 뽑는 표본이 달라지기 때문에, 그때마다 신뢰구간도 조금씩 달라질 수 있다.
- 그래서 95% 신뢰구간이란 말은, "우리가 이렇게 신뢰구간을 만들었을 때, 그 중 95% 정도는 진짜 평균을 포함한다"는 의미이다.

저작자표시 (새창열림)

티스토리툴바