Intro.
[기초통계학]은 “내가 만약 ‘통계학입문’, ‘통계방법론’ 수업 조교가 된다면 어떡할래?”
라는 위기 상황를 가정하고 대비하는 차원에서 두서없이,
그러나 최대한 쉬운 말로 적어본 「파편의 조각들」이다.


1. 통계적 추론 Statistical Inference

sampling

prelude

통계학의 main process‘통계적 추론’은 위와 같이
표본 sample’을 통해 ‘모집단 population’추론하되,
표본값들의 함수인 ‘통계량 statistic’ 을 통해
모집단의 성격을 보여주는 ‘모수 parameter’ 를 추론하는 것이다.

통계적 추론는 크게 추정과 검정으로 나뉜다.

1) 추정:

추정 estimation은 다시 ‘점 추정 point estimation’과 ‘구간 추정 interval estimation’으로 나뉜다.

  • 점 추정이란 모수의 값 자체를 통계량으로 추론하는 것이다.

    ex) 우리가 알지 못하는 3학년 전체 남학생 $300$명의 평균 키는
    실제로 측정해서 얻은 3학년 7반 남학생 $24$명의 평균 키인 $174.34cm$와 비슷할 거야!
    라고 추론하는 것이 점 추정이다.

  • 구간 추정이란 모수의 값이 우리가 찾아낸 어떤 구간 $(l,u)$ 사이에 있지 않을까 추론하는 것이다.

    ex) 우리가 알지 못하는 3학년 전체 남학생 $300$명의 평균 키는
    3학년 7반 남학생 평균 키를 기준으로 $\pm 5cm$, 즉 $(169.34,179.34)$ 안에 포함될거야 !
    라고 추론하는 것이 구간 추정이다.

    • 엄밀히는, (Frequentist 관점에서) 모수의 값은 우리가 알지는 못하지만
      어떤 고정되어있는 단일한 값이며, 구간 $(l,u)$가 random한 대상이므로
      모수구간포함될거야 !”보다는 “구간모수포함할거야 !”가 올바른 표현이다.

    • 마치 캐치볼을 하는 사람들에 대해 ‘야구공이 글러브 속에 골인(?)함’으로 보는 것과
      ‘글러브로 야구공을 캐치함’으로 보는 것은 사실은 그게 그거이지만,
      우리가 후자의 표현만을 사용하는 것처럼… 표현의 문제로 보면 될 듯하다.

cf) 추정에 사용되는 통계량을 ‘추정량 estimator’이라 칭한다.
또 실제로 값을 얻었다면 이를 ‘추정치 estimate’라 칭한다.
ex) 3학년 7반의 평균 키가 추정량, 실제로 측정해서 구한 174.34cm추정치.


구간추정

cf) 또 구간 추정에 사용되는 구간 $(l,u)$를 ‘신뢰구간 confidence interval’이라 부르며,
보통 위의 ‘$95\%$ 신뢰구간’처럼 신뢰수준 confidence level을 함께 붙여서 이야기한다.
이는 우리가 random하게 뽑아낸 표본들을 가지고 $100$개의 신뢰구간을 만들어낸다면,
그 중 $95$개는 모수의 참 값을 실제로 포함할 것이란 뜻이다.


2) 검정:

검정(가설검정) hypothesis testing은 모수의 값에 대한 기존의 가설이 맞는지,
혹은 내가 주장하고픈 새로운 가설이 맞는지를 통계량을 근거로 추론하는 것이다.
여기서 기존의 가설이란 이미 세상에서 사실이라고 많이들 믿고 있는 든든~한 가설이다.

ex) 3학년 전체 남학생 $300$명의 평균 키가 딱 $180cm$ 일거야!
혹은 $180cm$보다는 클거야! 라는 기존의 가설에 대해
우리가 실제로 구한 3학년 7반 남학생 $24$명의 평균 키가 $174.34cm$이고,
분산이 $25$인걸로 봐서 기존의 가설은 신뢰할 수 없어 !
라고 추론하는 것이 검정이다.

cf) 가설검정에 사용되는 통계량을 ‘검정통계량 test statistic’이라 칭한다.
또 가설검정에서 비교하는 두 가설은 서로 disjoint하며,
기존의 가설을 ‘귀무가설 null hypothesis ($H_0$)’,
새로운 가설을 ‘대립가설 alternative hypothesis ($H_1$ or $H_a$)’이라 칭한다.


통계학은 오차의 학문

그런데 이처럼 통계적 추론은 문자 그대로 추론이므로
나의 추론이 얼마나 믿을만한 것인지를 수치적으로 제시해야할 필요가 있다.
이러한 요소를 ‘오차 error’라고 하며, 오차가 어느 정도인지 아무런 정보가 없다면
나의 추론이 그냥 근거 없이 찍은(guess) 것인지 알 길이 없으므로
어떤 주장이나 분석을 했다 한들 그 설득력을 잃게 된다.

우리는 ‘분산 variance’을 통해 이러한 오차를 측정할 수 있다.