Intro.
[기초통계학]은 “내가 만약 ‘통계학입문’, ‘통계방법론’ 수업 조교가 된다면 어떡할래?”
라는 위기 상황를 가정하고 대비하는 차원에서 두서없이,
그러나 최대한 쉬운 말로 적어본 「파편의 조각들」이다.


0. …그래서 통계학이 뭐하는 학문이에요?

data-sampling

prelude

“…그래서 통계학이 뭐하는 학문이에요?” 라는 질문에 대해
오직 한 단어로만 대답을 해야 한다면…

교수님께서 열여덟명 남짓이었던 응통과 고학년들에게 이 질문을 하셨을 때,
원하신 대답이었던 ‘모집단’은 한참 뒤에 나왔던 걸로 기억한다.

통계학의 쓰임새를 설명할 때 즐겨 이야기하는 사례로는 ‘선거 출구조사’가 있다.
기껏해야 1,500명~2,000명 정도의 투표자들을 조사하는 것만으로
실제로 우리는 신뢰할만한 전체 투표 결과를 예측할 수 있다.

물론 그러기 위해서는 조사할 투표자들을 뽑되, 그들의 다양한 조건들을 고려해서
전국민을 골고루 잘 아우르는 ‘표본’을 뽑아야 할 것이다.
만일 표본을 뽑을 때 한 성별만 뽑거나, 한 지역만을 뽑는다면 올바른 예측이 되겠는가?
이렇듯 모집단을 진실로 잘 대표하는 표본을 뽑는 것은 통계학의 중요한 한 축이며,
이를 깊이 파고드는 분야가 ‘Sampling Theory’이며, 학부 수업 ‘표본조사론’에서 이를 다룬다.

목표와 용어

다시 돌아와서, 그러므로 통계학의 가장 큰 관심 대상은 ‘모집단’이며,
대충 말하자면 통계학은 우리가 가지고 있는 ‘표본(=데이터)’를 가지고
모집단이 어떤 특성을 가졌는지 알아내기 위해 개발된 도구이다.
그리고 그 특성을 가장 잘 요약해서 나타내는 어떤 수치적 값을, ‘모수’라고 칭한다.

‘세 줄 요약좀’ 이라는 말이 있듯이 사람들은 정보에 대한 ‘요약’을 원하므로,
모집단을 설명하는데 있어 ‘모수’는 사람들의 니즈를 충족하는 값인 셈이다.


그리고 ‘표본’이 바로 사람들이 말하는 ‘데이터’, ‘데이터 분석’의 그 ‘데이터’이다.
우리가 실제로 얻을 수 있고, 그 값을 확인할 수 있는 것이니까…

cf) 그럼 빅데이터는 무엇?
시대에 따라 플로피 디스크가 USB가 되고, 1TB 하드드라이브가 되며
우리가 다룰 수 있는 데이터의 크기가 크게 늘면서 생겨난 개념인 것이다.
그렇다면 빅데이터는 무조건 모집단에 대해 더 진실된 정보를 제공하는가?
이는 데이터의 크기와는 별개인 문제이다.


쉬운 예시

height

이해를 돕기 위해 보다 구체적인 사례를 들면 다음과 같다.
통마늘고등학교 3학년 남학생들 전체 300명의 키에 대해 설명할 때
우리는 일반적으로 그 ‘평균’이 얼마인지를 말할 것이다.
그런데 우리는 그 평균을 구하기 위해 300명의 키를 다 재고 앉아있을 시간이 없고,
혹은 시간은 있는데 50명이 자가격리 중이라면 참으로 난감할 것이다.

그러므로 우리는 3학년 1반부터 12반까지 남학생 5명씩, 총 60명의 표본
무작위로(=random하게), 혹은 더 그럴싸한(by sampling theory) 방법으로 뽑아
그들의 키 평균만을 구함으로 “대강 300명의 키 평균60명의 키 평균과 비스무리할거야~”
라고 추론할 수 있는 것이다.