Intro.
[기초통계학]은 “내가 만약 ‘통계학입문’, ‘통계방법론’ 수업 조교가 된다면 어떡할래?”
라는 위기 상황를 가정하고 대비하는 차원에서 두서없이,
그러나 최대한 쉬운 말로 적어본 「파편의 조각들」이다.
0. …그래서 통계학이 뭐하는 학문이에요?
prelude
“…그래서 통계학이 뭐하는 학문이에요?” 라는 질문에 대해
오직 한 단어로만 대답을 해야 한다면…
교수님께서 열여덟명 남짓이었던 응통과 고학년들에게 이 질문을 하셨을 때,
원하신 대답이었던 ‘모집단’은 한참 뒤에 나왔던 걸로 기억한다.
통계학의 쓰임새를 설명할 때 즐겨 이야기하는 사례로는 ‘선거 출구조사’가 있다.
기껏해야 1,500명~2,000명 정도의 투표자들을 조사하는 것만으로
실제로 우리는 신뢰할만한 전체 투표 결과를 예측할 수 있다.
물론 그러기 위해서는 조사할 투표자들을 뽑되, 그들의 다양한 조건들을 고려해서
전국민을 골고루 잘 아우르는 ‘표본’을 뽑아야 할 것이다.
만일 표본을 뽑을 때 한 성별만 뽑거나, 한 지역만을 뽑는다면 올바른 예측이 되겠는가?
이렇듯 모집단을 진실로 잘 대표하는 표본을 뽑는 것은 통계학의 중요한 한 축이며,
이를 깊이 파고드는 분야가 ‘Sampling Theory’이며, 학부 수업 ‘표본조사론’에서 이를 다룬다.
목표와 용어
다시 돌아와서, 그러므로 통계학의 가장 큰 관심 대상은 ‘모집단’이며,
대충 말하자면 통계학은 우리가 가지고 있는 ‘표본(=데이터)’를 가지고
모집단이 어떤 특성을 가졌는지 알아내기 위해 개발된 도구이다.
그리고 그 특성을 가장 잘 요약해서 나타내는 어떤 수치적 값을, ‘모수’라고 칭한다.
‘세 줄 요약좀’ 이라는 말이 있듯이 사람들은 정보에 대한 ‘요약’을 원하므로,
모집단을 설명하는데 있어 ‘모수’는 사람들의 니즈를 충족하는 값인 셈이다.
그리고 ‘표본’이 바로 사람들이 말하는 ‘데이터’, ‘데이터 분석’의 그 ‘데이터’이다.
우리가 실제로 얻을 수 있고, 그 값을 확인할 수 있는 것이니까…
cf) 그럼 빅데이터는 무엇?
시대에 따라 플로피 디스크가 USB가 되고, 1TB 하드드라이브가 되며
우리가 다룰 수 있는 데이터의 크기가 크게 늘면서 생겨난 개념인 것이다.
그렇다면 빅데이터는 무조건 모집단에 대해 더 진실된 정보를 제공하는가?
이는 데이터의 크기와는 별개인 문제이다.
쉬운 예시
이해를 돕기 위해 보다 구체적인 사례를 들면 다음과 같다.
통마늘고등학교 3학년 남학생들 전체 300명의 키에 대해 설명할 때
우리는 일반적으로 그 ‘평균’이 얼마인지를 말할 것이다.
그런데 우리는 그 평균을 구하기 위해 300명의 키를 다 재고 앉아있을 시간이 없고,
혹은 시간은 있는데 50명이 자가격리 중이라면 참으로 난감할 것이다.
그러므로 우리는 3학년 1반부터 12반까지 남학생 5명씩, 총 60명의 표본을
무작위로(=random하게), 혹은 더 그럴싸한(by sampling theory) 방법으로 뽑아
그들의 키 평균만을 구함으로 “대강 300명의 키 평균은 60명의 키 평균과 비스무리할거야~”
라고 추론할 수 있는 것이다.