갈루아의 반서재

1장. 빅데이터, 통계학에서부터 시작하라.

 

1) 통계학적 리터러시

1903년 H. G. 웰스는 읽기, 쓰기 능력과 마찬가지로 통계학적 사고 역시 장차 사회인이 갖춰야 할 기본교양이 될 것이라고 예언했다.

즉, 통계학적 리터러시가 필요할 것이라는 이야기다.

 

(1) 답을 알려주는 실용적인 학문, 통계학 - 통계학은 어떤 분야에서든 데이터를 모아 분석해 가장 올바르고 빠른 답을 제시해주기 때문

(2) 통계학은 모든 과학적 분석방법의 기본

 

그럼 그렇게 최강의 학문이면서 더 오래 전부터 사회 곳곳에서 활용되지 못했지만 최근에 각광을 받는 이유는 통계학을 둘러싼 환경 변화에서 찾을 수 있다. 데이터를 관리하고 집계하는 시스템이 열악했지만 IT 산업의 발달로 더 이상 데이터의 가짓수나 계산의 복잡함은 문제가 되지 않으므로 그런 연구는 자취를 감추게 되었다.

 

 

2) Microsoft JobsBlog (2010.08.23 기사) 는 앞으로 주목받게 될 전문성으로 다음 세 가지를 들었다.

(1) 데이터 마이닝, 기계학습, 인공지능, 자연언어처리

(2) 비즈니스 인텔리전스, 경쟁분석

(3) 분석, 통계 - 특히 웹 분석, A/B 테스트, 통계해석

 

- A/B 테스팅은 두 종류의 웹페이지를 놓고 어떤 버전의 웹페이지가 판매 연결률이 더 높은지를 실험해보는 것이다.

 

구글의 수석 경제학자 할 배리언 Hal Varian 박사는 2009년 1월 매킨지사가 발행한 논문집에서 이렇게 밝혔다.

I keep saying the sexy job in the next ten years will be statisticians.

 

* 역학의 아버지, 존 스노 John Snow 의 등장 (p.26)

 

 

2. 정보이용을 대폭 줄여주는 통계

 

* (도표) 빅데이터 관련 전문용어 (p.55)

 

1) 전수조사 Complete enumeration 와 표본조사 Sampling Survey (p.60)

 

2) 의미있는 오차범위와 비용

 

정확하게 알기 위해서 반드시 전수조사를 해야 한다는 생각을 가지고 있는 사람이 아직도 많다. 만약 무작위로 뽑힌 전 인구의 0.5%를 조사한 결과 그 100%가 실업자였다고 해도 나머지 99.5%가 실업자가 아니라면 전체 실업률은 0.5% 밖에 되지 않는다.그런데도 왜 표본조사 결과만 놓고 전체가 실업자라는 결론을 내려야 하는가, 하는 점이 '흔히 하는 반론'이다.

 

전체 실업률이 0.5%이고 전 인구 1억 2천만명의 0.5%인 60만명을 조사한 결과, 전체 인원이 우연히 실업자일 확률은 물론 0이 아니다.

그 확률은 1이라는 수를 64조(200×200×200×200×200×200=64,000,000,000,000) 라는 수로 10만번 이상 나눈 수로 이를 수학에서는 0 으로 수렴한다고 하지 0 이라고 말하지는 않기 때문이다.

 

그러므로 표본 조사에 관해 '조사가 올바르지 않을 확률'을 걱정할 필요는 지나친 기우이다.

 

3) 표본을 1만명으로 늘려도 표준오차는 0.1% 밖에 변하지 않는다.

(1) 여기서 말하는 표준오차란 표본에서 얻어진 비율(예를 들어 실업률)에 대해 표준오차의 두 배를 뺀 값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 약 95%라는 값을 말한다.즉 표본조사의 실업률이 25%라는 조사 결과가 얻어지고 표준오차가 0.5%라면 전수조사를 통해 얻어지는 참 실업률도 24~26% 사이에 있다고 생각하면 거의 틀림없다는 것이다.

 

(2) 예시

 

아래의 수식을 참고하여 엑셀을 통해 시뮬레이션 해봤습니다.

참고로 엑셀에서 루트 함수는 SQRT 를 사용하면 됩니다.

 

  

 

 

 

전체인원수 = 10만명

표본인원수 = 여기서 변수 x

참비율 = 70%

표준오차 =  결과값 y

 

 

전체인원수 100,000
참비율 0.7
표본인원 표준오차 범위 범위
x y 최소값 최대값
        100 0.0458031 60.84% 79.16%
      1,000 0.0144188 67.12% 72.88%
      2,000 0.010144 67.97% 72.03%
      3,000 0.0082402 68.35% 71.65%
      4,000 0.0070993 68.58% 71.42%
      5,000 0.0063167 68.74% 71.26%
      6,000 0.0057359 68.85% 71.15%
      7,000 0.0052821 68.94% 71.06%
      8,000 0.0049143 69.02% 70.98%
      9,000 0.004608 69.08% 70.92%
    10,000 0.0043474 69.13% 70.87%
    20,000 0.0028983 69.42% 70.58%
    30,000 0.0022136 69.56% 70.44%
    40,000 0.0017748 69.65% 70.35%
    50,000 0.0014491 69.71% 70.29%
    60,000 0.0011832 69.76% 70.24%
    70,000 0.0009487 69.81% 70.19%
    80,000 0.0007246 69.86% 70.14%
    90,000 0.000483 69.90% 70.10%

 

 

위 도표에서 보듯이 표본인원을 계속 늘려도 오차는 그다지 작아지지 않는다.

이 결과와 고가의 데이터 서버 처리에 투자하여 얻은 '여성비율은 정확히 70% 입니다'하는 결과와 비교할 때 과연 어디에 돈을 쓰는 것이 올바른 판단일까?

불과 1% 정도의 정확성을 위해 천문학적 비용을 투자할 필요가 있을까?

 

 

빅데이터가 무의미하다는 것은 아니다.

'우선은 올바른 판단에 필요한 최소한의 데이터를 다룰 것'을 추천하는 것이다.

 

 

 

빅데이터를 지배하는 통계의 힘
국내도서
저자 : 니시우치 히로무 / 신현호역
출판 : 비전코리아 2013.07.30
상세보기