니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 통계학적 리터러시와 의미있는 오차범위 (1장, 2장 내용정리)

728x90

1장. 빅데이터, 통계학에서부터 시작하라.

1) 통계학적 리터러시

1903년 H. G. 웰스는 읽기, 쓰기 능력과 마찬가지로 통계학적 사고 역시 장차 사회인이 갖춰야 할 기본교양이 될 것이라고 예언했다.

즉, 통계학적 리터러시가 필요할 것이라는 이야기다.

(1) 답을 알려주는 실용적인 학문, 통계학 - 통계학은 어떤 분야에서든 데이터를 모아 분석해 가장 올바르고 빠른 답을 제시해주기 때문

(2) 통계학은 모든 과학적 분석방법의 기본

그럼 그렇게 최강의 학문이면서 더 오래 전부터 사회 곳곳에서 활용되지 못했지만 최근에 각광을 받는 이유는 통계학을 둘러싼 환경 변화에서 찾을 수 있다. 데이터를 관리하고 집계하는 시스템이 열악했지만 IT 산업의 발달로 더 이상 데이터의 가짓수나 계산의 복잡함은 문제가 되지 않으므로 그런 연구는 자취를 감추게 되었다.

2) Microsoft JobsBlog (2010.08.23 기사) 는 앞으로 주목받게 될 전문성으로 다음 세 가지를 들었다.

(1) 데이터 마이닝, 기계학습, 인공지능, 자연언어처리

(2) 비즈니스 인텔리전스, 경쟁분석

(3) 분석, 통계 - 특히 웹 분석, A/B 테스트, 통계해석

- A/B 테스팅은 두 종류의 웹페이지를 놓고 어떤 버전의 웹페이지가 판매 연결률이 더 높은지를 실험해보는 것이다.

구글의 수석 경제학자 할 배리언 Hal Varian 박사는 2009년 1월 매킨지사가 발행한 논문집에서 이렇게 밝혔다.

I keep saying the sexy job in the next ten years will be statisticians.

* 역학의 아버지, 존 스노 John Snow 의 등장 (p.26)

2. 정보이용을 대폭 줄여주는 통계

* (도표) 빅데이터 관련 전문용어 (p.55)

1) 전수조사 Complete enumeration 와 표본조사 Sampling Survey (p.60)

2) 의미있는 오차범위와 비용

정확하게 알기 위해서 반드시 전수조사를 해야 한다는 생각을 가지고 있는 사람이 아직도 많다. 만약 무작위로 뽑힌 전 인구의 0.5%를 조사한 결과 그 100%가 실업자였다고 해도 나머지 99.5%가 실업자가 아니라면 전체 실업률은 0.5% 밖에 되지 않는다.그런데도 왜 표본조사 결과만 놓고 전체가 실업자라는 결론을 내려야 하는가, 하는 점이 '흔히 하는 반론'이다.

전체 실업률이 0.5%이고 전 인구 1억 2천만명의 0.5%인 60만명을 조사한 결과, 전체 인원이 우연히 실업자일 확률은 물론 0이 아니다.

그 확률은 1이라는 수를 64조(200×200×200×200×200×200=64,000,000,000,000) 라는 수로 10만번 이상 나눈 수로 이를 수학에서는 0 으로 수렴한다고 하지 0 이라고 말하지는 않기 때문이다.

그러므로 표본 조사에 관해 '조사가 올바르지 않을 확률'을 걱정할 필요는 지나친 기우이다.

3) 표본을 1만명으로 늘려도 표준오차는 0.1% 밖에 변하지 않는다.

(1) 여기서 말하는 표준오차란 표본에서 얻어진 비율(예를 들어 실업률)에 대해 표준오차의 두 배를 뺀 값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 약 95%라는 값을 말한다.즉 표본조사의 실업률이 25%라는 조사 결과가 얻어지고 표준오차가 0.5%라면 전수조사를 통해 얻어지는 참 실업률도 24~26% 사이에 있다고 생각하면 거의 틀림없다는 것이다.

(2) 예시

아래의 수식을 참고하여 엑셀을 통해 시뮬레이션 해봤습니다.

참고로 엑셀에서 루트 함수는 SQRT 를 사용하면 됩니다.

전체인원수 = 10만명

표본인원수 = 여기서 변수 x

참비율 = 70%

표준오차 = 결과값 y

전체인원수	100,000
참비율	0.7

	표본인원	표준오차	범위	범위
	x	y	최소값	최대값
	100	0.0458031	60.84%	79.16%
	1,000	0.0144188	67.12%	72.88%
	2,000	0.010144	67.97%	72.03%
	3,000	0.0082402	68.35%	71.65%
	4,000	0.0070993	68.58%	71.42%
	5,000	0.0063167	68.74%	71.26%
	6,000	0.0057359	68.85%	71.15%
	7,000	0.0052821	68.94%	71.06%
	8,000	0.0049143	69.02%	70.98%
	9,000	0.004608	69.08%	70.92%
	10,000	0.0043474	69.13%	70.87%
	20,000	0.0028983	69.42%	70.58%
	30,000	0.0022136	69.56%	70.44%
	40,000	0.0017748	69.65%	70.35%
	50,000	0.0014491	69.71%	70.29%
	60,000	0.0011832	69.76%	70.24%
	70,000	0.0009487	69.81%	70.19%
	80,000	0.0007246	69.86%	70.14%
	90,000	0.000483	69.90%	70.10%

위 도표에서 보듯이 표본인원을 계속 늘려도 오차는 그다지 작아지지 않는다.

이 결과와 고가의 데이터 서버 처리에 투자하여 얻은 '여성비율은 정확히 70% 입니다'하는 결과와 비교할 때 과연 어디에 돈을 쓰는 것이 올바른 판단일까?

불과 1% 정도의 정확성을 위해 천문학적 비용을 투자할 필요가 있을까?

빅데이터가 무의미하다는 것은 아니다.

'우선은 올바른 판단에 필요한 최소한의 데이터를 다룰 것'을 추천하는 것이다.

빅데이터를 지배하는 통계의 힘: 국내도서; 저자 : 니시우치 히로무 / 신현호역; 출판 : 비전코리아 2013.07.30

상세보기

728x90

저작자표시 비영리 변경금지 (새창열림)

'Season 1 아카이브' 카테고리의 다른 글

마크 쉔, 크리스틴 로버그, 「편안함의 배신」- 실현될 때까지 연기하기 (0)	2014.04.24
마크 쉔, 크리스틴 로버그, 「편안함의 배신」- 이중성(duality)의 달성 (0)	2014.04.24
니시우치 히로무, 「확률을 높이는 확률」- 지극히 정확한 '대략적 추측' (페르미 추정) (1)	2014.04.20
니시우치 히로무, 「확률을 높이는 확률」- 확률적 사고는 불안과 후회를 줄인다 (0)	2014.04.20
최효찬, 「한국의 메모 달인들」- 감각을 되살리기 위해 쏟는 시간이나 노력은 즉시 기록하는 노력보다 몇 갑절 더 크다. (0)	2014.04.18

갈루아의 반서재

니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 통계학적 리터러시와 의미있는 오차범위 (1장, 2장 내용정리)

'Season 1 아카이브' 카테고리의 다른 글

티스토리툴바