3장. 오차와 인과관계가 통계학의 핵심이다.
1. 구체적인 행동으로 이끌어내려면 다음 '세가지 질문'에 답할 수 있어야 한다.
[질문1] 어떤 요인을 변화시켜야 이익이 향상될까?
[질문2] 그런 변화를 일으키는 행동이 실제로 가능한가?
[질문3] 그에 따르는 비용이 이익을 상회할까?
이 세가지 질문에 답할 수 있을 때 비로소 '실행해서 이익을 향상시키자'라는 계획을 할 수 있다.
2. 통계학을 더 정밀하게 만든 '카이제곱검정'과 'p-' 값의 등장
'실제는 아닌데도 오차나 우연에 의해 데이터와 같은 차이(정확히는 그 이상의 극단적인 차이를 포함)가 생길 확률'을 통계학 전문용어로
p- 값이라고 한다. p- 값이 작을 때(5% 이하) 과학자들은 '이 결과는 우연히 얻어졌다고 생각하기 어렵다' 또는 '유의하다'라고 판단한다. 마땅히 5% 이하여야 할 p- 값이 44.7% 라는 것은 이것이 실제로 수억 엔이나 되는 매출증가로 이어질지 알 수 없다는 의미이다.
이는 누군가 동전을 던져서 그냥 앞쪽이 한 번 나왔을 뿐인데도 '대단하군! 앞쪽이 계속 나오는 동전을 찾았다!'라며 기뻐하는 것과 전혀 다를 바 없다.
3. A/B 테스트
구글 출신으로 오바마 대통령의 선거참오이기도 했던 댄 시로키의 옵티마이즐리Optimizely 라는 회사가 두각을 나타내고 있다.
오바마 캠프에서도 A/B 테스트는 중요하게 쓰였는데, 버락오바마 닷컴을 방문한 유권자를 대상으로 어떤 그림이나 메시지를 노출하느냐에 따라 선호도가 어떻게 달라지는지 측정해 유권자를 타겟팅 별로 나눠 새로운 선거 전략을 짰고 이는 결과적으로 오마바를 당선시켰다.
대부분의 경우 사용자가 접속했을 때 임의로 A패턴과 B패턴의 사이트가 열리고 일정 기간 수집된 접속 기록을 바탕으로 둘을 비교하게 된다. 비교대상은 대체로 배너 클릭률이나 매출, 그리고 유료회원 가입률처럼 이익과 직결되는 수치들이며 이를 통해 A패턴과 B패턴 중 어느 쪽이 나은지 판단하고 채택된 것을 사이트에 정식으로 띄운다. 통계학에서는 이런 실험을 임의화 비교실험이라고 부른다(A패턴과 B패턴의 조건을 바꿀 때 임의의 방식이 아닌 실험은 준실험이라고 부른다).
|
'반서재 Antilibrary' 카테고리의 다른 글
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 제5장. 통계학은 계속 발달하고 있다. (0) | 2014.04.29 |
---|---|
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 제4장. '임의화'라는 최강의 무기 활용하기 (0) | 2014.04.29 |
야노 쇼,「꿈이 있는 공부는 배신하지 않는다」- 내가 누군인지 공부하는 이유 (0) | 2014.04.29 |
가스가 마사히토, 「100년의 난제, 푸앵카레의 추측은 어떻게 풀렸을까」- 형태의 수수께끼에 다가선 푸앵카레 추측 (0) | 2014.04.26 |
마크 쉔, 크리스틴 로버그, 「편안함의 배신」- 불편에 대한 내성은 생각보다 크다 (에필로그) (0) | 2014.04.24 |