갈루아의 반서재

3장. 오차와 인과관계가 통계학의 핵심이다.

 

1. 구체적인 행동으로 이끌어내려면 다음 '세가지 질문'에 답할 수 있어야 한다.

 

[질문1] 어떤 요인을 변화시켜야 이익이 향상될까?

[질문2] 그런 변화를 일으키는 행동이 실제로 가능한가?

[질문3] 그에 따르는 비용이 이익을 상회할까?

 

이 세가지 질문에 답할 수 있을 때 비로소 '실행해서 이익을 향상시키자'라는 계획을 할 수 있다.

 

 

2. 통계학을 더 정밀하게 만든 '카이제곱검정'과 'p-' 값의 등장

 

'실제는 아닌데도 오차나 우연에 의해 데이터와 같은 차이(정확히는 그 이상의 극단적인 차이를 포함)가 생길 확률'을 통계학 전문용어로

p- 값이라고 한다. p- 값이 작을 때(5% 이하) 과학자들은 '이 결과는 우연히 얻어졌다고 생각하기 어렵다' 또는 '유의하다'라고 판단한다. 마땅히 5% 이하여야 할 p- 값이 44.7% 라는 것은 이것이 실제로 수억 엔이나 되는 매출증가로 이어질지 알 수 없다는 의미이다.

이는 누군가 동전을 던져서 그냥 앞쪽이 한 번 나왔을 뿐인데도 '대단하군! 앞쪽이 계속 나오는 동전을 찾았다!'라며 기뻐하는 것과 전혀 다를 바 없다.

 

 

3. A/B 테스트

 

구글 출신으로 오바마 대통령의 선거참오이기도 했던 댄 시로키의 옵티마이즐리Optimizely 라는 회사가 두각을 나타내고 있다.

오바마 캠프에서도 A/B 테스트는 중요하게 쓰였는데, 버락오바마 닷컴을 방문한 유권자를 대상으로 어떤 그림이나 메시지를 노출하느냐에 따라 선호도가 어떻게 달라지는지 측정해 유권자를 타겟팅 별로 나눠 새로운 선거 전략을 짰고 이는 결과적으로 오마바를 당선시켰다.

대부분의 경우 사용자가 접속했을 때 임의로 A패턴과 B패턴의 사이트가 열리고 일정 기간 수집된 접속 기록을 바탕으로 둘을 비교하게 된다. 비교대상은 대체로 배너 클릭률이나 매출, 그리고 유료회원 가입률처럼 이익과 직결되는 수치들이며 이를 통해 A패턴과 B패턴 중 어느 쪽이 나은지 판단하고 채택된 것을 사이트에 정식으로 띄운다. 통계학에서는 이런 실험을 임의화 비교실험이라고 부른다(A패턴과 B패턴의 조건을 바꿀 때 임의의 방식이 아닌 실험은 준실험이라고 부른다).




빅데이터를 지배하는 통계의 힘
국내도서
저자 : 니시우치 히로무 / 신현호역
출판 : 비전코리아 2013.07.30
상세보기