갈루아의 반서재

제4장. '임의화'라는 최강의 무기 활용하기

 

 

 

 '관찰'이란 대상을 자세히 보고 측정해 그로부터 어떤 진실을 밝히는 행위이다.

 '실험'은 다양하게 조건을 바꾼 상태에서 대상을 보고 측정해 그로부터 진실을 밝히는 행위이다.

- 앙리 푸엥카레

 

1. '오차'에 접근하는 세가지 방식

 

100번 할 때 100번 다 꼭 그렇지만은 않은 현상을 과학적으로 다루고자 할 때 가능한 방법이 세 가지가 있다.

 

1) 실제 데이터를 전혀 취급하지 않고 단지 가설이나 이런 사례가 있었다는 말만으로 이론모델을 세우는 방식

2) '100번 해서 100번 그렇게 된다'는 상황을 설명하기 위해 결과 그렇게 나타난 사례만 보고하는 방식

3) 임의화를 활용해 인과관계를 확률적으로 표현하는 방식

임의화하면 비교하려는 두 그룹의 모든 조건이 거의 평균화된다. 그리고 마지막 조건인 실험을 통해 조절하려고 한 비료만 다르다. 그 상태에서 두 그룹의 수확량에 '오차라 보기 힘든 차이'가 생겼다면, 그것은 '비료로 인해 수확량에 차이가 났다'라고 판단해 인과관계를 거의 실증했다고 볼 수 있다.

일조량과 배수시설 등 '모든 조건을 임의화하면 평균적으로 비교하려는 두 그룹이 동일한 조건에 놓이게 된다'는 성질을 비지니스에 대입시켜보라. 그러면 고객과 직원의 연령, 성별, 심리특성 같은 것이 설령 결과를 왜곡할 수 있을지라도, '어느 정도의 숫자로 임의화하면 더 이상 문제가 되지 않는다'.

 

 

 

2. 사내에 수없이 산적해 있는 많은 문제에 대해, 정답이 없으면 우선 임의로 정해놓고 실험해보는 것의 가치는 생각 이상으로 크다. 다만 지속적으로 데이터를 수집하는 일은 절대로 소홀히 해서는 안된다. 그래야만 나중에 정확히 '그 방법이 좋았는지', '어느 정도 이익으로 이어졌는지' 등의 부분을 평가할 수 있기 때문이다.

 

 

 

3. 임의란 의외로 어렵다.

임의를 '적당히', '대충'의 의미로 받아들이는 사람이 있는데 그보다는 '무작위'로 풀이하는 것이 타당하다. 무작위란 인간의 의지가 포함되지 않도록 한다는 의미로, 달리 말하면 '확률적'이라 할 수 있다. 주의해야 할 것은 우리가 '무작위로' 혹은 '대충' 끄집어낸 숫자는 종종 '임의'가 되지 않을 수 있다는 것이다.

 

 

 

4. 임의화를 가로막는 3가지 벽

1) 현실의 벽 - '절대적인 표본 수의 제한(예, 우주왕복선을 달에 보낼 때 승무원의 수)'과 '조건 제어 불가능성(예, 지진을 경험한 직원들은 정신적으로 강해진다라는 가설의 검증)'

2) 윤리의 벽

3) 감정의 벽 - '임의화에 의해 운명이 좌우되는 것은 왠지 꺼림칙하다'며 실험에 참가하기를 주저하는 경우도 있는데 이것이 바로 '감정'의 벽이다(아마존닷컴이 가격 산정을 위해 임의화 비교실험을 한 사례).

 



빅데이터를 지배하는 통계의 힘
국내도서
저자 : 니시우치 히로무 / 신현호역
출판 : 비전코리아 2013.07.30
상세보기