갈루아의 반서재

1. 빈도론파는 단순하게 생각한다.

 

빈도론, 즉 피셔와 같은 사고방식에 근거하는 통계학자가 10번 던진 중 10번 모두 앞면이 나왔다는 데이터를 얻었다고 하자. 이 동전이 진짜 동전이라고 할 수 있을까?

 

누군가 이 동전을 진짜라 했다고 가정하자. 그리고 그 가정하에서 10번 전부 앞면이 되는 확률을 계산할 것이다. 즉 '2분의 1' 확률로 앞면이 나오는 동전이 연속해서 10번 모두 앞면이 나오는 확률은 2의 10제곱분의 1 , 즉 0.10%이다. 이 0.10% 라는 확률이 이른바 p- 값이다. 다시 말해 이런 기적 같은 확률이 일어났다고 생각하기 보다는, 본래의 '이 동전은 진짜 동전이다.'라는 가정을 '생각하기 어렵다'라며 버리는 편이 이치에 합당하다고 판단하는 것이다.

 

다음에 '이 동전은 가짜 동전'이라고 가정하면 어떻게 될까? 방금 전처럼 똑같이 계산하면 80%의 확률로 앞이 우연히 10번 전부 나올 확률은 10.74% 정도이다. p- 값이 10.74% 정도라면 그다지 기적이라 말할 수준은 아니다. 그러니깐 이 가정은 완전히 버릴 수 없다.

 

한쪽의 '진짜 동전'이라는 가설이 버려지고 다른 한쪽의 '가짜 동전'이라는 가설을 버리지 못한다면, 이것은 가짜 동전이라고 생각하는 편이 타당성을 갖게 된다. 좀 더 쉽게 생각하고 싶으면 우선 1만번 정도 동전을 던져보고 그 중 앞면이 몇 번 나올지 세어보면 된다. 아마 진짜 동전이라면 5,000번 전후로 앞면이 나올 것이고, 가짜 동전이라면 8,000번 전후로 앞면이 나온다.

 

빈도론은 이렇게 확률을 '몇 번 중 몇 번'처럼 '빈도'로 파악한다는 의미이다. 그리고 이 때 동전으로 앞면이 8,000번 전후 나오는 p- 값도, 가짜 동전으로 앞면이 5,000번 나오는 전후 나오지 않는 p- 값도 모두 현저하게 낮다.

 

 

2. 베이즈파는 '사전 확률'과 '사후 확률'을 생각한다.

 

한편 베이즈론자가 이 동전을 분별할 때는 우선 아무 정보도 없는 상태에서 어느 정도의 확률로 이 동전이 진짜인가, 가짜인가를 생각한다. 이 시점에서의 확률을 사전확률이라고 한다. 사전확률은 아무 값으로 선정해도 상관이 없다. 여기서는 일단 반반으로 생각해 '10번 던져서 10번 모두 앞면이 나왔다'라는 결과로부터 추측을 하자.

 

빈도론자의 계산방법과 마찬가지로 동전이 진짜일 경우 10번 모두 앞면이 나올 조건부확률이나 가짜 동전일 경우 변함없이 각각 0.1%, 10.74% 이지만, 베이즈론자의 계산방법은 그 다음부터가 조금 다르다.

 

베이즈론자는 진짜인 경우와 가짜인 경우 등 각각의 상황에서 사전확률과 조건부확률의 곱셈을 한다.

 

① 진짜의 사전확률 × 진짜인 경우 10번 모두 앞면이 나오는 조건부 확률 = 50% × 0.1% = 0.05%

② 가짜의 사전확률 × 가짜인 경우 10번 모두 앞면이 나오는 조건부 확률 = 50% × 10.74% = 5.37%

 

또 동전이 진짜냐 가짜냐의 두 가진 선택밖에 없는 이상, 어느 경우라도 동전이 진짜일 경우와 가짜일 경우를 더하면 반드시 1이 된다.

'10번이 모두 앞면이 나왔다'는 결과가 얻어진 시점에도 예외는 아니다.

즉 ①과 ②의 합계는 당연히 1이다.

 

좀 더 자세히 설명하면 ① '진짜 동전을 던져 10번 모두 앞면'이 나오는 확률인 0.05%과 ② '가짜 동전을 던져 10번 모두 앞면'이 나오는 확률인 5.35%의 합인 5.42%가 동전을 던지기 전 '동전이 진짜인지 가짜인지 반반인 상황에서 10번 연속 앞면이 나올 확률은?' 하고 물었을 때의 대답이다.

 

하지만 '동전이 10번 모두 앞면이 나온 상태에서 동전이 10번 연속 앞면일 확률은? 하고 물으면 당연히 100% 이다.

'사람이 사람일 확률은?'과 같은 질문과 똑같기 때문이다.

 

그러니까 '동전이 10번 연속 앞면이 나온 상태에서 동전이 진짜일 확률은?'하고 물으면 마땅히 100%가 되야하는 5.42%라는 확률에서 차지하는 0.05%라는 확률의 비율로 생각하면 되고(즉, 0.09%),  '동전이 10번 연속 앞면이 나온 상태에서 동전이 가짜일 확률은?'하고 물으면 5.42%라는 확률에서 차지하는 5.37%라는 확률의 비율로 생각하면 된다(즉, 99.10%).

 

 

 진짜

가짜 

합계 

 사전확률

50%

50% 

100% 

 조건부확률

0.10%

10.74% 

 

 사전확률 × 조건부확률

0.05%

5.37% 

5.42% 

 사후확률

0.90%

99.10% 

100% 

 

즉, 10번 모두 앞면이 나온 데이터로부터, 이것은 99.10%의 확률로 가짜 동전이라고 베이즈론자는 판단한다. 이와 같이 사전확률과 데이터에 근거해 산출한 확률을 사후확률이라고 한다.

 

* 참고로 '베이즈'는 이런 방법론을 자신의 수필에서 다뤘던 목사의 이름이며, 그의 사후에 프랑스 수학자 라플라스에 의해 '베이즈 정리'라는 이름으로 폭넓게 알려졌다.

 

 

3. 결론

 

빈도론에 근거하면 받은 메일을 충분히 확보하고 나서, 'Britney'라는 단어가 제목에 포함된 메일이 보통 메일일 확률은 매우 낮다'라고 판단하게 되지만, 스팸메일로부터 1초라도 빨리 해방되고 싶다면 베이즈적으로 생각하는 것이 낫다. 어차피 계속 사용하는 동안에 사후확률이 조금씩 수정되어 잘못된 분류도 점차 줄어들게 마련이다.

 

지금까지 살펴보았듯이 베이즈론과 빈도론의 어느 쪽이 옳고 그른지를 판단하는 것은 아무런 의미가 없다. 한정된 정보와 가정을 조합하는 '효율성'이 요구된다면 베이즈론을 사용하면 되고, '잘못된 가능성을 줄이고 싶다'거나 '충분한 데이터가 확보되어 있다'면 빈도론으로 p- 값을 구하는 편이 낫다.

 

 

 

 

빅데이터를 지배하는 통계의 힘
국내도서
저자 : 니시우치 히로무 / 신현호역
출판 : 비전코리아 2013.07.30
상세보기