제5장. 통계학은 계속 발달하고 있다.
1. '평범으로의 회귀'를 분석하는 회귀분석
t검정, 카이제곱검정, 분산분석, 회귀분석 등은 모두 통계기법으로 모두 '일반화 선형모델 Generalized linear model'이라는 광의의 회귀분석 개념으로 한데 묶어 이해할 수 있다. 데이터 간의 관련성을 나타내고 그것이 오차라 할 수 있는 범위인지 검정하는 기법은 모두 폭넓은 의미로 볼 때 회귀분석의 일종이다. 회귀분석이 왜 필요하냐는 질문의 대답은 '회귀'란 도대체 무슨 뜻인지 밝히는 것과 관련되어 있다. 여기에서는 '회귀'라는 현상이 발견되 역사부터 이야기하고자 한다.
2. 다윈의 사촌형제와 우성학
생물을 분석하기 위한 통계학의 체계를 만든 것은 다윈의 사촌동생인 프랜시스 골턴 Francis Galton 이다. 골턴은 어떻게 진화론을 인간에게 응용해야 할지 생각했고, 1883년에 저술한 <인간 지성과 그 발달>을 통해 '환경에 더 적합한 인종이나 혈통에 우선적으로 더 많은 기회를 제공해야 한다'는 주장을, 우생학 Eugentics 에 근거해 제시하고는 그것을 마땅히 인류가 목표로 삼아야 할 정의라고 생각했다.
우생학에 따르면 인간의 지성은 유전에 의해 결정된다. 따라서 지성이 낮은 인간은 적극적으로 도태시키고 똑똑한 인간이 되도록 많은 자손을 남기도록 하면 인류가 끊임없이 발전할 것이라고 믿었다. 기득권을 지키고 싶어했던 귀족층에게 골턴의 우생학은 자신들의 우월함을 과시하는 명분이 될 수 있었다. 심지어 골턴의 주장은 귀족이 정부의 세제와 사회 보장 정책을 비판하는 근거로 활용되기도 하였다. 우생학에 따르면 부유층에 높은 세금을 징수해 빈곤층을 구제하는 사회제도는 인류의 진화를 막는 악의 근원이었기 때문이다.
3. '평범으로의 회귀'의 발견
데이터의 관계성을 기술하는 것, 다시말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석이라고 한다. 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석이라 하며, 이 수식의 직선을 회귀직선이라 부른다. 중요한 의미를 갖는 것은 실제의 조사결과를 보여주는 실선인데, 이를 통해 점선으로그려진 이론상의 관계성과의 차이를 알 수 있다.
키 큰 부모의 자녀일수록 실제로 그만큼 크지는 않고 키작은 부모의 자녀도 실제로는 그다지 작지 않다는 결과는 골턴이 데이터를 분석해 보일 때까지는 거의 생각조차 하지 못했다.
이러한 현상을 골턴은 '평범으로의 회귀'라 했는데 나중에 그의 제자나 골턴의 영향을 받은 다른 통계학자들에 의해 '평균값으로의 회귀'라 불리게 되었다. 실제 데이터는 이론상으로 추측한 값보다 '평균값에 가까워진다'는 의미이다.
그럼 '평균값으로의 회귀' 현상이 나타나는 이유는 무엇일까? 신장, 지능 혹은 생물의 특징에 국한되지 않고 이 세상의 모든 현상에는 다양한 '불규칙성'이 있기 때문이다.
4. 회귀계수 자체에 불규칙성이 있다.
예를 들어 20개의 데이터 자체는 현실적으로 볼 때 '자연계로부터 무한히 얻을 수 있는 데이터 중 우연히 얻어진 것'이다. 만일 처음부터 17개의 데이터를 입수했다(20개의 데이터에서 어떤 3개를 제거하느냐에 따라)면 앞서 예로 든 것처럼 양의 관계성을 나타낼 수도 있고 음의 관계성을 나타낼 수도 있다. 즉, 실제로 얻어진 데이터 자체에 불규칙성이 있을 뿐 아니라, 얻어진 회귀계수 자체에도 불규칙성이 존재하는 것이다.
5. 통계학자도 이해하지 못했던 '참값'의 의미
피셔는 '무한한 크기의 데이터를 얻으면 마땅히 알게되는, 진정으로 알고 싶은 값'을 참값이라 정의했다. 그리고 우연히 얻어진 데이터를 통해 계산한 통계량이 어느 정도의 오차로 참값을 추정할 수 있는지 수학적으로 정리함으로써 무한정 데이터를 모으지 않고도 적절한 판단이 가능하다는 생각을 피력했다.
현실의 데이터로부터 얻어지는 회귀계수 등의 통계량은 어디까지나 이 참값에 대한 추정치이다. 단지 가장 타당한 값을 추정하는데 그치는 것이 아니라, 참값에 대해 어느 정도의 오차를 가지는 것도 알 수 있다.
6. 일반화 선형 모델을 정리한 단 하나의 도표
|
분석측(설명변수) | ||||
두 그룹간의 비교 |
다 그룹간의 비교 |
연속값의 크기로 비교 |
복수의 요인으로 동시비교 | ||
비교하고 싶은 것(반응변수) |
연속값 |
평균값의 차이를 t 검정 |
평균값의 차이를 분산분석 |
회귀분석 |
다중회귀분석 |
있음/없음 등의 두 값 |
분할표의 기술과 카이제곱검정 |
로지스틱 회귀 |
7. 회귀분석을 사용할 때는 교호작용이 정말로 존재하지 않는지 살피는 것이 가장 주의할 점 중 하나다. 그러나 실제로 교호작용이 의심된다고 해도 회귀모델에 포함시켜 회귀계수를 추정하는 방법이 있다.
다시말해 그것들이 연속값이든 더미변수이든 두 설명변수 각각의 회귀계수 뿐만 아니라, 두 변수를 서로 곱한 새로운 설명변수(이것을 교호작용 항목이라고 한다)를 만들어 그 회귀계수에 대해서 동시에 추정하기만 해도 교호작용의 영향을 추정할 수 있다.
|
'반서재 Antilibrary' 카테고리의 다른 글
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 통계학의 여섯가지 활용 분야(텍스트 마이닝) (0) | 2014.04.30 |
---|---|
데이비드 호킨스, 「놓아버림」- 모든 감정이란 생존에 필요하다 믿고 있는 프로그램일 뿐 (0) | 2014.04.30 |
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 제4장. '임의화'라는 최강의 무기 활용하기 (0) | 2014.04.29 |
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 3장. 오차와 인과관계가 통계학의 핵심이다. (0) | 2014.04.29 |
야노 쇼,「꿈이 있는 공부는 배신하지 않는다」- 내가 누군인지 공부하는 이유 (0) | 2014.04.29 |