빅데이터를 지배하는 통계의 힘
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 7장. 에비던스 활용하기(시스템리뷰와 메타분석)
2014. 5. 3.7장. 에비던스 활용하기 계통적 리뷰 systematic review 와 메타 분석 meta analysis 리뷰는 복수의 연구를 정리해 결국 어떤 해석이 가능한지를 밝히는 일을 말한다. 해당 영역에서 지금까지 누가 어떤 연구를 했으며 그 결과 어떤 내용이 밝혀졌는지 알고 있다. 그런 정보를 정리 소개하고 아울러 자신의 의견을 덧붙이는 것은 학자가 어떤 글을 쓰더라도 해야할 일이다. 하지만 리뷰 중에서 자신의 의견을 뒷받침하는데 유리한 결과만을 뽑아쓰는 것도 가능하다. 이처럼 '자기 의견에 유리하게 이용만 하는 리뷰'를 요즘은 '서술적 리뷰'라고 부르며 주관성 유무를 깊게 살피고 있다. 객관성이 담긴 계통적 리뷰가 중요시되는 이유이다. 계통적 리뷰는 미리 '검토할 논문의 조건'을 결정한 상태에서 과거에 ..
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 6장. 통계학의 여섯가지 활용 분야(빈도론파와 베이즈론파)
2014. 5. 2.1. 빈도론파는 단순하게 생각한다. 빈도론, 즉 피셔와 같은 사고방식에 근거하는 통계학자가 10번 던진 중 10번 모두 앞면이 나왔다는 데이터를 얻었다고 하자. 이 동전이 진짜 동전이라고 할 수 있을까? 누군가 이 동전을 진짜라 했다고 가정하자. 그리고 그 가정하에서 10번 전부 앞면이 되는 확률을 계산할 것이다. 즉 '2분의 1' 확률로 앞면이 나오는 동전이 연속해서 10번 모두 앞면이 나오는 확률은 2의 10제곱분의 1 , 즉 0.10%이다. 이 0.10% 라는 확률이 이른바 p- 값이다. 다시 말해 이런 기적 같은 확률이 일어났다고 생각하기 보다는, 본래의 '이 동전은 진짜 동전이다.'라는 가정을 '생각하기 어렵다'라며 버리는 편이 이치에 합당하다고 판단하는 것이다. 다음에 '이 동전은 가짜 동전'..
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 통계학의 여섯가지 활용 분야(텍스트 마이닝)
2014. 4. 30.텍스트 마이닝의 왕도 '형태소 분석'과 구글 검색의 비밀 'N-Gram' 형태소 해석이란 일반적으로 문장을 단어로 분리해 어떤 단어가 몇 번 사용되었는지 집계하는 것을 말한다. 형태소 해석을 할려면 우선 단어의 정보가 정리된 사전 데이터가 필요하다. 기본적으로 문장 안에 있는 단어와 사전 데이터 안의 데이터가 일치하는 것을 찾아서 정리할 필요가 있기 때문이다. 실제로 구글사의 일본어 입력 개발자 중 한사람인 쿠도 다쿠씨에 의해 개발된 미캡MeCab 이라는 형태소 해석 도구로, '굳이 단언하건대, 모든 학문 중에서 통계학이 최강의 학문이다.'라는 문장을 형태소 분석해보면 아래와 같이 나타난다. 명사 굳이 명사 통계 명사 단언 명사 학 동사 하건대 조사 이 기호 , 명사 최강 관형사 모든 조사 의 명사 ..
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 제5장. 통계학은 계속 발달하고 있다.
2014. 4. 29.제5장. 통계학은 계속 발달하고 있다. 1. '평범으로의 회귀'를 분석하는 회귀분석 t검정, 카이제곱검정, 분산분석, 회귀분석 등은 모두 통계기법으로 모두 '일반화 선형모델 Generalized linear model'이라는 광의의 회귀분석 개념으로 한데 묶어 이해할 수 있다. 데이터 간의 관련성을 나타내고 그것이 오차라 할 수 있는 범위인지 검정하는 기법은 모두 폭넓은 의미로 볼 때 회귀분석의 일종이다. 회귀분석이 왜 필요하냐는 질문의 대답은 '회귀'란 도대체 무슨 뜻인지 밝히는 것과 관련되어 있다. 여기에서는 '회귀'라는 현상이 발견되 역사부터 이야기하고자 한다. 2. 다윈의 사촌형제와 우성학 생물을 분석하기 위한 통계학의 체계를 만든 것은 다윈의 사촌동생인 프랜시스 골턴 Francis Galton ..
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 제4장. '임의화'라는 최강의 무기 활용하기
2014. 4. 29.제4장. '임의화'라는 최강의 무기 활용하기 '관찰'이란 대상을 자세히 보고 측정해 그로부터 어떤 진실을 밝히는 행위이다. '실험'은 다양하게 조건을 바꾼 상태에서 대상을 보고 측정해 그로부터 진실을 밝히는 행위이다.- 앙리 푸엥카레 1. '오차'에 접근하는 세가지 방식 100번 할 때 100번 다 꼭 그렇지만은 않은 현상을 과학적으로 다루고자 할 때 가능한 방법이 세 가지가 있다. 1) 실제 데이터를 전혀 취급하지 않고 단지 가설이나 이런 사례가 있었다는 말만으로 이론모델을 세우는 방식2) '100번 해서 100번 그렇게 된다'는 상황을 설명하기 위해 결과 그렇게 나타난 사례만 보고하는 방식3) 임의화를 활용해 인과관계를 확률적으로 표현하는 방식임의화하면 비교하려는 두 그룹의 모든 조건이 거의 ..
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 3장. 오차와 인과관계가 통계학의 핵심이다.
2014. 4. 29.3장. 오차와 인과관계가 통계학의 핵심이다. 1. 구체적인 행동으로 이끌어내려면 다음 '세가지 질문'에 답할 수 있어야 한다. [질문1] 어떤 요인을 변화시켜야 이익이 향상될까?[질문2] 그런 변화를 일으키는 행동이 실제로 가능한가?[질문3] 그에 따르는 비용이 이익을 상회할까? 이 세가지 질문에 답할 수 있을 때 비로소 '실행해서 이익을 향상시키자'라는 계획을 할 수 있다. 2. 통계학을 더 정밀하게 만든 '카이제곱검정'과 'p-' 값의 등장 '실제는 아닌데도 오차나 우연에 의해 데이터와 같은 차이(정확히는 그 이상의 극단적인 차이를 포함)가 생길 확률'을 통계학 전문용어로p- 값이라고 한다. p- 값이 작을 때(5% 이하) 과학자들은 '이 결과는 우연히 얻어졌다고 생각하기 어렵다' 또는 '유의하다'라..