갈루아의 반서재

Beware the Big Errors of ‘Big Data’

Big data can tell us what’s wrong, not what’s right.


Genome
Genome by Kam2y 저작자 표시비영리


예전 어느 때보다 최근 빅데이터 열풍으로 인해 우리는 끔찍한 때를 보내고 있다. 연구자들은 빅데이터라는 개념을 통해 이제는 체리 피킹을 산업적인 수준으로까지 끌어올렸다. 


현대성은 많은 변수를 제공하기는 했으나, 이에 반해 변수당 데이터는 턱없이 부족했다. 따라서 그럴싸한 관계성들의 양이나 규모가 실제 정보보다는 커지고 있다.


바꾸어 말하면, 빅데이터가 더 많은 정보를 의미하는 하나, 그것 역시 더 잘못된 정보를 의미하기도 한다는 것이다. 


이익은 그들이 취하고 손실은 다른 이에게 전가하는 옵션을 가진 은행가처럼, 연구자들 역시 그들의 믿음을 확인시켜주거나 좋은 결과만을 보여주는 통계만 골라 취하고 나머지는 버리는 능력이 있다.


빅데이터 연구자들 일단 그들이 원하는 결과가 나오면 연구를 그만둘 수 있는 옵션을 가지고 있다. 연구자들은 긍정적인 면을, 그리고 진실은 부정적인 면을 갖게 되는 것이다. 그리고 그것이 바로 그들을 antifragile - 복잡성과 불확실성응로부터 이득을 취할 수 있는 - 하게 만든다. 그것도 다른 이에게 해를 주며서 말이다.


빅데이터가 의미하는 것은 누구라도 거짓된 통계적 상관관계를 만들어낼 수 있다는 것이다. 거대한 데이터 셋트에서는 커다란 편차는 정보(신호)보다는 변수에 대부분 기인하기 때문이다. 그것은 샘플링의 속성과도 같다. 하지만 체리 피킹은 연구자의 컴퓨터에만 있을 뿐 현실에는 존재하지 않는다. 커다란 편차는 거짓이다. 


그러나 빅데이터는 심지어 솔깃하게 들리는 가짜 주장을 만들어낸다. 그리고 오늘날 반복되는 결과를 보여주는 논문은 거의 없다. 그것은 반복되는 연구는 자금 지원을 받기 어려울 뿐 아니라, 이러한 유의 연구는 누구도 영웅으로 만들어주지 않기 때문이다. 지식을 진보시키자는 주장에도 불구하고, 당신은 거의 통계를 지향하는 과학 또는 실증적인 연구를 거의 믿지 않는다. 


그렇지만 이것이 모두 나쁜 뉴스만은 아니다. 그러한 연구가 확증에는 사용할 수 없더라도, 

무엇이 틀렸음을 밝혀내는데- 해당 이론이 옳은가보다는 그것이 가지고 있는 문제점을 말하는데 - 는 유용하게 활용될 수 있다.


빅데이터와 관련한 또 다른 이슈는 실제와 자료의 구별에 있다. 실제 신호에 비해 과다한 데이터로 인해, 자료를 가지고 유리한 위치에서 역사를 보는 사람들은, 진행중인 사건들을 지켜보는 이들보다 더욱 많은 그럴싸한 관계를 찾아내는데 몰두하게 된다. 하지만 그들은 부수적인 현상에 속게될 것이다. 심지어 실험조차 편견으로 인해 훼손될 수 있다. 특히, 실패한 시도는 숨기거나 결과가 나온 후에 가정을 조작한다면 결국 실험에 가정을 맞추는 꼴이 된다. 





이것이 빅데이터의 비극이다. 더 많은 변수가 존재할수록, 중요성을 나타내는 상관관계는더 많이 존재하게 된다. 허위 사실도 정보보다 더 빠르게 늘어난다. 그리고 데이터에 따라 비선형적인 모습을 띄게 된다. 노이즈는 antifragile 이다


빅데이터가 가지고 있는 문제는 의학 연구에서 관찰연구가 가지는 문제와 별반 다르지 않다. 관찰연구에서는 통계적인 관계는 연구자의 컴퓨터에서 검증받게 된다. 하지만 이중맹검실험에서 정보는 현실을 흉내내는 방식으로 추출된다. 전자는 10번중 8번 이상은 그럴듯해보이는 온갖 종류의 결과를 도출해낸다. 


이러한 관찰 연구는 미디어와 과학 저널에 소개되었다. 하지만 고맙게도, 이 연구들은 아직 FDA에 의해서는 채택되지 않았다. 허위에 입각한 통계를 반대하는 스탠 영과 나는, 심지어 저명한 뉴잉글랜드 의학 저널에서도 이러한 현상을 발견했는데, 그들의 통계적인 데이터로부터 의미를 찾아낸 유전학 기반 연구가 우리의 연구 결과에 따르면 랜덤 만도 못한 결과를 나타낸 것이다. 


그리고 유전학에 관해 말하자면, 왜 여태까지 우리가 인간 게놈을 해독해낸 이후로 여러 해 동안 의미있는 것들을 발견해내지 못한 것인가?


만약 내가 200가지 변수 - 완전히 랜덤이고 전적으로 서로 상관이 없는 - 와 약 1,000 여개의 데이터 접점으로 구성된 세트를 생성한다면, 여기서 의미있는 상관관계를 발견하지 못할 가능성이 거의 희박하다. 하지만 이런 상관관계는 전적으로 가짜다. 그리고 본페로니 수정(Bonferroni adjustment)과 같은 체리 피킹을 제어할 수 있는 기법들이 있다고 하더라도, 범인을 잡아낼 수는 없다. 당신은 연구자들을 감시할 수도 없으며, 특히 웹상의 큰 규모의 데이터를 자유롭게 핸들링할 때는 특히 더 그렇다. 


나는 빅데이터에 아무런 정보가 없다는 주장을 하고 있는 것은 아니다. 분명 그곳에는 풍부한 정보가 들어있다. 하지만 핵심 문제는 바늘이 갈수록 큰 건초더미 속에 파묻히게 된다는 것이다.


BY NASSIM N. TALEB

02.08.139:30 AM


 


 

Nassim N. Taleb is the author of Antifragile, which this piece is adapted from. He is a former derivatives trader who became a scholar and philosophical essayist. Taleb is currently a distinguished Professor of risk engineering at New York University’s Polytechnic Institute. His works focus on decision making under uncertainty, in other words “what to do in a world we don’t understand.” His other book is The Black Swan: The Impact of the Highly Improbable.


[원문보기] http://www.wired.com/opinion/2013/02/big-data-means-big-errors-people/


[참고]

* cherry-picking : The term is based on the perceived process of harvesting fruit, such as cherries. The picker would be expected to only select the ripest and healthiest fruits. An observer who only sees the selected fruit may thus wrongly conclude that most, or even all, of the fruit is in such good condition.



Antifragile (CD / Unabridged)
외국도서
저자 : Taleb, Nassim Nicholas
출판 : Random House 2012.11.27
상세보기