2013년 8월 29일 목요일

빅데이터가 만드는 세상


빅데이터가 몇 년 전부터 이슈가 되면서 엄청나게 많은 책들이 출판되었다. 너무 원론적이거나, 식상한 타사 사례만 잔뜩 늘어놓거나, SNS에서 파생된 데이터가 빅데이터의 전부인양 이야기하거나, 지나치게 흥미 위주이거나 한 책들 사이에서 이 책이 가장 와닿는게 많았다. 통계학을 전공한 사람이 어쩔 수 없이 가질 수 밖에 없는 고정관념과 편견들에 대해 다시 생각해보게끔 한다.
가장 감명깊은 한 구절을 소개하자면 '많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 뛰어나다'라는 것이다. 이전에는 샘플링을 잘 하는 것, 정교한 모델을 만드는 것이 가장 중요했는데 이제는 샘플링을 할 필요조차 없는 환경이 됐다는 것. 따라서 전체 데이터를 사용하여 심플한 모델을 만드는 것이 더 중요하다는 것은 지난 10년동안 한 번도 생각해본 적도 없는 개념이다. 그리고 이제는 인과성보다 상관성이 주가 될 것이라는 이야기도 인상적이다. 급변하는 이 사회에 일상적인 용도에서는 이유가 아니라 결론을 아는 것만으로도 충분하다는 것이다.
첫 직장에서 두 명의 상사가 논쟁을 한 적이 있었다. 한 분은 모델은 무조건 Lift(모델 향상도 정도로 이해하면 되겠다.)가 중요하다는 것. 0.01 차이라 하더라도 lift가 높으면 그 모델을 써야 하고 얼마나 복잡한 모델을 쓰던지 상관없다는 것. 다른 한 분은 lift 차이가 크지 않다면 쉽게 설명할 수 있는 모델을 쓰는게 낫다는 것. 당시에는 뭐가 맞는지도 모르고 같은 학교에서 같은 학문을 배워도 저렇게 다르구나 싶을 뿐이었는데 빅데이터 시대가 되면 이런 논쟁도 의미가 없어지겠구나.

나는 재미있게 읽었는데 다른 사람들에게도 재미있을지는 잘 모르겠다. 결국은 데이터를 가치있게 만들어낼 수 있는 사람이 가장 중요하다는 결론.   

댓글 없음:

댓글 쓰기