티스토리 뷰

etc

통계학 vs 데이터 사이언스

shannon. 2013. 11. 10. 02:12
반응형

http://blog.naver.com/kim00020?Redirect=Log&logNo=60197796165&from=postView


저는 지난주 북미 연합통계학회 (Joint Statistical Meetings)에 참석하고 돌아왔습니다. 매년 대략 5천명 정도가 참여하는 연합통계학회는 통계학자들이 참여하는 학회로는 최대규모인데 올해는 캐나다 몬트리올에서 열렸습니다. 이 학회를 참여하면서 최근 연구 동향도 파악하고 또 같은 분야의 사람도 사귀고 하는데 이번 학회에서는 빅데이터(Big Data) 관련 내용이 가장 인기였습니다. 심지어 우리를 통계학자라고 부르지 말고 data scientist 라고 부르자는 사람들도 있었습니다. 그렇다면 통계학과 빅데이터를 주로 다루는 data science 는 어떤 차이가 있을까요? 사실 컴퓨터 사이언스 전공자들이 통계학의 영역에 이제는 많이 진출해서 그 경계가 조금 모호해 지는 면이 있는데 그럼에도 불구하고 통계학이 양보할 수 없는 고유 영역은 무엇일까요? 

 

오늘 통계 이야기 세번째 시간에 이에 대해 한번 생각해 보고자 합니다. :) 

 

먼저 통계학에서는 모집단의 정의가 명확하지만 데이터 사이언스에서는 모집단이 명확하지 않다는 것을 들수 있습니다. 이는 다시 말하면 통계학에서는 모집단의 대표성(representativeness)에 대해 중요시 여기지만 데이터 사이언스에서는 특정 모집단의 대표성 이런 개념에 별로 개의치 않는다고 말할 수 있을 것입니다. 예를 들어 올해 우리나라 실업률 통계를 내고자 할때에는 그냥 대충 1월부터 12월까지 아무때나 실업률을 측정하는 것이 아닙니다. 항상 중요한 통계조사에서는 그 조사를 할때 기준이 되는 날짜가 있습니다. 월별 실업률에서는 해달월 15일 현재를 기준으로 조사를 하고 센서스의 경우에는 그해 4월 1일을 기준으로  조사를 하는 것입니다. 왜냐하면 경기의 변화에 따라 실업률이 바뀔수 있기 때문에 기준 날짜를 정해서 일제히 조사를 해야지 서울에서는 월초에 조사하고 경상도에서는 월말에 조사하고 이런 식으로 하면 그 차이가 지역별 차이인지 아니면 시간의 차이인지 알수가 없기 때문입니다. 그러나 통상적으로 말하는 빅데이터에서는 말 그대로 그냥 얻어진 자료이므로 이런 식의 대표성에 대한 정보를 제공하는데 아주 제한적입니다.  

 

둘째로는 통계학에서 다루는 대부분의 자료는 그 자료를 얻어내는데 적지 않은 비용을 지불하고 얻어내는 반면 빅데이터의 자료는 대부분 거의 공짜에 가까운 비용으로 얻어집니다. (그러기에 빅데이터를 얻어낼수 있는 것입니다.) 즉, (조사원 등과 같은) 인간의 인건비가 아닌 컴퓨터 서버나 프로그램을 돌려서 그냥 얻어지는 데이터이기 때문에 접근 방식 자체가 상당히 다릅니다. 통계학의 대상이 되는 통계 조사 자료나 실험 자료는 자료의 크기가 2배로 늘어나면 비용이 거의 2배가 늘어나지만 데이터 사이언스의 대상이 되는 빅데이터 자료는 자료의 크기가 2배로 늘어나는 것이랑 전체 비용 증가랑 거의 상관이 없습니다. 그래서 통계학에서는 오차와 비용을 최적화 하는 것에 대한 연구를 전제로 합니다. 전통적인 통계자료는 비용이 증가하면 오차는 줄어들지만 무작정 비용을 늘릴수 없는 것이기에 주어진 오차 범위 내에서 비용을 최소화 하는 방법을 연구하는 것에 많은 관심을 갖습니다. 빅데이터는 그보다는 자료수를 늘리는 것에 대해 부담이 별로 없으니  어떻게 하면 계산을 빠르게 할 것인가 아니면 어떻게 하면 숨겨진 정보를 효율적으로 찾아낼 수 있을 것인가 등을 연구합니다. 게다가 빅데이터에서는 얻어진 값의 오차가 얼마나 되는지에 대해 과학적인 결론을 내리지 못하는 경우가 종종 있습니다. 

 

결론적으로 통계학은 모집단 대표성을 보장할 수 있는 표본을 얻을 수 있는 방법론을 제공하고 또한 그로부터 얻어지는 통계값들의 오차의 범위를 함께 제공합니다. 그래서 정부기관이나 기업체 등에서는 g확률표본을 통한 과학적인 통계분석을  통해 전체 비용을 절감할 수 있을 뿐만 아니라 (데이터를 통한) 좀더 객관적이고  과학적인 방법으로 의사결정을 가능할 수 있게 할 수 있게 되는 것입니다. 

[출처] 통계 이야기 3|작성자 kim00020


반응형

'etc' 카테고리의 다른 글

Bitbucket - git command  (0) 2013.11.10
Javascript tip - Module pattern  (0) 2013.11.10
이민  (0) 2013.11.10
CI server  (0) 2013.11.10
[Spring] aspect xml  (0) 2013.11.10
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함