gimmesilver's blog

Agbird.egloos.com

포토로그



Data Science는 과학이 아니다 단상

 피터 와든이 지난 7월에 쓴 'Why you should never trust a data scientist(링크)' 라는 글을 보면 재밌는 에피소드가 나온다. 몇 년 전 그가 facebook 에서 근무하던 당시 facebook 에 있는 이용자들의 친구 연결 정보를 이용하면 미국이 지리적으로 몇 개의 지역으로 분리가 될 수 있다고 주장한 적이 있다. (관련 링크)

image

 그는 이런 자신의 주장을 블로그에 적었는데 많은 사람들에게 회자되면서 널리 퍼졌고 급기야 뉴욕 타임즈의 한 컬럼에까지 실려 거의 정설처럼 굳어졌다.

 하지만 위 그림은 엄밀한 데이터 분석을 통해 지역적으로 구분된 것이 아니라 그저 주관적인 감으로 그럴듯하게 시각화한 자료일 뿐이었다. 다시 말하면 위 지역 구분은 임의적으로 나눈 것이기에 누가 분석을 했느냐에 따라 그 결과가 다르게 나올 수 있다.  즉, 재현성을 보장하지 못하는 것이다.

 과학에 있어서 재현성은 매우 중요한 문제이다. 최근 일본의 한 과학자가 약산성 용액을 이용해 쉽게 줄기 세포를 만들 수 있는 방법에 대해 논문을 발표해서 큰 화제를 불러 일으켰다가 조작 논란에 휩싸여 크게 이슈가 되고 있는데 사실 이 논란의 핵심(혹은 시작점)은 조작 여부가 아니라 바로 논문 내용이 다른 과학자들에 의해 재현이 되지 않는 문제 때문이라고 한다. (관련 링크)

 데이터 과학 역시 어떤 분석 결과에 대해서 다른 사람이 동일한 방법으로 분석했을 때 동일한 결과(결론)을 낼 수 있어야 과학이 될 수 있다. 그리고 그러기 위해서는 어떤 판단을 내릴 때 논리적이고 보편적인 잣대를 제시할 수 있어야 한다. 그런 면에서 위 피터 와든의 사례는 과학이 아니다.

 비단 위 사례만이 아니라 대부분의 데이터 과학에서 언급되는 사례들은 상당수 과학적 엄밀성을 갖지 못한 채 분석가의 작위적이거나 임의적인 판단과 감에 의해 만들어진 결과물이 대부분이다.

 최근 빅데이터에 대한 회의적인 시선이 늘고 있다. 처음에는 뭔가 빅데이터 분석이란 것이 엄청난 인사이트를 줄 것처럼 생각했지만 막상 극히 일부 사례를 제외하고는 딱히 실질적인 성과가 보이지 않기 때문이다.

 어쩌면 명확한 성과를 운운하기에는 아직 미성숙한 상태이고 좀 더 시간을 두고 발전해 나가야 할 지 모른다. 다만 현재의 상황에서 볼 때 미성숙한 상태가 유지되고 있는데에는 바로 이런 과학적이지 못한 '데이터 과학자'들이 한 몫을 하고 있을 것이다.

 데이터가 가치를 발휘하기 위해서는 흔히 actionable data가 되어야 한다고 말한다. actionable data가 뭘까? 여러 가지 주장이 있겠지만 난 간략히 정의하자면 데이터를 분석한 결과가 서비스에 직접적이고 자동화된 방식으로 적용되는 경우 그 데이터가 actionable data 라고 생각한다.

 여기서 중요한 것은 '직접적이고 자동화된 방식' 이다. '직접적'으로 적용되려면 분석 결과가 굉장히 명료해야 한다. 두리뭉실한 결론은 중간에 사람에 의한 작위적 판단을 추가로 필요로 한다. 또한 '자동화'가 되려면 그 판단 기준이 프로그래밍 가능한 수준으로 엄밀하게 정의될 수 있어야 한다. 그렇지 못하면 역시 사람에 의한 임의적인 작업이 필요하다.

 우리가 과학이라고 부르는 것들은 대부분 어떤 입력값에 대해 자동적으로 결과를 산출해 낼 수 있다. 가장 엄밀한 기준으로 볼 때 과학이라 할 수 있는 물리학, 화학 등이 그렇다. 그럼 데이터 과학은? 아직 갈길이 멀다.

 데이터 과학의 현재 수준이 얼마나 낙후되어 있는지를 단적으로 보여주는 것이 바로 데이터 시각화(visualization)이다. 데이터 시각화는 데이터 자체 혹은 분석 결과를 어떻게 사람들에게 그럴듯하게(좋게 말하면 이해하기 쉽게) 보여 줄지에 대해 연구한다. 왜 이런 것이 필요할까? 그 이유는 분석 결과가 엄밀하지 못하기 때문에 사람의 판단이 필요하고 그렇기에 보기 편한 형태로 보여줘야 하기 때문이다. 아마 아인슈타인은 상대성 이론을 설명하기 위해 데이터를 bar chart로 표현할지 pie chart로 표현해야 할지 고민하지 않았을 것이다. (데이터 시각화가 쓸모없다는 뜻은 아니다. 다만 지나치게 시각화에 의존하는 것은 주의해야겠다는 의미로 받아 들였으면 좋겠다.)

 데이터 과학자(라고 불리고 싶어하는 사람)들이 정말 자신들이 하는 일을 '과학'이라고 말하고 싶다면 분석 결과를 어떻게 하면 사람들에게 쉽고 감동적으로 전달할 수 있을지 고민하기 전에 먼저 어떻게 하면 자동화된 프로그램으로 구현할 수 있을 만큼 엄밀한 기준과 이론 체계를 세울 수 있을지 고민해야 할 것이다. 현재 데이터 과학에 필요한 것은 스토리텔링이 아니라 엄밀한 이론 체계이다.


핑백

  • gimmesilver's blog : 코세라 강의 추천 - Reproducible Research 2014-12-04 16:52:08 #

    ... 관련 링크: https://class.coursera.org/repdata-016 예전에 'Data Science는 과학이 아니다' 라는 글에서 재현성의 중요성에 대해 언급한 적이 있다. 그런데 얼마 전 코세라에 이와 관련된 강의가 하나 개설되었다. 데이터 분석 작업을 할 ... more

덧글

댓글 입력 영역