gimmesilver's blog

Agbird.egloos.com

포토로그



IT업계가 사회과학 분야와 산학 연계를 하면 어떨까? 데이터분석

 사회과학이란 인간과 인간 사이의 관계에서 일어나는 사회 현상과 사회적 행동을 탐구하는 과학의 한 분야다. 크게보면 인류학, 정치학, 경제학, 심리학 등등이 모두 사회과학 분야에 해당한다. 예전에 '밈은 사기인가?' 란 글에서 한번 언급했듯이 과학이란 관찰된 사실에 대해 기술(description)하는 학문이다. 이 때 말하는 '기술'이란 단순히 사실의 나열을 의미하는 것이 아니라 관찰된 현상에 근거해서 보편적인 법칙으로 인정받을 수 있도록 일반화하는 것을 말한다. 
 한편 관찰된 현상들을 하나의 법칙으로 일반화하기 위해서는 사실들을 정리해서 패턴화하는 것도 중요하지만 이렇게 정리된 법칙이 정말 옳은지를 검증하는 실험 혹은 2차 관찰 단계가 필요하다. 그런데 정치학, 경제학, 심리학 등의 사회과학은 1) 실험자 자체가 피실험자이거나 혹은 밀접한 관련이 있기 때문에 객관적 관찰이 어렵고, 2) 실험 대상을 마음대로 제어할 수 없으며, 3) 설령 실험을 한다 하더라도 그 횟수나 양이 지극히 제한적이거나 시간과 비용이 많이 든다. 

 예를 들어 '폭력 영화가 인간의 사회성에 미치는 영향' 이란 주제로 실험을 한다고 하자. 이를 위해서는 최소한 두 집단을 두고 한 집단의 아이에게는 어렸을 때 부터 계속 폭력 영화를 보게 하고 다른 집단의 아이에게는 폭력 영화에 대한 노출을 완전히 차단하며 기타 다른 조건(부모의 인성 및 경제적 수준, 아이가 받게 될 교육 수준 등등)은 동일하게 유지한 상태에서 최소 10~20년 정도 실험 환경을 유지시킨 후 성인이 된 실험 대상자들의 사회성 정도를 측정해야 할 것이다. 그러나 당연히 동일한 사회/교육 수준에 비슷한 또래의 아이를 가진 부모 집단을 찾는 것도 힘들고 이들이 10~20년 동안 이런 수준을 유지한다는 것도 보장할 수 없을 뿐더러 설령 그렇다 하더라도 이런 실험에 자신의 아이를 맡길 부모는 없을 것이다. 여기서 사회 과학의 어려움이 존재한다.

 그런데 이런 사회과학 분야에도 최근 큰 변화의 조짐이 보인다. 과거에 의존했던 인터뷰나 소규모 집단 실험 등에서 더 나아가 SN(Social Network) 서비스나 기타 웹 서비스의 로그 데이터를 분석해서 사회 현상 및 심리 등을 연구하는 시도가 점점 늘어나고 있기 때문이다. 

 사회 과학 분야에서 유명한 실험 중 하나가 '작은 세상 실험(Small World Experiment)' 이다. 스탠리 밀그램이라는 유명한 사회 심리학자는 전 세계의 어떤 사람도 6단계(즉, 아는 사람의 아는 사람의 아는 사람의 아는 사람의 아는 사람의 아는 사람)만 거치면 다 연결된다는 가설을 검증하기 위해 미국의 특정 주에 사는 임의의 사람들에게 편지를 보내는 방식으로 실험을 진행했고 이를 통해 사람들이 평균적으로 5.5 단계의 사회적 거리를 갖고 있는 것을 알아냈다. 
 최근에 트위터에서 회원들의 사회적 거리를 구하기 위해 회원간 관계 데이터를 분석 했는데 트위터 회원간의 평균 사회적 거리는 4.67 단계라고 한다. 여기서 중요한 것은 그 결과값이 아니라 방식 자체에 있다. 밀그램은 불과 240명의 미국 특정 지역에 사는 사람을 실험 대상으로 삼았고아마  전체 실험 일정도 최소 몇 주에서 몇 개월 정도가 걸렸을 것이다. 그러나 트위터는 유저수가 수천 만명에 달하고 그 대상 범위도 전 세계에 널리 퍼져있다(물론 전체 트위터 회원을 대상으로 한 분석은 아니다. 관련 논문에 의하면 8천명을 샘플링해서 분석했다고 한다). 어떤 인위적인 환경 내의 실험이 아니라 실제 데이터를 분석한 것이기에 오류의 소지도 적으며 분석에 걸린 시간도 아마 밀그램이 했던 실험보다 더 짧았을 것이다. 

 IT 분야에서는 최근 분산 처리 시스템을 이용한 데이터 분석 기법이 발달하면서 엄청난 양의 데이터를 빠르게 분석할 수 있게 되었다. 이에 따라 실제로 오픈 소스 분산 프레임 워크인 하둡을 사회 과학 데이터 분석에 이용하는 사례도 있다. 하둡은 구글이 검색 서비스를 위해 데이터를 분석하는 시스템을 본 떠 만든 클론(clone) 프레임 워크이다. 지금까지 주로 야후와 같은 웹 서비스에서 데이터를 분석하는데 이용해왔다. 그런데 사회 과학 분야에서 하둡을 이용해서 분석하는 여러 기법들을 연구한다면 사회 과학 분야 뿐 아니라 역으로 이 시스템을 이용하는 IT 분야 역시 많은 이득을 볼 수 있지 않을까 하는 생각도 든다.

 결론적으로 전에는 얻을 수 없었던 엄청난 양의 데이터와 그 대량의 데이터를 처리할 수 있는 시스템이 갖춰지면 사회 과학 분야는 전례에 없었던 큰 발전을 할 수 있지 않을까 싶다. 이를 위해 이미 기반이 훌륭하게 갖춰져 있는 IT 업계에서 사회 과학 분야와 산학 연계를 한다면 학계에서는 전에는 상상하기 힘든 많은 데이터를 얻을 수 있을 것이고 업계 역시 이렇게 분석된 여러 가지 정보를 활용해서 고객 관리나 더 나아가 이 정보 자체를 활용한 여러 가지 서비스를 만들 수 있지 않을까 싶다.

핑백

  • gimmesilver's blog : 교육을 위한 대용량 데이터 분석 2010-11-14 15:24:03 #

    ... 논의할 수 있을까만은 이런 것도 다 자녀들의 특성에 맞는 좋은 교육 방법을 찾기가 무척 어렵기 때문에 중구난방하는 것이라 생각한다. 'IT 업계가 사회 과학 분야와 산학연계를 하면 어떨까?' 라는 글에서도 썼지만 기존에는 감히 분석할 엄두도 내지 못하던 양의 데이터를 분석할 수 있는 능력을 갖게 되면서 많은 분야에서 새로운 ... more

덧글

  • 박수혁 2010/07/13 13:19 # 삭제 답글

    스키너의 심리상자 열기 라는 책 저도 본 적이 있어요 사실 몇 가지 심리실험 이외에는 그다지 관심가는 책은 아니었지만 신선한 충격을 주기에는 충분 했지요 모두가 보는 공공장소에서의 살인에 아무도 신고하거나 말리는 이가 없다던가 말이죠 ㅎㅎ 여튼 요런 포스팅 좋아합니다요 넘 어려운 기술적인거 말고요 ㅎㅎ
  • 소드피시 2010/08/05 21:06 # 답글

    IT 기술의 발달을 금융이나 자연과학쪽에 적용하는 일반적인 발상들만 생각할 수 있었는데
    다른 분야에서도 얼마든지 활용할 수 있겠군요.
    Hadoop으로 사용자 데이터 백업용 시스템을 만든다거나 사람들의 병에 관한 이력 등을 처리하는 시스템같은것만 생각하고 있었는데요~
댓글 입력 영역