gimmesilver's blog

Agbird.egloos.com

포토로그



앵커리지는 중요한 도시인가 아닌가 데이터분석

관련 링크
the worldwide air transportation network: http://www.pnas.org/content/102/22/7794.full.pdf
why anchorage is not that important: http://toreopsahl.com/2011/08/12/why-anchorage-is-not-that-important-binary-ties-and-sample-selection/

첫 번째 링크는 네트워크 분석 기법을 써서 전 세계의 항공 노선을 분석한 논문이다. 요약하자면,
  • 각 도시를 노드로 하고 도시 간에 연결되는 항공 노선을 엣지(링크)로 했을 때,
  • 모든 도시는 평균 4.4 번 비행기를 갈아타면 어디든 갈 수 있는 '작은 세상'을 이루고 있다.
  • 각 노드의 링크 수(degree)는 멱함수 분포를 이룬다.
  • 클러스터링 계수(clustering coefficient: A와 B가 연결되어 있고 B와 C가 연결되어 있을 경우 A가 C와 연결되어 있을 확률)는 약 0.62 이다. 
  • 위 사실을 종합해 볼 때 항공 노선은 무작위 네트워크가 아니라 척도 없는(scale free) 네트워크이다.
  • 네트워크 이론에서 노드의 중요도(centrality)를 나타내는 지표 중 degree(다른 도시와 직접 연결되는 노선 수) 와 betweenness(해당 도시를 거쳐가는 최단 노선 수) 가 있는데 일반적인 네트워크에서는 degree가 높으면 betweenness도 높다. 
  • 그런데 항공 노선에서는 일부 도시가 낮은 degree에도 불구하고 매우 높은 betweenness를 갖고 있다. 알래스카에 위치한 앵커리지가 그런 특성을 갖는데 불과 39개 도시와 연결되어 있음에도 불구하고 파리에 이어 두 번째로 높은 betweenness를 갖고 있다(파리는 250개 도시와 직접 연결되어 있다). 이것은 항공 노선이 응집력 높은 집단 몇 개가 약하게 연결된 형태를 가지고 있다는 것을 나타낸다.
  • 각 도시는 집단 내 degree 비중과 분배 계수 값을 토대로 7개 패턴으로 분류할 수 있다.
 대부분의 내용은 일반적인 네트워크 관련 논문과 큰 차이가 없는 내용인데 마지막에서 각 도시를 집단 내 degree 지수와 분배 계수를 이용해서 7개 패턴으로 분류하는 내용이나 집단 내 degree 지수를 구할 때 z-score를 써서 표준화하는 게 특이하고 인상적이었다. (아 근데 z-score를 이런데 써도 되는건가?)

 두 번째 링크는 위 논문 결과에 대한 반박 글이다. 논문에서는 앵커리지가 항공 노선 기준으로 중요한 도시라고 했지만 두 가지 오류가 있다는 것이다. 첫 째는 항공 노선을 가중치 없는 그래프로 처리했지만 이용 승객 수 기준으로 가중치를 줘야 실제 의미있는값을 구할 수 있으며, 둘 째, 논문에서 사용한 데이터는 전 세계 항공 노선을 모두 고려한 것이 아니라 미국을 경유하는 노선 만 고려했기 때문에 '선택 편향(selection bias)' 이 있다.
 결국 이용 승객 수 및 전체 노선을 고려할 경우 앵커리지는 betweenneess 기준으로 14번째 중요한 도시가 된다. 

 항공 노선과 같은 일종의 복잡계 네트워크는 부분이 전체를 대변하지 못한다(흔히 복잡계 세상에서는 1+1=2 가 아니라고 말한다). 때문에 두 번째 링크 글에서 언급했듯이 특정 샘플만 취하게 되면 잘못된 결론을 내릴 수 있다. 이건 페이스 북이나 트위터 같은 소셜 네트워크 서비스들이 빅 데이터 분석 인프라에 많은 투자를 하는(그리고 해야 하는) 이유가 된다. 

덧글

댓글 입력 영역