gimmesilver's blog

Agbird.egloos.com

포토로그



저와 함께 대용량 게임 데이터를 분석하실 분을 찾습니다. 데이터분석

제목처럼 저희 팀에서 함께 일할 분을 찾습니다.
채용 공고 및 접수는 https://recruit.ncsoft.net/korean/careers/adoptionview.aspx?BNo=2186 에서 확인하시면 됩니다.

위 채용 공고에서 미처 하지 못했던 이야기를 하자면...

 링크를 보시면 아시겠지만 제가 근무하고 있는 곳은 엔씨소프트라는 게임 회사입니다. 현재 하고 있는 일은 데이터 분석 및 시스템 개발인데 그 중에서도 특히 fraud detection 분야를 담당하고 있습니다.
 fraud detection은 말 그대로 불법적인 행동을 찾아내는 것을 말하며 예를 들어 카드 회사나 금융 결제 업체에서 도용 행위를 탐지하기 위해 평소 고객의 소비 패턴과 다른 소비 행태를 탐지해서 도용 피해를 막는 등의 분석 기법을 말합니다. 
 저희 팀에서는 사용자의 게임 활동을 분석해서 계정 도용이나 오토 프로그램을 이용한 어뷰징 행위 등을 탐지하기 위해 유사한 분석 기술을 활용하고 있습니다.

 게임은 (물론 그 자체로도 매력있지만) 데이터 분석의 관점에서 볼 때 매우 매력있는 곳입니다. 웹에 비해 규모가 다소 작지만 (그렇다 해도 다루는 데이터의 양은 수백 GB ~ 수십 TB 수준입니다.) 다양성의 측면에서는 단연 그 어떤 분야도 압도합니다. 
 어쩌면 현실과 가장 유사한 곳은 게임이 아닐까 싶습니다. 그러면서도 거의 모든 활동을 관찰할 수 있습니다. 제 능력이 부족해서 하고 있지는 못하지만 다양한 사회학적 기법들을 실험하고 관찰할 수 있는 최고의 조건일지 모릅니다.

 물론 이를 위해선 다양한 분석을 시도할 수 있는 튼실한 분석 인프라가 필요합니다.

 이와 관련해서 이야기 해보자면, 저희 팀의 상위 조직은 '데이터 정보 센터'인데 이름에서 알 수 있듯이 데이터에서 정보를 추출하는 일과 관련된 모든 일을 수행하는 조직입니다. 기존에 수행하던 BI 분석 뿐 아니라 최근 이슈가 되고 있는 '빅 데이터' 분석을 위한 인프라를 몇 년 전부터 구축하고 운영해오고 있는데 이렇게 분산 인프라를 개발/구축/운영하는 팀에서부터 통계 분석 및 데이터 마이닝을 통한 다양한 고객 분석을 수행하는 팀까지 여러 계층의 팀이 존재합니다. 
 아직 부족한 점도 많고 갈 길도 머얼~지만 그래도 국내에서는 꽤 높은 수준의 인프라가 아닌가 생각합니다. 

 이왕 말 나온김에 팀에 대해 잠깐 더 얘기해보죠.

 위에서 언급했다시피 fraud detection 분야를 담당하고 있고 이를 위해 데이터 분석과 시스템 개발을 모두 수행하고 있습니다. 하지만 이를 위해 데이터 모델러와 시스템 개발자로 분업화 되어 있진 않습니다. 각자 갖고 있는 강점의 차이는 있겠지만 전 모든 사람이 분석과 개발을 다 잘 해야 제대로 된 데이터 분석이 가능하다고 생각합니다. 그래서 링크에 나와 있다시피 프로그래밍을 할 줄 아는 데이터 분석가가 필요합니다.
 솔직히 말하자면 직접 하둡으로 로그 데이터 정제해서 탐사 분석을 수행하고 간단한 마이닝 알고리즘도 구현할 줄 알며 그렇게 해서 나온 데이터 분석 결과를 보고서로 만들 줄 아는 사람이면 좋겠습니다.......만 뭐 이건 그냥 '저 김태희랑 결혼하고 싶어요.' 정도로 받아들이시고, 그저 지금 당장 이런 역량을 갖추지 못했다 하더라도 이런 제 생각에 공감하는 분이길 바랍니다.

 팀에서 가급적 다양한 데이터 분석을 시도하고 있습니다. 올 한해 동안 산학 프로젝트를 수행하기도 했고 팀 자체적으로도 몇 가지 새로운 분석 기법을 탐지 시스템에 적용했는데 이에 관해서 두 편의 논문을 한 국제(근데 주관은 한국이에요) 학술 컨퍼런스에 제출했습니다. (그래서 연말에 말레이시아로 놀러가요~)

 뭐 쓰다보니 자랑 섞인 이야기만 주욱 적었는데 사람 낚으려다 보면 의례 그런거니까 알아서 걸러서 받아 들이시고, 그저 좋은(많이는 필요없어요...) 분들이 지원해 주셨으면 좋겠습니다.

(바쁘신 분들을 위한) 세줄 요약:
  • 게임은 대단히 매력적인 데이터 분석 소스이다.
  • 우리 회사 분석 인프라 참 잘 되어 있다.
  • 우리 팀 빡세지만 좋다.

p.s. 과제있습니다. 지원 시 과제물을 제출하셔야 합니다.

핑백

덧글

  • 문제중년 2011/11/17 14:24 # 삭제 답글

    KLDP에서 링크타고 넘어와봣습니다...
  • sort 2011/11/21 11:16 # 삭제 답글

    안녕하세요?

    대용량 로그파일을 분석하는데 있어 퍼포먼스 향상등을 위해
    Sort 툴을 사용들하시는데요...

    혹시 CoSORT 라는 정렬툴 관련 필요성이 있으실지요?

    cosort@cosort.co.kr 로 회신 좀 부탁드립니다.

    수고하세요.
  • 2011/11/25 15:47 # 삭제 답글

    불법적인 행동기준을 어떻게 설정할건지 무척 흥미롭군요.
    (언뜻 생각나는건 ip의 변동 정도)
    CART나 로지스틱 회귀분석을 이용하는 건가요?
  • gimmesilver 2011/11/25 17:05 #

    간단히 말씀드리면 계정 도용의 경우 고객 지원 센터를 통해 신고되는 정보를 학습 셋으로 사용하여 로지스틱 회귀 분석을 합니다. 그 외에도 탐지 대상에 따라 그래프 클러스터링 등의 몇 가지 분석 방법을 사용하고 있습니다.
  • 2011/12/15 09:51 # 삭제 답글

    다음 통계분석연구회 카페나 네이버 통계와 조사나라 카페에 가시면 분석인력을 찾기가
    용이할 것 같습니다 ^^

    개인적으로 추천해 주고 싶은 분이 몇 있지만 게임쪽은 아니라...

    카페에 가입하셔서 공지해 보시면 좋은 인연을 만날 가능성이 조금은 높아질 것 같아요 ^^

    수고하시구요, 컨퍼런스나 다른 기회로 노하우를 살짝이라도 배웠으면 하는 기대를 가져봅니다.

    ps) 참 저도 분석쪽은 아니지만 엔씨에서 5년 가까이 근무한 경험이 있습니다.

  • gimmesilver 2011/12/19 21:00 #

    신경써 주셔서 감사합니다.
    5년이나 근무하셨다니 어쩌면 저랑 한 때 회사 동료분이셨을 수도 있겠네요. ^^
    (저도 이제 5년 정도 되었습니다.)
    말씀해 주신 카페를 통한 공고는 한번 검토해 보겠습니다.
댓글 입력 영역