gimmesilver's blog

Agbird.egloos.com

포토로그



간단한 C++ 웹 크롤러 소스 프로그래밍

어떤 분이 http://agbird.egloos.com/3549472#12466031 에서 C++로 만든 웹 크롤러 소스 좀 올려달라고 하셔서...

Crawler.zip


덧글

  • 정병혁 2010/08/24 18:23 # 삭제 답글

    안녕하세요 잘지내시죠 34기 정병혁입니다. 어떻게 이곳까지 왔다가 어디 남길지 헤매다가..
    건강조심하세요~
  • 한관희 2016/05/23 15:38 # 삭제 답글

    안녕하세요 올려주신 웹 크롤러 소스를 이용해 개발을 해보고자 하는 대학생입니다.

    아직 공부가 모자란 탓에 올려주신 소스를 제대로 이해를 못하고 있습니다.

    제가 원하는 방향으로 수정해서 사용하고자 하는데 도움을 좀 받고싶은데 가능할까요?
  • gimmesilver 2016/05/24 17:04 #

    여기에 댓글을 남겨 주시면 가능한 범위 내에서 답변 달겠습니다.
  • 한관희 2016/05/27 15:00 # 삭제 답글

    감사합니다. 음.. 일단 제가 하고싶은건 네이버 인기검색어 a태그를 타고 들어가서 최상위에 있는 뉴스의 내용을 가져오고싶은데요. 이렇게 많은 헤더파일과 소스파일을 가진 프로젝트를 다뤄본 적이 없고, MFC에 적용가능하게 수정을 해야하는데 어떤 부분을 만져야할지 전혀 감이 오지 않습니다. 제가 필요한 파일이나 코드부분이 어느부분인지 알려주실수 있을까요?
  • gimmesilver 2016/05/29 15:08 #

    제가 올린 크롤러 소스는 원하시는 것처럼 특정 내용만 크롤링하는 용도로는 적당하지 않은 것 같습니다. 이 소스는 공부용으로 만든 것이기 때문에 HTTP, HTML 파서나 쿠키 처리 모듈 등을 직접 만든 코드입니다. 그런데 한관희님이 원하시는 작업은 일반적인 크롤러가 아니라 특정 웹 데이터를 수집하려고 하는 것이니 거기에 좀 더 적절한 라이브러리를 사용하시는 것이 좋겠습니다.
    꼭 MFC로 구현해야 하는 것이 아니라면 파이썬을 사용하는 것을 추천해 드립니다. 파이썬에서 requests 와 BeautifulSoup 이라는 패키지를 이용하시면 좀 더 쉽게 구현하실 수 있을 것 같네요.
  • 한관희 2016/05/31 17:12 # 삭제 답글

    MFC로 구현을 해야합니다.ㅠㅠ 파이썬으로 구현해봤는데 정말 간단하더군요.
    그런 라이브러리를 응용할 만한 것들이 무엇이 있을까요? 제가 원하는 용도로 개발하기에
  • gimmesilver 2016/06/01 15:43 #

    네 아마 beatifulsoup 처럼 XPath 기반의 파서가 C++에도 있을 겁니다. 지금 잠깐 검색해 보니 http://www.xmlsoft.org/ 이런게 있네요. MFC에 있는 HTTP client library를 사용하시고 그 결과를 링크에 있는 파서와 함께 이용하시면 제 코드보다 훨씬 간단히 작업하실 것 같습니다.

    제가 올린 크롤러 소스는 공부 목적으로 만든 거라 HTTP 클라이언트나 HTML 파서 등을 직접 구현한 코드여서 특정 목적으로 수정하시는 것보다 전용 라이브러리를 사용해서 별도로 구현하시는 것이 더 좋을 것 같네요.
  • 한관희 2016/06/01 19:43 # 삭제 답글

    도움에 진심으로 감사드립니다. 꼭 열심히 해서 멋진 개발자가 되도록 하겠습니다!
  • 성기현 2018/03/20 10:04 # 삭제 답글

    좋은 자료 너무 감사합니다. 너무 많이 배우고있네요.
댓글 입력 영역