반응형

Crawling 3

네이버 댓글 봇, 야구 자동예매 어떻게 만들어지는 걸까? (Selenium with Python을 이용한 자동화를 해보자!!!)

​ 유투브 바로가기​ # 주제 안녕하세요 동화입니다. 네이버 댓글 봇, 야구자동예매, 웹클롤러는 어떻게 만들어질까? 브라우저에서 하는 작업을 모든것을 자동화할 수 있습니다. 잘못 사용하면 악용이 될 수 있습니다. # 오늘 다루는 주제 * 네이버 댓글 논란! 어떻게 만들어지는 걸까 ? * 나보다 빠른 예매, 야구 공연 티켓을 어떻게 할까? * 데이터를 모으는 크롤링(Crawling)은 어떻게 할까? * Selenium, WebDriver를 설치하고, 실습까지!! * 브라우저에서 하는 모든 작업은 자동화가 가능합니다! # URLs * https://selenium-python.readthedocs.io/ *http://chromedriver.chromium.org/downloads * http://ourcs..

Programming/Python 2018.11.21

[데이터과학] 데이터 수집하는 방법 (예제: 오라일리의 데이터 관련 책) - 페이지 스크랩, 정책

오라일리 출판사 페이지 웹페이지를 분석해서 데이텀의 잠재적 투자자가 데이터 분석은 의미없는 유행에 불과하다는 생각이 틀리다는 것을 증명해보도록 하자. http://shop.oreilly.com/category/browse-subjects/data.do?sortby=publicationDate%page=1 의 주소를 확인해보면 페이지당 30권씩 책이 표시되고 있는것을 확인 할 수 있다. 악의적으로 사이트에 접속하는 것이 아니거나, 웹 스크래퍼가 차단당하는 것을 원치 않는다면 가장 먼저 사이트의 접근 정책을 확인해야 한다. http://oreilly.com/terms/ 크롤러(스크래퍼)가 어떻게 작동해야 하는지 규제하고 있는 robots.txt를 확인해보면 된다. Crawl-delay: 30 Request-..

Programming/Python 2017.02.07

[Python] Web 스크랩 및 파싱 :: BeautifulSoup 사용방법

Web 스크랩 및 파싱하기 :: BeautifulSoup 사용방법 들어가며 웹에서 페이지를 스크랩하는 방법에 대해서 설명하려고 합니다. 웹페이지를 스크랩한다는 말은 웹 페이지에서 [오른쪽 마우스 클릭] --> [소스보기] 에 있는 텍스트를 가져온다고 생각하시면 됩니다. 웹에 있는 페이지에 특정 단어나, 이미지의 url 등을 가져오고 싶은 경우가 있습니다. 일단 가져오기 전에 feasibility(가능성)를 따져본 후에, 가능 하다면 페이지의 소스코드를 가져오고, 일정 포맷에 있는 데이터를 가져오면 됩니다. 내가 원하는 페이지에 들어간다. [그림 1] 인터넷 페이지 오른쪽 마우스를 클릭한 후에 View Source를 누른다. (또는 페이지 소스보기) [그림 2] 인터넷 페이지 소스코드 구현하기 구현해야 하..

Programming/Python 2016.04.20
반응형