Programming/Python

파이썬 HTML 파싱 하는 방법

쌍쌍바나나 2017. 11. 2. 22:27
반응형

파이썬(Python) beautifulSoup 사용해서 html page 파싱(parsing)

데이터 scrap을 할때 많이 사용하는 beautifulsoup을 이용해서
html page를 parsing 하는 코드 (아래 참고)

코드 간단 설명

  • 특정 tag의 값(text)을 가져오기
    • html page의 값을 가져온 이후에 soup.p의 tag의 값을 가져온다
    • p의 tag를 갖고 있는 text를 가지고 와서 words로 split
    • p의 id로 가져오기
  • 모든 paragraph의 리스트를 가져오기
  • p의 tag 중 important class의 값을 갖고 있는 paragraphs 가져오기
  • span의 요소 안에 포함된 모든 div를 가져오기

코드

반응형