Programming/Python
파이썬 HTML 파싱 하는 방법
쌍쌍바나나
2017. 11. 2. 22:27
반응형
파이썬(Python) beautifulSoup 사용해서 html page 파싱(parsing)
데이터 scrap을 할때 많이 사용하는 beautifulsoup을 이용해서
html page를 parsing 하는 코드 (아래 참고)
코드 간단 설명
- 특정 tag의 값(text)을 가져오기
- html page의 값을 가져온 이후에 soup.p의 tag의 값을 가져온다
- p의 tag를 갖고 있는 text를 가지고 와서 words로 split
- p의 id로 가져오기
- 모든 paragraph의 리스트를 가져오기
- p의 tag 중 important class의 값을 갖고 있는 paragraphs 가져오기
- span의 요소 안에 포함된 모든 div를 가져오기
코드
반응형