Programming/Python

파이썬 HTML 파싱 하는 방법

쌍쌍바나나 2017. 11. 2. 22:27

파이썬(Python) beautifulSoup 사용해서 html page 파싱(parsing)

데이터 scrap을 할때 많이 사용하는 beautifulsoup을 이용해서
html page를 parsing 하는 코드 (아래 참고)

특정 tag의 값(text)을 가져오기
- html page의 값을 가져온 이후에 soup.p의 tag의 값을 가져온다
- p의 tag를 갖고 있는 text를 가지고 와서 words로 split
- p의 id로 가져오기
모든 paragraph의 리스트를 가져오기
p의 tag 중 important class의 값을 갖고 있는 paragraphs 가져오기
span의 요소 안에 포함된 모든 div를 가져오기

파이썬(Python) 한글 문자 길이 (0)	2017.12.10
C를 Python으로 Wrapping하는 방법 (0)	2017.12.10
파이썬 스케일이 다른 그래프 (0)	2017.11.02
파이썬 디렉토리 생성 코드 (0)	2017.11.02
파이썬 데이터 읽기 (pandas) (0)	2017.11.02

불로

함께 하는 블로그

Python, git, 데이터분석, 파이썬, 설치, Spark, 스파크, TensorFlow, RDD, 빅데이터, 리눅스, Android, 안드로이드, Linux, ubuntu, 소스코드, javascript, 자바스크립트, nodejs, dict,