Programming/Android

[Android] 안드로이드 웹페이지 파싱하기 - jsoup 이용하기

쌍쌍바나나 2016. 4. 26. 17:42
반응형


들어가며


  웹페이지에서 내가 필요한 부분을 가져오고 싶을 경우가 있다. 예를 들면 날씨 정보나, 주식정보 등이 될 수 있다. 이번 포스팅에서는 Java의 라이브러리인 jsoup을 이용해 웹페이지 파싱하는 방법에 대해서 설명한다. 


Jsoup

공식 홈페이지 주소 [바로가기] 


Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");


예제 코드를 보기 위해서는 coobook을 참고하면 된다. [바로가기]


웹페이지

  예를 들어서 네이버에 있는 사이트 일부분을 가져오는 코드를 설명해 보겠다. 아래 검색 결과에서 '무한도전 - 477회 이전희' 의 색칠한 내용을 가져오는 코드입니다. 






페이지 소스보기

  페이지 소스를 보면 아래와 같다. 무한도전 477회는 <div class='title_bar'>의 HTML 태그로 묶여있는 것을 볼 수 있습니다. 




소스코드

  <div class='title_bar'>의 내용을 가져오면 되기 때문에, select를 이용해서 가져오시면 됩니다. 자세한 함수 내용은 사이트를 확인하시면 됩니다. 거의 대부분 웹페이지 가져오는 Jsoup.connect(url)과 해당 페이지에서 내가 원하는 태그내용을 가져오는 select를 사용하기 때문에 아래 내용만 알아도 충분히 가져올 수 있습니다. 여기서 div.title_bar라고 표현하는 이유는 .은 class를 나타내고 있기 때문엡니다. div class --> div.  (class=.)로 표현한다고 생각하시면 쉽습니다. 그 외에도 div id --> div# (id=#)으로 표현합니다. 


String url = "https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&ie=utf8&query=무한도전+20160423";
Document doc = Jsoup.connect(url)
		.header("content-type", "multipart/form-data; boundary=---011000010111000001101001")
		.header("authorization", "Basic ZmJfMTY2MTUzMDc0NzQ2MTk5NDox").header("cache-control", "no-cache")
		.get();

Elements title = doc.select("div.title_bar");
for (Element e : title) {
	System.out.println(e.text());
}









반응형