2015년 1월 9일 금요일

[Java] Jericho을 이용한 다음 실시간 검색어 파싱(Daum Real Rank Parsing)


Jericho을 이용한 

다음 실시간 검색어 파싱

(Daum Real Rank Parsing)



활용예제


import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.List;

import net.htmlparser.jericho.Element;

import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.Source;

public class DaumTest {


             private final String DAUM_URL = "http://www.daum.net/";

             private Element realTimeSearchWord;

             public DaumTest() {

                          Source source = null;

                          try {

                                       InputStream is = new URL(DAUM_URL).openStream();
                                       source = new Source(new InputStreamReader(is, "utf-8"));
                                       source.fullSequentialParse();
                          } catch (IOException e1) {

                          }


                          realTimeSearchWord = 

                                                    source.getElementById("realTimeSearchWord");
                          // realTimeSearchWord는 실시간 검색어 id

                          List<Element> liTagList = realTimeSearchWord

                                                                 .getAllElements(HTMLElementName.LI);
                          // li 태그의 리스트(실시간 검색어 순위 리스트)

                          for (int i = 0; i < liTagList.size(); i++) {


                                       Element aTag = liTagList.get(i)

                                                                 .getFirstElement(HTMLElementName.A);

                                       String article = aTag.getTextExtractor().toString();

                                       // 실시간 검색어 텍스트

                                       String articleHref = aTag.getAttributeValue("href");

                                       // 실시간 검색어 링크

                                       System.out.println(article + " - " + articleHref);

                          }
             }
}





댓글 없음:

댓글 쓰기