Jericho을 이용한
다음 실시간 검색어 파싱
(Daum Real Rank Parsing)
활용예제
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.List;
import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.Source;
public class DaumTest {
private final String DAUM_URL = "http://www.daum.net/";
private Element realTimeSearchWord;
public DaumTest() {
Source source = null;
try {
InputStream is = new URL(DAUM_URL).openStream();
source = new Source(new InputStreamReader(is, "utf-8"));
source.fullSequentialParse();
} catch (IOException e1) {
}
realTimeSearchWord =
source.getElementById("realTimeSearchWord");
// realTimeSearchWord는 실시간 검색어 id
List<Element> liTagList = realTimeSearchWord
.getAllElements(HTMLElementName.LI);
// li 태그의 리스트(실시간 검색어 순위 리스트)
for (int i = 0; i < liTagList.size(); i++) {
Element aTag = liTagList.get(i)
.getFirstElement(HTMLElementName.A);
String article = aTag.getTextExtractor().toString();
// 실시간 검색어 텍스트
String articleHref = aTag.getAttributeValue("href");
// 실시간 검색어 링크
System.out.println(article + " - " + articleHref);
}
}
}
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.List;
import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.Source;
public class DaumTest {
private final String DAUM_URL = "http://www.daum.net/";
private Element realTimeSearchWord;
public DaumTest() {
Source source = null;
try {
InputStream is = new URL(DAUM_URL).openStream();
source = new Source(new InputStreamReader(is, "utf-8"));
source.fullSequentialParse();
} catch (IOException e1) {
}
realTimeSearchWord =
source.getElementById("realTimeSearchWord");
// realTimeSearchWord는 실시간 검색어 id
List<Element> liTagList = realTimeSearchWord
.getAllElements(HTMLElementName.LI);
// li 태그의 리스트(실시간 검색어 순위 리스트)
for (int i = 0; i < liTagList.size(); i++) {
Element aTag = liTagList.get(i)
.getFirstElement(HTMLElementName.A);
String article = aTag.getTextExtractor().toString();
// 실시간 검색어 텍스트
String articleHref = aTag.getAttributeValue("href");
// 실시간 검색어 링크
System.out.println(article + " - " + articleHref);
}
}
}
댓글 없음:
댓글 쓰기