Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说java简单爬虫----Jsoup,希望能够帮助你!!!。
Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。
Jsoup主要有以下功能:
1. 从一个URL,文件或字符串中解析HTML
2. 使用DOM或CSS选择器来查找、取出数据
3. 对HTML元素、属性、文本进行操作
基本步骤:
//下载网页String URL="输入网址";Document document=Jsoup.cnnect("URL");
//在下载的document里进行检索的语句elements test=document.select("#div_JK").select("div.item_list").select("div:nth-child(1)").select("div.dTit.tracking-ad").select("a");
//这样test标签就是我们最开始右键单击检查的标签String Str=test.toString();
//将标签转化成字符串String text=test.text();
//将标签里的文本提取出来
Jsoup在解析html方面还有很多功能,这里就不一一列举了。Jsoup的中文api地址:http://www.open-open.com/jsoup/
Jsoup在做爬虫方面,有着非常大优势。后续会选择一些现有开源的爬虫框架进行分析,与大家共享。欢迎大家拍砖。
今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
上一篇