Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说java写爬虫的工具,希望能够帮助你!!!。
一般来说,使用Python写爬虫比较好,为什么呢。入门容易,资料齐全,框架多。目前Python势不可挡。
但是老本行是java怎么办,也要写一些简单的爬虫该使用什么技术呢。
如果你有几年工作经验了,你不会使用URL去加载流,然后一个字符串一个字符串去截取你想要的结果吧。一般想到的是,看看哪里有开源的jar包去使用。今天给大家推荐一个新的htmlparser和新的jsoup。
需要下载的可以去maven仓库下载。
下载完成之后,我们来简单的爬一些网站内容。
这里我推荐一个非常好爬的笑话网站,将这些笑话可以保存在你自己的数据库。
http://www.qiushibaike.net/index(2005).html
看看这个网站,真的是非常适合初学者爬。
我们只需要找到a标记,将里面的网站地址读取下来,然后再去爬内容就行。例如000001.html,我就去爬http://www.qiushibaike.net/000001.html。
首先我们使用htmlparser包。
输出的结果如下:
还不错,不过这个毕竟是比较老的包了,没有他的儿子辈们牛逼,对于java来说,子类一般还是比父类厉害点的。我相信jsoup也是站在巨人的肩膀上开发出来的吧。
我这里使用jsoup写了将笑话的内容也找出来的效果。
是不是简单多了
将找到的效果封装成对象
这样就可以将这个对象保存到数据库了。
作为入门工具来说还是非常简单的。
但是,爬虫技术是入门容易,精通难,可以说非常难。
大家简单的玩玩是可以的。想要深入的话,那要付出很多,并且还需要有一个聪明的大脑才行。智商要求很高。
今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。