Python 爬虫介绍和常用技术
抓取: 爬虫向网站发送一个请求,获取到目标网页源代码,从中获取有价值的信息。Python中urllib库、requests库可帮助我们实现HTTP请求操作。
分析: 对获取的数据进行分析提取有价值的信息,提取信息常用到正则表达式。还可根据网页节点属性、CSS选择器或XPath来提取网页信息的库,如Beautiful Soup、pyquery、lxml等。
存储: 分析提取信息后,需进行存储,数据保存形式有TXT、JSON,还可以保存到MySQL和MongoDB中,用于远程访问
URL管理器: 管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器;
网页下载器: 爬取url对应的网页,存储成字符串,传送给网页解析器;
内容解析器: 解析出有价值的数据,存储下来,同时补充url到URL管理器。
1、第一部分是协议(或称为服务方式)。
2、第二部分是存有该资源的主机IP地址(有时也包括端口号)。
3、第三部分是主机资源的具体地址,如目录和文件名等。
Python基础知识:要用Python写爬虫首先需要了解Python的语言基础,按照本站的Python教程学习就能具备Python爬虫所需的知识。
Python中urllib和urllib2库的用法:urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。
Python正则表达式:Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
Python爬虫框架:如Scrapy框架、PySpider爬虫系统等