动手写爬虫概览

编写的爬虫代码的主要涉及的过程:

获取网页数据–提取数据–数据的清洗和处理–数据存储。

以下是编写爬虫程序所需要安装的库。在这里,默认大家在安装Python之时已经安装好pip这个工具。

1.获取网页数据阶段,可能会用到的库:requests,urllib2

进入控制台界面:

pip install urllib2

pip install requests

2.提取数据需要用到的库:bs4,re,lxml

pip install bs4

3.数据清洗和处理:re,JSON

4.数据存储:mysqldb(SQL数据库),pymongo(NOSQL),xlwt(excel)

pip install pymongo

pip install xlwt

mysqldb的库需要去其他地方下载:https://sourceforge.net/projects/mysql-python/