编写的爬虫代码的主要涉及的过程:
获取网页数据–提取数据–数据的清洗和处理–数据存储。
以下是编写爬虫程序所需要安装的库。在这里,默认大家在安装Python之时已经安装好pip这个工具。
1.获取网页数据阶段,可能会用到的库:requests,urllib2
进入控制台界面:
pip install urllib2
pip install requests
2.提取数据需要用到的库:bs4,re,lxml
pip install bs4
3.数据清洗和处理:re,JSON
4.数据存储:mysqldb(SQL数据库),pymongo(NOSQL),xlwt(excel)
pip install pymongo
pip install xlwt
mysqldb的库需要去其他地方下载:https://sourceforge.net/projects/mysql-python/