python爬虫要装什么库-Python教程

资源魔 2020-07-22 23:04:34 44 0

学习Python网络爬虫都需求装置哪些库？

如下是Python爬虫触及的相干库

申请库，解析库，存储库，对象库

一、申请库：urllib/re/requests

（1） urllib/re是python默许自带的库，能够经过如下饬令进行验证：

不报错信息输入，阐明环境失常

（2） requests装置

2.1 关上CMD，输出 pip3 install requests

2.2 期待装置后，验证

（3） selenium装置（驱动阅读器进行网站拜访行为）

3.1 关上CMD，输出 pip3 install selenium

3.2 装置chromedriver

网址：https://npm.taobao.org/

把下载实现后的紧缩包解压，把exe放到D:\Python3.6.0\Scripts\

这个门路只需正在PATH变量中就能够

3.3 期待装置实现后，验证

回车后弹出chrome阅读器界面

3.4 装置其余阅读器

无界面阅读器phantomjs

下载网址：http://phantomjs.org/

下载实现后解压，把整个目次放到D:\Python3.6.0\Scripts\，把bin目次的门路增加到PATH变量

验证：

关上CMD

2. 解析库：

2.1 lxml (XPATH)

关上CMD输出pip3 install lxml或许从https://pypi.python.org下载，例如，lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件，饬令行执行pip3 install 文件名.whl

2.2 beautifulsoup

关上CMD，需求先装置好lxml

pip3 install beautifulsoup4

2.3 pyquery（相似jquery语法）

关上CMD，pip3 install pyquery

验证装置后果

3. 存储库

3.1 pymysql（操作MySQL，关系型数据库）

装置：pip3 install pymysql，装置后测试：

3.2 pymongo（操作MongoDB，key-value）

装置 pip3 install pymongo

验证

3.3 redis（散布式爬虫，保护爬取行列步队）装置：pip3 install redis

验证：

4.1Django（散布式爬虫保护零碎）pip3 install django

4.2jupyter（运转正在网页真个记事本，支持markdown，能够正在网页上运转代码）装置 pip3 install jupyter

验证：关上CMD，jupyter notebook

之后就能够正在网页间接创立记事本，代码块以及Markdown块，支持打印

以上就是python爬虫要装甚么库的具体内容，更多请存眷资源魔其它相干文章！

标签： python教程 python编程 python使用问题 python爬虫

本文地址： http://www.ziyuanmo.com/python-kfjc/17879.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

上一个python怎么把input的值储存到一个列表-Python教程

下一个python 怎么把列表的[]去掉-Python教程

抱歉，评论功能暂时关闭!