python 爬虫罕用模块:
相干保举:python爬虫库和相干利器
Python规范库——urllib模块
性能:关上URL以及http协定之类
注:python 3.x中urllib库以及urilib2库兼并成为了urllib库。 此中urllib2.urlopen()变为了urllib.request.urlopen(),urllib2.Request()变为了urllib.request.Request()
urllib申请前往网页
urllib.request.urlopen
urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
urllib.requset.urlioen能够关上HTTP(次要)、HTTPS、FTP、协定的URL
ca 身份验证
data 以post形式提交URL时应用
url 提交网络地点(全程 前端需协定名 后端需端口 http:/192.168.1.1:80)
timeout 超不时间设置
函数前往工具有三个额定的办法
geturl() 前往response的url信息
罕用与url重定向info()前往response的根本信息
getcode()前往response的状态代码
示例:
#coding:utf-8 import urllib.request import time import platform #清屏函数(有关紧要 能够没有写) def clear(): print(u"内容过多 3秒后清屏") time.sleep(3) OS = platform.system() if (OS == u'Windows'): os.system('cls') else: os.system('clear') #拜访函数 def link百度(): url = 'http://www.百度.com' try: response = urllib.request.urlopen(url,timeout=3) except urllib.URLError: print(u'网络地点谬误') exit() with open('/home/ifeng/PycharmProjects/pachong/study/百度.txt','w') as fp: response = urllib.request.urlopen(url,timeout=3) fp.write(response.read()) print(u'猎取url信息,response.geturl()\n:%s'%response.getrul()) print(u'猎取前往代码,response.getcode()\n:%s' % response.getcode()) print(u'猎取前往信息,response.info()\n:%s' % response.info()) print(u"猎取的网页信息经存与百度.txt") if __name__ =='main': link百度()
Python规范库–logging模块
logging模块可以替代print函数的性能,将规范输入到日记文件保留起来,行使loggin模块能够局部代替debug
re模块
正则表白式
sys模块
零碎相干模块
sys.argv(前往一个列表,蕴含一切的饬令行)
sys.exit(加入顺序)
Scrapy框架
urllib以及re合营应用曾经太后进,如今支流的是Scrapy框架
更多Python相干技巧文章,请拜访Python教程栏目进行学习!
以上就是python爬虫需求挪用甚么模块的具体内容,更多请存眷资源魔其它相干文章!
标签: python教程 python编程 python使用问题 python爬虫调用的模块
抱歉,评论功能暂时关闭!