python爬虫需要调用什么模块-Python教程

资源魔 32 0

python 爬虫罕用模块:

相干保举:python爬虫库和相干利器

Python规范库——urllib模块

性能:关上URL以及http协定之类

注:python 3.x中urllib库以及urilib2库兼并成为了urllib库。 此中urllib2.urlopen()变为了urllib.request.urlopen(),urllib2.Request()变为了urllib.request.Request()

urllib申请前往网页

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib.requset.urlioen能够关上HTTP(次要)、HTTPS、FTP、协定的URL

ca 身份验证

data 以post形式提交URL时应用

url 提交网络地点(全程 前端需协定名 后端需端口 http:/192.168.1.1:80)

timeout 超不时间设置

函数前往工具有三个额定的办法

geturl() 前往response的url信息

罕用与url重定向info()前往response的根本信息

getcode()前往response的状态代码

示例:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(有关紧要 能够没有写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u'Windows'):
        os.system('cls')
    else:
        os.system('clear')
#拜访函数
def link百度():
    url = 'http://www.百度.com'
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u'网络地点谬误')
        exit()
    with open('/home/ifeng/PycharmProjects/pachong/study/百度.txt','w') as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u'猎取url信息,response.geturl()\n:%s'%response.getrul())
    print(u'猎取前往代码,response.getcode()\n:%s' % response.getcode())
    print(u'猎取前往信息,response.info()\n:%s' % response.info())
    print(u"猎取的网页信息经存与百度.txt")


if __name__ =='main':
    link百度()

Python规范库–logging模块

logging模块可以替代print函数的性能,将规范输入到日记文件保留起来,行使loggin模块能够局部代替debug

re模块

正则表白式

sys模块

零碎相干模块

sys.argv(前往一个列表,蕴含一切的饬令行)

sys.exit(加入顺序)

Scrapy框架

urllib以及re合营应用曾经太后进,如今支流的是Scrapy框架

更多Python相干技巧文章,请拜访Python教程栏目进行学习!

以上就是python爬虫需求挪用甚么模块的具体内容,更多请存眷资源魔其它相干文章!

标签: python教程 python编程 python使用问题 python爬虫调用的模块

抱歉,评论功能暂时关闭!