python如何实现网络爬虫-Python教程

资源魔 30 0

python完成网络爬虫的办法:一、应用request库中的get办法,申请url的网页内容;二、【find()】以及【find_all()】办法能够遍历这个html文件,提取指定信息。

python完成网络爬虫的办法:

第一步:爬取

应用request库中的get办法,申请url的网页内容

编写代码

[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py
#web爬虫学习 -- 剖析
#猎取页面信息
 
#输出:url
#解决:request库函数猎取页面信息,并将网页内容转换成为人能看懂的编码格局
#输入:爬取到的内容
 
import requests
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #假如状态码没有是200,孕育发生异样
        r.encoding = 'utf-8'    #字符编码格局改为 utf-8
        return r.text
    except:
        #异样解决
        return " error "
 
url = "http://www.百度.com"
print( getHTMLText(url) )
[root@localhost demo]# python3 demo.py

第二步:剖析

应用bs4库中BeautifulSoup类,天生一个工具。find()以及find_all()办法能够遍历这个html文件,提取指定信息。

编写代码

[root@localhost demo]# touch demo1.py
[root@localhost demo]# vim demo1.py
#web爬虫学习 -- 剖析
#猎取页面信息
 
#输出:url
#解决:request库猎取页面信息,并从爬取到的内容中提取要害信息
#输入:打印输入提取到的要害信息
 
import requests
from bs4 import BeautifulSoup
import re
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #假如状态码没有是200,孕育发生异样
        r.encoding = 'utf-8'    #字符编码格局改为 utf-8
        return r.text
    except:
        #异样解决
        return " error "
 
def findHTMLText(text):
    soup = BeautifulSoup( text, "html.parser" )    #前往BeautifulSoup工具
    return soup.find_all(string=re.compile( 'baidu' )) #连系正则表白式,完成字符串片断婚配
 
url = "http://www.百度.com"
text = getHTMLText(url)        #猎取html文本内容
res = findHTMLText(text)    #婚配后果
 
print(res)        #打印输入
[root@localhost demo]# python3 demo1.py

相干收费学习保举:python视频教程

以上就是python若何完成网络爬虫的具体内容,更多请存眷资源魔其它相干文章!

标签: Python python教程 python编程 python使用问题 网络爬虫

抱歉,评论功能暂时关闭!