python如何实现网络爬虫-Python教程

资源魔 2020-10-21 20:46:58 94 0

python完成网络爬虫的办法：一、应用request库中的get办法，申请url的网页内容；二、【find()】以及【find_all()】办法能够遍历这个html文件，提取指定信息。

python完成网络爬虫的办法：

第一步：爬取

应用request库中的get办法，申请url的网页内容

编写代码

[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py

#web爬虫学习 -- 剖析
#猎取页面信息
 
#输出：url
#解决：request库函数猎取页面信息，并将网页内容转换成为人能看懂的编码格局
#输入：爬取到的内容
 
import requests
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #假如状态码没有是200，孕育发生异样
        r.encoding = 'utf-8'    #字符编码格局改为 utf-8
        return r.text
    except:
        #异样解决
        return " error "
 
url = "http://www.百度.com"
print( getHTMLText(url) )

[root@localhost demo]# python3 demo.py

第二步：剖析

应用bs4库中BeautifulSoup类，天生一个工具。find()以及find_all()办法能够遍历这个html文件，提取指定信息。

编写代码

[root@localhost demo]# touch demo1.py
[root@localhost demo]# vim demo1.py
#web爬虫学习 -- 剖析
#猎取页面信息
 
#输出：url
#解决：request库猎取页面信息，并从爬取到的内容中提取要害信息
#输入：打印输入提取到的要害信息
 
import requests
from bs4 import BeautifulSoup
import re
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #假如状态码没有是200，孕育发生异样
        r.encoding = 'utf-8'    #字符编码格局改为 utf-8
        return r.text
    except:
        #异样解决
        return " error "
 
def findHTMLText(text):
    soup = BeautifulSoup( text, "html.parser" )    #前往BeautifulSoup工具
    return soup.find_all(string=re.compile( 'baidu' )) #连系正则表白式，完成字符串片断婚配
 
url = "http://www.百度.com"
text = getHTMLText(url)        #猎取html文本内容
res = findHTMLText(text)    #婚配后果
 
print(res)        #打印输入