python如何提取PDF文本-Python教程

资源魔 2020-07-21 22:19:52 60 0

本文为你展现，若何用Python把许多PDF文件的文本内容批量提掏出来.

起首，咱们读入一些模块，以进行文件操作。（保举学习：Python视频教程）

import glob
import os

演示目次下，有两个文件夹，辨别是pdf以及newpdf。

咱们指定 pdf 文件所正在门路为此中的pdf文件夹。

pdf_path = "pdf/"

咱们心愿取得一切 pdf 文件的门路。用glob，一条饬令就能实现这个性能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看咱们取得的 pdf 文件门路能否正确。

pdfs

['pdf/复杂零碎仿真的微博客虚伪信息分散模子钻研.pdf',
'pdf/面向影子剖析的交际媒体竞争谍报收集.pdf',
'pdf/面向人机协同的挪动互联网政务流派探析.pdf']

经历证。精确无误。

上面咱们行使 pdfminer 来从 pdf 文件中抽取内容。咱们需求从辅佐 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content

用这个函数，咱们测验考试从 pdf 文件列表中的第一篇里，抽取内容，而且把文本保留正在 content 变量里。

content = extract_pdf_content(pdfs[0])

显然，内容抽取其实不完满，页眉页脚等信息都混了出去。不外，关于咱们的许多文天职析用处来讲，这有关紧要。

更多Python相干技巧文章，请拜访Python教程栏目进行学习！

以上就是python若何提取PDF文本的具体内容，更多请存眷资源魔其它相干文章！

本文地址： http://www.ziyuanmo.com/python-kfjc/16776.html