首页问答社区 PHP技术正文

神奇的Python模块：pdfkit,将Python抓取的网址内容保存pdf文件

2022-10-11 22:03:36 171

图/文：迷神

写 Python 爬虫写的多了，有时候想把网址页面内容，按照标题.pdf模式，直接保存为pdf电子书的形式。这样也非常方便备档阅读，特别是一些简洁的比如微信公众号的里面的文章，很简洁，很适合将网址内容保存成pdf文档。

于是，我就发现了神奇的Python模块：pdfkit，他可以将Python抓取的网址内容保存pdf文件形式，很优美的赶脚。

pdfkit安装，很简单，一行命令即可：

 pip install pdfkit

pdfkit需要一个wkhtmltopdf的软件做支持，如图：

wkhtmltopdf软件下载

我是win10系统64，下载wkhtmltopdf第一个如图的就行，然后将安装目录下的 bin 添加到环境变量的path中，如果不设置环境变量，那就需要指定了这个文件目录。

 import pdfkit
class pdf:
    def make(self):
        config = pdfkit. configuration (wkhtmltopdf=r"D:\wkhtmltopdf\bin\wkhtmltopdf.exe")
        pdfkit.from_url("url网址", "1.pdf", configuration=config)

if __name__ == '__main__':
    p = pdf()
    p.make()

执行结果

代码执行完之后，就可以看到1.pdf文件了，我使用的微信的地址，微信简洁清爽，这个pdf生成，超过一页了，可以有多页进行完整存储还是不错的。

pdfkit模块的源码中，代码量不大，大家喜欢可以看看，接口文件：pdfkit/ api .py，主要包含以下方法也在里面。

从接口文档上看，pdfkit可以支持三种的方法，除了上面，我们说的传入url地址之外，还支持另外两种模式：

1、form_file:传入的参数为 html文件

 def from_file( input , output_path, options=None, toc=None, cover=None, 
              css=None,configuration=None, cover_first=False)

2、form_string:传入的参数为字符串

 def from_string(input, output_path, options=None, toc=None, cover=None, css=None,
                configuration=None, cover_first=False)

好了，就这么多啦，我是迷神，更多精彩，记得关注我哦，请多多转发，有问题也可以评论哦。

分享空间
分享微博
手机扫一扫

海报

171

上一篇：程序员：5年php开发,发展有限准备转go,网友：你还会转回来的！下一篇：PHP优秀框架Laravel和Yii大PK

神奇的Python模块：pdfkit,将Python抓取的网址内容保存pdf文件

相关文章

最近发表

热评文章

热门文章

Linux怎样优化网络带宽使用

如何手工制作台历？简单步骤与创意设计指南

如何查询他人身份证号码？合法途径与注意事项解析

Windows防火墙打不开怎么办？全面解决方法

Linux设置环境变量的方法？linux设置环境变量的命令

CentOS与Aliyun Linux有什么区别？如何选择最佳方案？