图/文:迷神
写 Python 爬虫写的多了,有时候想把网址页面内容,按照标题.pdf模式,直接保存为pdf电子书的形式。这样也非常方便备档阅读,特别是一些简洁的比如微信公众号的里面的文章,很简洁,很适合将网址内容保存成pdf文档。
于是,我就发现了神奇的Python模块:pdfkit,他可以将Python抓取的网址内容保存pdf文件形式,很优美的赶脚。

pdfkit安装,很简单,一行命令即可:
pip install pdfkit
pdfkit需要一个wkhtmltopdf的软件做支持,如图:

wkhtmltopdf软件下载
我是win10系统64,下载wkhtmltopdf第一个如图的就行,然后将安装目录下的 bin 添加到 环境变量 的path中,如果不设置环境变量,那就需要指定了这个文件目录。
import pdfkit
class pdf:
def make(self):
config = pdfkit. configuration (wkhtmltopdf=r"D:\wkhtmltopdf\bin\wkhtmltopdf.exe")
pdfkit.from_url("url网址", "1.pdf", configuration=config)
if __name__ == '__main__':
p = pdf()
p.make()

执行结果
代码执行完之后,就可以看到1.pdf文件了,我使用的 微信 的地址,微信简洁清爽,这个pdf生成,超过一页了,可以有多页进行完整存储还是不错的。
pdfkit模块的 源码 中,代码量不大,大家喜欢可以看看,接口文件:pdfkit/ api .py,主要包含以下方法也在里面。
从接口文档上看,pdfkit可以支持三种的方法,除了上面,我们说的传入url地址之外,还支持另外两种模式:
1、form_file:传入的参数为 html文件
def from_file( input , output_path, options=None, toc=None, cover=None,
css=None,configuration=None, cover_first=False)
2、form_string:传入的参数为 字符串
def from_string(input, output_path, options=None, toc=None, cover=None, css=None,
configuration=None, cover_first=False)
好了,就这么多啦,我是迷神,更多精彩,记得关注我哦,请多多转发,有问题也可以评论哦。
海报
170
相关文章
- Python 3.12 新特性解析:模式匹配增强与性能优化实战
- Lightly IDE 深度评测:轻量级 Python 开发工具是否适合团队协作?
- VS Code 自定义配置:JSON 文件修改、代码片段与任务自动化脚本
- Python 虚拟环境选择:venv、conda、poetry 的适用场景对比
- PyCharm+GitHub Copilot:Python 开发中 AI 辅助编码的最佳实践
- PyCharm 无法识别虚拟环境?5 步排查 Python 解释器配置问题
- 数据科学工具链:Jupyter Notebook+RStudio+Python 的协同工作流
- Python 3.12 新特性:模式匹配增强与性能改进实战
- Lightly IDE 适合谁?轻量级 Python 开发工具深度评测
- Python IDE 终极对比:PyCharm vs VS Code vs Jupyter Notebook