图/文:迷神
写 Python 爬虫写的多了,有时候想把网址页面内容,按照标题.pdf模式,直接保存为pdf电子书的形式。这样也非常方便备档阅读,特别是一些简洁的比如微信公众号的里面的文章,很简洁,很适合将网址内容保存成pdf文档。
于是,我就发现了神奇的Python模块:pdfkit,他可以将Python抓取的网址内容保存pdf文件形式,很优美的赶脚。
pdfkit安装,很简单,一行命令即可:
pip install pdfkit
pdfkit需要一个wkhtmltopdf的软件做支持,如图:
我是win10系统64,下载wkhtmltopdf第一个如图的就行,然后将安装目录下的 bin 添加到 环境变量 的path中,如果不设置环境变量,那就需要指定了这个文件目录。
import pdfkit
class pdf:
def make(self):
config = pdfkit. configuration (wkhtmltopdf=r"D:\wkhtmltopdf\bin\wkhtmltopdf.exe")
pdfkit.from_url("url网址", "1.pdf", configuration=config)
if __name__ == '__main__':
p = pdf()
p.make()
代码执行完之后,就可以看到1.pdf文件了,我使用的 微信 的地址,微信简洁清爽,这个pdf生成,超过一页了,可以有多页进行完整存储还是不错的。
pdfkit模块的 源码 中,代码量不大,大家喜欢可以看看,接口文件:pdfkit/ api .py,主要包含以下方法也在里面。
从接口文档上看,pdfkit可以支持三种的方法,除了上面,我们说的传入url地址之外,还支持另外两种模式:
1、form_file:传入的参数为 html文件
def from_file( input , output_path, options=None, toc=None, cover=None,
css=None,configuration=None, cover_first=False)
2、form_string:传入的参数为 字符串
def from_string(input, output_path, options=None, toc=None, cover=None, css=None,
configuration=None, cover_first=False)
好了,就这么多啦,我是迷神,更多精彩,记得关注我哦,请多多转发,有问题也可以评论哦。
海报
0 条评论
169
相关文章
- python(中无效的十进制怎么解决 python怎么转换进制)
- python怎么清除完全相同的行(python splte如何分隔有多个相同符号的str)
- python(编程控制电脑关机 如何控制电脑关机)
- python中的特殊标识符(python 中 标识符中可以有逗号吗)
- python(excel 提取数据写入新表 python导入excel数据找不到工作簿)
- python中字典定义的四种方法(python global关键字的用法详解)
- python(array用法 python如何对两个数组做差处理)
- python多行注释符号怎么表示
- python支持的操作系统是什么
- python如何判断列表为空
本站已关闭游客评论,请登录或者注册后再评论吧~