阅读PDF格式的论文或者一些书籍时,经常希望将PDF文件中的图片提取出来,市面上有些PDF格式转换的工具可以做到,但是很多都要收费。通过Python的pymupdf库可以完成该功能
安装pymupdf
1 | pip install pymupdf |
这里要注意的是安装的库是pymupdf,但是实际使用的是pymupdf安装时带的fitz模块
首先是需要加载的库
1 | import os |
然后是定义pdf2image函数
1 | def pdf2image(pdf_path, img_path): |
定义一个从当前目录获取所有pdf文件列表的函数
1 | def get_pdf_files(): |
定义main函数
1 | if __name__ == "__main__": |
运行程序,以”MUSIQ: Multi-scale Image Quality Transformer”论文为例,获取到了如下图片