pdf to text
将pdf文件通过批量命名工具,命名成数字序号的形式方便处理,放入 pdfs 目录 创建 txts 文件夹,用于放置输出的txt文件
pdfminer.six
安装 pdfminer.six
pip install pdfminer.six
在 windows cmd 中将 pdfs 目录下的 pdf 文件批量转为 txts 目录下的 txt 文件
for /r %i in (pdfs\*.pdf) do pdf2txt.py pdfs\%~ni.pdf -o txts\%~ni.txt
pdftk.exe
for /r %i in (pdfs\*.pdf) do pdftk.exe pdfs\%~ni.pdf dump_data output txts\%~ni.txt