版本:v1.5.1 最新版 大小:15.30 MB
类别:财务软件 系统:WinXP, Win7, Win8, Win10
立即下载PDF/OFD电子发票解析InvoiceParse可以将OFD专用电子发票及PDF普通电子发票等发票信息提取至Excel,让各位可以根据更加直观的图表的方式,来分析和计算发票上的数据内容,而无需一个个的点开文件,查看并记录,大大提高了工作效率!
因工作原因需要转换电子发票,而且量大,上网搜索了很多,发现一个比较好用的,特来分享。
输入PDF电子发票所在路径,程序遍历路径下所有PDF电子发票(可以存在目录),读取并把主要一些信息写入Excel中。
1、下载后解压,得到一个文件和一个文件夹
2、直接运行exe文件(res文件夹中的内容不要动,res文件夹保留与exe文件在同一目录;Excel文件不要编辑,也不要删除,它是作为Excel样式模板而存在,没有这个文件会报错)
3、说明:此程序是在windows10下打包,不保证其他版本操作系统能够运行。
4、输入PDF电子发票所在路径
5、程序就会解析了(测试机上每秒解析3-4个)
6、去PDF文件目录下就可以找到生产的Excel文件了
7、打开Excel就可以看到提取到的信息了。提取的信息如下:
8、说明:1)、此程序仅在windows10下测试,其他操作系统很可能无法运行。2)、若某些电子发票存在限制复制内容,那么此程序无法读取其内容。
1)、python
2)、使用到的主要第三方包:
Excel读写:xlrd、xlutils、
PDF文件读取及信息提取:pdfplumber、re、matplotlib(调试时可视化用)
OFD文件读取及信息提取:zipfile、xml.dom.minidom
1)、PDF发票提取
①、使用pdfplumber读取pdf文件中的txt,使用re匹配关键字,提取绝大部分字段的信息(各pdf发票格式差异较大,需要使用多种匹配方式去提取)
②、使用pdfplumber读取pdf中的lines、edges、curves等,算出pdf中的表格定位点(各pdf差异较大,需要去尝试多种方案),再通过定位点,在pdf中提取特定区域的文字(比如,备注,货物清单)
2)、OFD发票提取
①、OFD是压缩文件,使用zipfile解压
②、使用xml.dom.minidom读取解压后的Doc_0/Attachs/original_invoice.xml等xml文件,提取信息
3)、Excel写入
①、使用xlrd读取模板Excel文件,使用xlutils复制格式等
1)、OFD发票测试样本太少,可能存在解析不了的
2)、部分字段可能存在提取不正确或缺失
3)、遇到提取失败或者部分字段提取失败的,可以联系我,并提交对应文件给我,我可以调试下。
4)、使用说明,请下载后看 使用说明.txt。
查看全部